Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

56daa17

verified ·

1 Parent(s): 5802e2a

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -56

app.py CHANGED Viewed

@@ -1,63 +1,58 @@
-import gradio as gr
-from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
-import fitz  # PyMuPDF
-# Lade das RAG-Modell, Tokenizer und Retriever
-model_name = "facebook/rag-token-nq"  # Funktionierendes RAG-Modell mit Encoder und Generator
-tokenizer = RagTokenizer.from_pretrained(model_name)
-model = RagSequenceForGeneration.from_pretrained(model_name)
-retriever = RagRetriever.from_pretrained(model_name, index_name="exact", use_dummy_dataset=True)
-# Funktion zur Textextraktion aus PDF
-def extract_text_from_pdf(file):
-    # Öffne die PDF-Datei mit PyMuPDF
-    doc = fitz.open(file.name)
-    # Extrahiere Text aus jeder Seite der PDF
-    text = ""
-    for page_num in range(len(doc)):
-        page = doc.load_page(page_num)
-        text += page.get_text("text")  # Extrahiert den Text der Seite
-    return text
-# Funktion zur Beantwortung der Frage durch das Modell
-def get_rag_answer(input_message, uploaded_file):
-    # Extrahiere den Text aus dem hochgeladenen PDF-Dokument
-    document_text = extract_text_from_pdf(uploaded_file)
-    # Hier verwenden wir den extrahierten Text für das Abrufen von Informationen
-    inputs = tokenizer(input_message, return_tensors="pt")
-    # Abrufen von relevanten Dokumenten mit dem RagRetriever
-    retrieved_docs = retriever.retrieve(input_ids=inputs["input_ids"])
-    # Kombiniere die abgerufenen Dokumente und frage das Modell zur Generierung einer Antwort
-    input_ids = tokenizer(input_message, return_tensors="pt").input_ids
-    generated_ids = model.generate(input_ids=input_ids,
-                                   decoder_start_token_id=model.config.pad_token_id,
-                                   num_beams=4,
-                                   max_length=100)
-    answer = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
-    # Hier könnten wir eine Referenz (z.B. Absatz, Seite) in die Antwort einfügen
-    references = "Referenz: Abschnitt X, Seite Y (aus Dokument)"  # Füge diese Infos hinzu, falls möglich
-    return f"{answer} \n\n{references}"
-# Gradio-Oberfläche
-def gradio_interface():
-    iface = gr.Interface(
-        fn=get_rag_answer,
-        inputs=[
-            gr.Textbox(label="User Input", placeholder="Stellen Sie eine Frage..."),
-            gr.File(label="Laden Sie ein PDF-Dokument hoch", type="file")  # Ermöglicht das Hochladen von PDF-Dateien
-        ],
-        outputs=gr.Textbox(label="Antwort des Chatbots"),
-        live=True  # Sofortige Antwortgenerierung
-    )
-    iface.launch()
-# Starte die Gradio-Oberfläche
-gradio_interface()

+import os
+import PyPDF2
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain.document_loaders import TextLoader
+from langchain.prompts import PromptTemplate
+from langchain.llms import OpenAI
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+# Funktion zum Extrahieren von Text aus PDF
+def extract_text_from_pdf(pdf_path):
+    with open(pdf_path, 'rb') as file:
+        reader = PyPDF2.PdfReader(file)
+        text = ""
+        for page in reader.pages:
+            text += page.extract_text()
+    return text
+# Funktion zum Erstellen von Embeddings und Indexierung
+def create_embeddings_and_index(text):
+    # Text in kleinere Teile aufteilen
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+    texts = text_splitter.split_text(text)
+    # Embeddings erzeugen
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    # Indexierung mit FAISS
+    db = FAISS.from_texts(texts, embeddings)
+    return db
+# Funktion für die Frage-Antwort-Pipeline
+def answer_question(db, question):
+    qa_chain = RetrievalQA.from_chain_type(llm=OpenAI(), retriever=db.as_retriever())
+    response = qa_chain.run(question)
+    return response
+# Beispiel für die Nutzung
+def main():
+    # Dokument-Pfad
+    pdf_path = 'path_to_your_pdf_document.pdf'
+    # PDF extrahieren
+    text = extract_text_from_pdf(pdf_path)
+    print(f"Text aus dem Dokument extrahiert: {text[:500]}...")  # Nur ersten 500 Zeichen anzeigen
+    # Embeddings erstellen und Index erstellen
+    db = create_embeddings_and_index(text)
+    print("Embeddings und Index erfolgreich erstellt.")
+    # Frage stellen
+    question = "Was ist das Ziel dieses Dokuments?"
+    answer = answer_question(db, question)
+    print(f"Antwort auf die Frage '{question}': {answer}")
+if __name__ == "__main__":
+    main()