Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

d93fe74

verified ·

1 Parent(s): d4da6a6

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -17

app.py CHANGED Viewed

@@ -9,9 +9,9 @@ import logging
 # Logging konfigurieren
 logging.basicConfig(level=logging.INFO)
-# Schritt 1: Lade das Modell für die Embeddings
-model = SentenceTransformer('all-mpnet-base-v2')  # Besser geeignet für längere Texte
-qa_model = pipeline("question-answering", model="distilbert-base-cased-distilled-squad")
 # FAISS-Index erstellen
 def create_faiss_index(documents):
@@ -19,57 +19,57 @@ def create_faiss_index(documents):
     dimension = len(document_embeddings[0])
     index = faiss.IndexFlatL2(dimension)
     document_embeddings = np.array(document_embeddings).astype('float32')
-    index.add(document_embeddings)  # Füge Dokumente zum Index hinzu
     return index, documents
-# Schritt 2: Extrahiere Text aus einem PDF (kleinere Abschnitte, z. B. Absätze)
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     text_chunks = []
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
-        # Text in kleinere Abschnitte (z. B. Absätze) unterteilen
         chunks = text.split('\n\n')  # Unterteilen nach Absätzen
         text_chunks.extend(chunks)
     return text_chunks
-# Schritt 3: Suche nach mehreren passenden Abschnitten
 def search_documents(query, index, documents, k=5):
     query_embedding = model.encode([query])[0].astype('float32')
-    D, I = index.search(np.array([query_embedding]), k=k)  # Suche nach den Top k Treffern
     results = [documents[i] for i in I[0]]
-    return " ".join(results)  # Kombiniere die Top-Ergebnisse
-# Schritt 4: Nutze das QA-Modell, um eine präzise Antwort zu generieren
 def generate_answer(context, question):
-    result = qa_model(question=question, context=context)
     return result['answer']
-# Schritt 5: Gesamtprozess (Fragebeantwortung)
 def chatbot_response(pdf_path, question):
     logging.info(f"Frage: {question}")
-    # Textextraktion aus der PDF
     text_chunks = extract_text_from_pdf(pdf_path)
     # FAISS-Index erstellen
     index, documents = create_faiss_index(text_chunks)
-    # Suche nach Kontext
     context = search_documents(question, index, documents, k=5)
-    logging.info(f"Gefundener Kontext: {context[:500]}")  # Nur die ersten 500 Zeichen anzeigen
     # Antwort generieren
     answer = generate_answer(context, question)
     return answer
 # Gradio-Interface
-pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")  # Ändert type="file" zu type="filepath"
 question_input = gr.Textbox(label="Frage eingeben", placeholder="Stelle eine Frage zu dem PDF-Dokument")
 response_output = gr.Textbox(label="Antwort")
-# Gradio-Interface erstellen
 interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],

 # Logging konfigurieren
 logging.basicConfig(level=logging.INFO)
+# Modelle laden
+model = SentenceTransformer('all-mpnet-base-v2')
+qa_model = pipeline("question-answering", model="deepset/roberta-base-squad2")
 # FAISS-Index erstellen
 def create_faiss_index(documents):
     dimension = len(document_embeddings[0])
     index = faiss.IndexFlatL2(dimension)
     document_embeddings = np.array(document_embeddings).astype('float32')
+    index.add(document_embeddings)
     return index, documents
+# Text aus PDF extrahieren (kleinere Abschnitte)
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     text_chunks = []
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
         chunks = text.split('\n\n')  # Unterteilen nach Absätzen
         text_chunks.extend(chunks)
     return text_chunks
+# Suche nach mehreren passenden Abschnitten
 def search_documents(query, index, documents, k=5):
     query_embedding = model.encode([query])[0].astype('float32')
+    D, I = index.search(np.array([query_embedding]), k=k)
     results = [documents[i] for i in I[0]]
+    return " ".join(results)  # Kombiniere mehrere Treffer
+# QA-Modell für präzise Antworten nutzen
 def generate_answer(context, question):
+    max_context_length = 512
+    truncated_context = " ".join(context.split()[:max_context_length])  # Kontext begrenzen
+    result = qa_model(question=question, context=truncated_context)
     return result['answer']
+# Gesamtprozess
 def chatbot_response(pdf_path, question):
     logging.info(f"Frage: {question}")
+    # Text extrahieren
     text_chunks = extract_text_from_pdf(pdf_path)
     # FAISS-Index erstellen
     index, documents = create_faiss_index(text_chunks)
+    # Kontext suchen
     context = search_documents(question, index, documents, k=5)
+    logging.info(f"Verwendeter Kontext: {context[:500]}")  # Loggen des Kontexts
     # Antwort generieren
     answer = generate_answer(context, question)
     return answer
 # Gradio-Interface
+pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
 question_input = gr.Textbox(label="Frage eingeben", placeholder="Stelle eine Frage zu dem PDF-Dokument")
 response_output = gr.Textbox(label="Antwort")
 interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],