Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

b12560a

verified ·

1 Parent(s): d93fe74

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -15

app.py CHANGED Viewed

@@ -22,7 +22,7 @@ def create_faiss_index(documents):
     index.add(document_embeddings)
     return index, documents
-# Text aus PDF extrahieren (kleinere Abschnitte)
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     text_chunks = []
@@ -34,18 +34,22 @@ def extract_text_from_pdf(pdf_path):
     return text_chunks
 # Suche nach mehreren passenden Abschnitten
-def search_documents(query, index, documents, k=5):
     query_embedding = model.encode([query])[0].astype('float32')
-    D, I = index.search(np.array([query_embedding]), k=k)
     results = [documents[i] for i in I[0]]
-    return " ".join(results)  # Kombiniere mehrere Treffer
-# QA-Modell für präzise Antworten nutzen
-def generate_answer(context, question):
-    max_context_length = 512
-    truncated_context = " ".join(context.split()[:max_context_length])  # Kontext begrenzen
-    result = qa_model(question=question, context=truncated_context)
-    return result['answer']
 # Gesamtprozess
 def chatbot_response(pdf_path, question):
@@ -57,12 +61,12 @@ def chatbot_response(pdf_path, question):
     # FAISS-Index erstellen
     index, documents = create_faiss_index(text_chunks)
-    # Kontext suchen
-    context = search_documents(question, index, documents, k=5)
-    logging.info(f"Verwendeter Kontext: {context[:500]}")  # Loggen des Kontexts
     # Antwort generieren
-    answer = generate_answer(context, question)
     return answer
 # Gradio-Interface
@@ -75,7 +79,7 @@ interface = gr.Interface(
     inputs=[pdf_input, question_input],
     outputs=response_output,
     title="PDF-Fragebeantwortung mit FAISS und Transformers",
-    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet FAISS, Transformers und ein QA-Modell, um präzise Antworten zu liefern."
 )
 if __name__ == "__main__":

     index.add(document_embeddings)
     return index, documents
+# Text aus PDF extrahieren
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     text_chunks = []
     return text_chunks
 # Suche nach mehreren passenden Abschnitten
+def search_documents(query, index, documents, k=10):
     query_embedding = model.encode([query])[0].astype('float32')
+    D, I = index.search(np.array([query_embedding]), k=k)  # Suche nach den Top k Treffern
     results = [documents[i] for i in I[0]]
+    return results  # Liste von Kontexten zurückgeben
+# Kombiniere mehrere Antworten
+def generate_detailed_answer(contexts, question):
+    detailed_answer = []
+    for context in contexts:
+        try:
+            result = qa_model(question=question, context=context)
+            detailed_answer.append(result['answer'])
+        except Exception as e:
+            logging.warning(f"Fehler im QA-Modell: {e}")
+    return " ".join(detailed_answer)
 # Gesamtprozess
 def chatbot_response(pdf_path, question):
     # FAISS-Index erstellen
     index, documents = create_faiss_index(text_chunks)
+    # Suche nach Kontexten
+    contexts = search_documents(question, index, documents, k=10)
+    logging.info(f"Gefundene Kontexte: {[context[:100] for context in contexts]}")  # Logge die ersten 100 Zeichen jedes Kontexts
     # Antwort generieren
+    answer = generate_detailed_answer(contexts, question)
     return answer
 # Gradio-Interface
     inputs=[pdf_input, question_input],
     outputs=response_output,
     title="PDF-Fragebeantwortung mit FAISS und Transformers",
+    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet FAISS, Transformers und ein QA-Modell, um detaillierte Antworten zu liefern."
 )
 if __name__ == "__main__":