Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

0c5dd07

verified ·

1 Parent(s): b12560a

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -23

app.py CHANGED Viewed

@@ -22,6 +22,11 @@ def create_faiss_index(documents):
     index.add(document_embeddings)
     return index, documents
 # Text aus PDF extrahieren
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
@@ -29,45 +34,49 @@ def extract_text_from_pdf(pdf_path):
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
-        chunks = text.split('\n\n')  # Unterteilen nach Absätzen
         text_chunks.extend(chunks)
     return text_chunks
-# Suche nach mehreren passenden Abschnitten
-def search_documents(query, index, documents, k=10):
     query_embedding = model.encode([query])[0].astype('float32')
-    D, I = index.search(np.array([query_embedding]), k=k)  # Suche nach den Top k Treffern
-    results = [documents[i] for i in I[0]]
-    return results  # Liste von Kontexten zurückgeben
-# Kombiniere mehrere Antworten
-def generate_detailed_answer(contexts, question):
-    detailed_answer = []
-    for context in contexts:
         try:
-            result = qa_model(question=question, context=context)
-            detailed_answer.append(result['answer'])
         except Exception as e:
-            logging.warning(f"Fehler im QA-Modell: {e}")
-    return " ".join(detailed_answer)
 # Gesamtprozess
 def chatbot_response(pdf_path, question):
     logging.info(f"Frage: {question}")
     # Text extrahieren
     text_chunks = extract_text_from_pdf(pdf_path)
     # FAISS-Index erstellen
     index, documents = create_faiss_index(text_chunks)
-    # Suche nach Kontexten
-    contexts = search_documents(question, index, documents, k=10)
-    logging.info(f"Gefundene Kontexte: {[context[:100] for context in contexts]}")  # Logge die ersten 100 Zeichen jedes Kontexts
-    # Antwort generieren
-    answer = generate_detailed_answer(contexts, question)
-    return answer
 # Gradio-Interface
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
@@ -79,7 +88,7 @@ interface = gr.Interface(
     inputs=[pdf_input, question_input],
     outputs=response_output,
     title="PDF-Fragebeantwortung mit FAISS und Transformers",
-    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet FAISS, Transformers und ein QA-Modell, um detaillierte Antworten zu liefern."
 )
 if __name__ == "__main__":

     index.add(document_embeddings)
     return index, documents
+# Text in kleinere Chunks aufteilen
+def split_text_into_chunks(text, chunk_size=300):
+    words = text.split()
+    return [" ".join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]
 # Text aus PDF extrahieren
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
+        chunks = split_text_into_chunks(text)
         text_chunks.extend(chunks)
     return text_chunks
+# Suche und Bewertung
+def search_and_rank_answers(query, index, documents, k=10):
     query_embedding = model.encode([query])[0].astype('float32')
+    D, I = index.search(np.array([query_embedding]), k=k)
+    ranked_answers = []
+    for i, doc_index in enumerate(I[0]):
+        context = documents[doc_index]
         try:
+            result = qa_model(question=query, context=context)
+            ranked_answers.append((result['answer'], D[0][i]))  # (Antwort, Distanz)
         except Exception as e:
+            logging.warning(f"Fehler bei der Antwortgenerierung: {e}")
+    # Antworten nach ihrer Relevanz sortieren
+    ranked_answers = sorted(ranked_answers, key=lambda x: x[1])
+    return [answer for answer, _ in ranked_answers]
+# Antworten kombinieren
+def combine_answers(answers):
+    return " ".join(answers[:3])  # Kombiniere die Top 3 Antworten
 # Gesamtprozess
 def chatbot_response(pdf_path, question):
     logging.info(f"Frage: {question}")
     # Text extrahieren
     text_chunks = extract_text_from_pdf(pdf_path)
     # FAISS-Index erstellen
     index, documents = create_faiss_index(text_chunks)
+    # Suche nach Antworten
+    answers = search_and_rank_answers(question, index, documents, k=10)
+    # Antworten kombinieren
+    detailed_answer = combine_answers(answers)
+    return detailed_answer
 # Gradio-Interface
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
     inputs=[pdf_input, question_input],
     outputs=response_output,
     title="PDF-Fragebeantwortung mit FAISS und Transformers",
+    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System kombiniert mehrere Antworten, um präzisere Ergebnisse zu liefern."
 )
 if __name__ == "__main__":