Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

d859c3e

verified ·

1 Parent(s): adbd41e

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -17

app.py CHANGED Viewed

@@ -3,10 +3,15 @@ import numpy as np
 import gradio as gr
 from sentence_transformers import SentenceTransformer
 import fitz  # PyMuPDF für die Textextraktion aus PDFs
-import os
 # Schritt 1: Lade das Modell für die Embeddings
-model = SentenceTransformer('all-MiniLM-L6-v2')
 # FAISS-Index erstellen
 def create_faiss_index(documents):
@@ -17,33 +22,46 @@ def create_faiss_index(documents):
     index.add(document_embeddings)  # Füge Dokumente zum Index hinzu
     return index, documents
-# Schritt 2: Extrahiere Text aus einem PDF
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
-    text_pages = []
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
-        text = page.get_text("text")  # Extrahiert den Text als normalen Text
-        text_pages.append(text)
-    return text_pages
-# Schritt 3: Suche nach einer ähnlichen Antwort auf eine Eingabeabfrage
-def search_documents(query, index, documents):
     query_embedding = model.encode([query])[0].astype('float32')
-    D, I = index.search(np.array([query_embedding]), k=1)  # Suche nach den Top 1 Treffern
-    return documents[I[0][0]]  # Gibt das am besten passende Dokument zurück
-# Schritt 4: Gesamtprozess (Fragebeantwortung)
 def chatbot_response(pdf_path, question):
     # Textextraktion aus der PDF
-    text_pages = extract_text_from_pdf(pdf_path)
     # FAISS-Index erstellen
-    index, documents = create_faiss_index(text_pages)
-    # Suche nach Antwort
-    answer = search_documents(question, index, documents)
     return answer
 # Gradio-Interface
@@ -57,7 +75,7 @@ interface = gr.Interface(
     inputs=[pdf_input, question_input],
     outputs=response_output,
     title="PDF-Fragebeantwortung mit FAISS und Transformers",
-    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet FAISS und Transformers, um die passende Antwort zu finden."
 )
 if __name__ == "__main__":

 import gradio as gr
 from sentence_transformers import SentenceTransformer
 import fitz  # PyMuPDF für die Textextraktion aus PDFs
+from transformers import pipeline
+import logging
+# Logging konfigurieren
+logging.basicConfig(level=logging.INFO)
 # Schritt 1: Lade das Modell für die Embeddings
+model = SentenceTransformer('all-mpnet-base-v2')  # Besser geeignet für längere Texte
+qa_model = pipeline("question-answering", model="distilbert-base-cased-distilled-squad")
 # FAISS-Index erstellen
 def create_faiss_index(documents):
     index.add(document_embeddings)  # Füge Dokumente zum Index hinzu
     return index, documents
+# Schritt 2: Extrahiere Text aus einem PDF (kleinere Abschnitte, z. B. Absätze)
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
+    text_chunks = []
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
+        text = page.get_text("text")
+        # Text in kleinere Abschnitte (z. B. Absätze) unterteilen
+        chunks = text.split('\n\n')  # Unterteilen nach Absätzen
+        text_chunks.extend(chunks)
+    return text_chunks
+# Schritt 3: Suche nach mehreren passenden Abschnitten
+def search_documents(query, index, documents, k=5):
     query_embedding = model.encode([query])[0].astype('float32')
+    D, I = index.search(np.array([query_embedding]), k=k)  # Suche nach den Top k Treffern
+    results = [documents[i] for i in I[0]]
+    return " ".join(results)  # Kombiniere die Top-Ergebnisse
+# Schritt 4: Nutze das QA-Modell, um eine präzise Antwort zu generieren
+def generate_answer(context, question):
+    result = qa_model(question=question, context=context)
+    return result['answer']
+# Schritt 5: Gesamtprozess (Fragebeantwortung)
 def chatbot_response(pdf_path, question):
+    logging.info(f"Frage: {question}")
     # Textextraktion aus der PDF
+    text_chunks = extract_text_from_pdf(pdf_path)
     # FAISS-Index erstellen
+    index, documents = create_faiss_index(text_chunks)
+    # Suche nach Kontext
+    context = search_documents(question, index, documents, k=5)
+    logging.info(f"Gefundener Kontext: {context[:500]}")  # Nur die ersten 500 Zeichen anzeigen
+    # Antwort generieren
+    answer = generate_answer(context, question)
     return answer
 # Gradio-Interface
     inputs=[pdf_input, question_input],
     outputs=response_output,
     title="PDF-Fragebeantwortung mit FAISS und Transformers",
+    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet FAISS, Transformers und ein QA-Modell, um präzise Antworten zu liefern."
 )
 if __name__ == "__main__":