Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

7f96312

verified ·

1 Parent(s): 19dec9f

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -13

app.py CHANGED Viewed

@@ -1,44 +1,52 @@
-import gradio as gr
 from transformers import pipeline
 from PyPDF2 import PdfReader
 import os
-# Setze das T5-small Modell für die Frage-Antwort-Pipeline
 qa_model = pipeline("question-answering", model="t5-small")
-# Funktion zur Extraktion von Text aus einer PDF-Datei
 def extract_text_from_pdf(pdf_path):
-    # Lade die PDF und extrahiere den Text
     reader = PdfReader(pdf_path)
     text = ""
     for page in reader.pages:
         text += page.extract_text()
     return text
-# Funktion zur Beantwortung der Frage basierend auf dem extrahierten PDF-Text
 def chatbot_response(pdf_path, question):
-    # Extrahiere den Text aus der PDF
     context = extract_text_from_pdf(pdf_path)
-    # Generiere eine Antwort basierend auf der Frage und dem extrahierten Kontext
-    result = qa_model(question=question, context=context)
-    return result['answer']
 # Gradio-Interface erstellen
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
 question_input = gr.Textbox(label="Frage eingeben", placeholder="Stelle eine Frage zu dem PDF-Dokument")
 response_output = gr.Textbox(label="Antwort")
-# Gradio-Interface für die Benutzeroberfläche
 interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],
     outputs=response_output,
-    title="PDF-Fragebeantwortung mit T5 und Transformers",
-    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet T5, um die passende Antwort zu finden."
 )
-# Gradio-Interface starten
 if __name__ == "__main__":
     interface.launch()

 from transformers import pipeline
+import gradio as gr
+import torch
 from PyPDF2 import PdfReader
 import os
+# T5-Modell laden
 qa_model = pipeline("question-answering", model="t5-small")
+# Funktion zum Extrahieren von Text aus der PDF
 def extract_text_from_pdf(pdf_path):
     reader = PdfReader(pdf_path)
     text = ""
     for page in reader.pages:
         text += page.extract_text()
     return text
+# Funktion für das Bearbeiten der Frage und des Kontextes
 def chatbot_response(pdf_path, question):
+    # PDF-Text extrahieren
     context = extract_text_from_pdf(pdf_path)
+    # Bei langen Dokumenten Text in Abschnitte unterteilen (max. 512 Tokens)
+    max_input_length = 512
+    context_parts = [context[i:i + max_input_length] for i in range(0, len(context), max_input_length)]
+    answers = []
+    # Iteriere über alle Textabschnitte und frage das Modell
+    for part in context_parts:
+        result = qa_model(question=question, context=part)
+        answers.append(result['answer'])
+    # Antworte mit der besten Antwort (du kannst auch mehrere Antworten kombinieren)
+    return answers[-1] if answers else "Keine Antwort gefunden"
 # Gradio-Interface erstellen
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
 question_input = gr.Textbox(label="Frage eingeben", placeholder="Stelle eine Frage zu dem PDF-Dokument")
 response_output = gr.Textbox(label="Antwort")
+# Gradio-Interface
 interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],
     outputs=response_output,
+    title="PDF-Fragebeantwortung mit T5 und Gradio",
+    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Das System verwendet T5, um passende Antworten zu finden."
 )
 if __name__ == "__main__":
     interface.launch()