Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 10

Commit

7b74120

verified ·

1 Parent(s): 3b403d0

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -9

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import gradio as gr
 from PyPDF2 import PdfReader
 # Modell und Tokenizer für Fragebeantwortung laden
-model_name = "deepset/roberta-base-squad2"
 model = AutoModelForQuestionAnswering.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
@@ -17,17 +17,55 @@ def extract_text_from_pdf(pdf_path):
         text += page.extract_text()
     return text
 # Funktion für die Fragebeantwortung
 def chatbot_response(pdf_path, question):
     # PDF-Text extrahieren
     context = extract_text_from_pdf(pdf_path)
-    # Frage beantworten
-    try:
-        result = qa_pipeline(question=question, context=context)
-        return result['answer']
-    except Exception as e:
-        return f"Fehler bei der Beantwortung: {e}"
 # Gradio-Interface erstellen
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
@@ -39,8 +77,8 @@ interface = gr.Interface(
     fn=chatbot_response,
     inputs=[pdf_input, question_input],
     outputs=response_output,
-    title="PDF-Fragebeantwortung auf Deutsch",
-    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Antworten basieren nur auf den PDF-Inhalten."
 )
 if __name__ == "__main__":

 from PyPDF2 import PdfReader
 # Modell und Tokenizer für Fragebeantwortung laden
+model_name = "deepset/roberta-base-squad2"  # Anpassung bei Bedarf nach Fine-Tuning
 model = AutoModelForQuestionAnswering.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
         text += page.extract_text()
     return text
+# Funktion für Kontextvorverarbeitung: Aufteilung in Abschnitte basierend auf Absätzen
+def split_text_into_paragraphs(text, max_length=500):
+    paragraphs = text.split("\n")  # Text nach Zeilenumbrüchen aufteilen
+    refined_paragraphs = []
+    temp = ""
+    for para in paragraphs:
+        if len(temp) + len(para) <= max_length:
+            temp += " " + para
+        else:
+            refined_paragraphs.append(temp.strip())
+            temp = para
+    if temp:
+        refined_paragraphs.append(temp.strip())
+    return refined_paragraphs
+# Funktion für Postprocessing der Antwort
+def refine_answer(answer):
+    if not answer or len(answer.split()) < 3:  # Minimalbedingung für eine gültige Antwort
+        return "Die Antwort konnte nicht eindeutig aus dem Dokument ermittelt werden."
+    # Weitere Regeln für Umformulierung oder Präzisierung könnten hier folgen
+    return answer.capitalize().strip()
 # Funktion für die Fragebeantwortung
 def chatbot_response(pdf_path, question):
     # PDF-Text extrahieren
     context = extract_text_from_pdf(pdf_path)
+    # Text vorverarbeiten: Aufteilen in Absätze
+    context_parts = split_text_into_paragraphs(context)
+    # Relevante Abschnitte finden (Keyword-Suche)
+    relevant_parts = [part for part in context_parts if any(word.lower() in part.lower() for word in question.split())]
+    if not relevant_parts:
+        relevant_parts = context_parts  # Fallback auf gesamten Text, wenn keine Übereinstimmungen gefunden werden
+    # Frage beantworten: Kombiniere Antworten aus relevanten Abschnitten
+    answers = []
+    for part in relevant_parts:
+        try:
+            result = qa_pipeline(question=question, context=part)
+            answers.append(result['answer'])
+        except Exception as e:
+            answers.append("")  # Fehlerhafte Abschnitte überspringen
+    # Beste Antwort auswählen und Postprocessing anwenden
+    final_answer = refine_answer(" ".join(answers).strip())
+    return final_answer
 # Gradio-Interface erstellen
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
     fn=chatbot_response,
     inputs=[pdf_input, question_input],
     outputs=response_output,
+    title="Verbesserte PDF-Fragebeantwortung",
+    description="Lade eine PDF-Datei hoch und stelle Fragen zu ihrem Inhalt. Antworten basieren nur auf den PDF-Inhalten und werden optimiert ausgegeben."
 )
 if __name__ == "__main__":