Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 10

Commit

b0a7bef

verified ·

1 Parent(s): 93850b9

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -15

app.py CHANGED Viewed

@@ -18,8 +18,8 @@ def extract_text_from_pdf(pdf_path):
     return text
 def clean_text(text):
-    text = re.sub(r'\s+', ' ', text)
-    text = re.sub(r'[^\w\s.,-]', '', text)
     return text.strip()
 def split_text_into_paragraphs(text, max_length=500):
@@ -36,27 +36,46 @@ def split_text_into_paragraphs(text, max_length=500):
         refined_paragraphs.append(temp.strip())
     return refined_paragraphs
 def find_relevant_parts(question, context_parts):
-    keywords = question.split()
     relevant_parts = [
-        part for part in context_parts if any(keyword.lower() in part.lower() for keyword in keywords)
     ]
-    return relevant_parts if relevant_parts else context_parts
-def validate_and_refine_answer(answer):
-    if not answer or len(answer.split()) < 5:
         return "Die Antwort konnte nicht eindeutig aus dem Dokument ermittelt werden."
-    invalid_phrases = ["bluetooth", "hand", "ke", "eingelegt"]
-    for phrase in invalid_phrases:
-        answer = answer.replace(phrase, "")
     return answer.capitalize().strip()
 def chatbot_response(pdf_path, question):
-    context = extract_text_from_pdf(pdf_path)
-    context = clean_text(context)
     context_parts = split_text_into_paragraphs(context)
     relevant_parts = find_relevant_parts(question, context_parts)
     answers = []
     for part in relevant_parts:
         try:
@@ -64,11 +83,13 @@ def chatbot_response(pdf_path, question):
             answers.append(result['answer'])
         except Exception:
             continue
-    final_answer = validate_and_refine_answer(" ".join(answers).strip())
     return final_answer
-# Gradio-Interface
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
 question_input = gr.Textbox(label="Frage eingeben", placeholder="Stelle eine Frage zu dem PDF-Dokument")
 response_output = gr.Textbox(label="Antwort")

     return text
 def clean_text(text):
+    text = re.sub(r'\s+', ' ', text)  # Mehrere Leerzeichen und Zeilenumbrüche reduzieren
+    text = re.sub(r'[^\w\s.,-]', '', text)  # Entfernen von Sonderzeichen
     return text.strip()
 def split_text_into_paragraphs(text, max_length=500):
         refined_paragraphs.append(temp.strip())
     return refined_paragraphs
+# Funktion zur Relevanzbewertung von Abschnitten
 def find_relevant_parts(question, context_parts):
+    keywords = question.lower().split()
     relevant_parts = [
+        part for part in context_parts if any(keyword in part.lower() for keyword in keywords)
     ]
+    if not relevant_parts:
+        # Fallback: Abschnitte mit den meisten Übereinstimmungen wählen
+        keyword_counts = [
+            (part, sum(part.lower().count(keyword) for keyword in keywords))
+            for part in context_parts
+        ]
+        keyword_counts.sort(key=lambda x: x[1], reverse=True)
+        relevant_parts = [keyword_counts[0][0]] if keyword_counts else context_parts
+    return relevant_parts
+# Funktion für Antwort-Postprocessing
+def refine_answer(answer, question, context):
+    if not answer or len(answer.split()) < 3:
+        # Versuche, die Antwort direkt aus dem Kontext zu extrahieren
+        keywords = question.lower().split()
+        relevant_sentences = [
+            sentence for sentence in context.split('.')
+            if any(keyword in sentence.lower() for keyword in keywords)
+        ]
+        if relevant_sentences:
+            return " ".join(relevant_sentences).strip()
         return "Die Antwort konnte nicht eindeutig aus dem Dokument ermittelt werden."
     return answer.capitalize().strip()
+# Hauptfunktion für den Chatbot
 def chatbot_response(pdf_path, question):
+    # Text extrahieren und bereinigen
+    context = clean_text(extract_text_from_pdf(pdf_path))
     context_parts = split_text_into_paragraphs(context)
+    # Relevante Abschnitte finden
     relevant_parts = find_relevant_parts(question, context_parts)
+    # Antworten aus relevanten Abschnitten generieren
     answers = []
     for part in relevant_parts:
         try:
             answers.append(result['answer'])
         except Exception:
             continue
+    # Beste Antwort auswählen und verfeinern
+    combined_context = " ".join(relevant_parts)
+    final_answer = refine_answer(" ".join(answers).strip(), question, combined_context)
     return final_answer
+# Gradio-Interface erstellen
 pdf_input = gr.File(label="PDF-Datei hochladen", type="filepath")
 question_input = gr.Textbox(label="Frage eingeben", placeholder="Stelle eine Frage zu dem PDF-Dokument")
 response_output = gr.Textbox(label="Antwort")