Spaces:

la04
/

RAG_test_1

Sleeping

la04 commited on Jan 9

Commit

05103a4

verified ·

1 Parent(s): cb92135

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ import logging
 logging.basicConfig(level=logging.INFO)
 # Modelle laden
-model = SentenceTransformer('all-mpnet-base-v2')
 qa_model = pipeline("question-answering", model="deepset/roberta-base-squad2")
 # FAISS-Index erstellen
@@ -34,15 +34,19 @@ def extract_text_from_pdf(pdf_path):
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
         chunks = split_text_into_chunks(text)
         text_chunks.extend(chunks)
     return text_chunks
 # Kontexte nach Relevanz bewerten
 def rank_contexts_by_relevance(query, contexts):
-    scores = model.encode([query]) @ model.encode(contexts).T
-    ranked_contexts = sorted(zip(scores[0], contexts), key=lambda x: x[0], reverse=True)
-    return [context for _, context in ranked_contexts[:5]]  # Nur die Top 5 Kontexte
 # Suche und Bewertung
 def search_and_rank_answers(query, index, documents, k=10):
@@ -65,7 +69,8 @@ def search_and_rank_answers(query, index, documents, k=10):
 # Antworten kombinieren
 def combine_answers(answers):
-    return " ".join(answers[:3])  # Kombiniere die Top 3 Antworten
 # Gesamtprozess
 def chatbot_response(pdf_path, question):

 logging.basicConfig(level=logging.INFO)
 # Modelle laden
+model = SentenceTransformer('all-MiniLM-L6-v2')
 qa_model = pipeline("question-answering", model="deepset/roberta-base-squad2")
 # FAISS-Index erstellen
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
+        if not text.strip():  # Überprüfen, ob der Text leer ist
+            logging.warning(f"Leerer Text auf Seite {page_num}")
         chunks = split_text_into_chunks(text)
         text_chunks.extend(chunks)
     return text_chunks
 # Kontexte nach Relevanz bewerten
 def rank_contexts_by_relevance(query, contexts):
+    query_embedding = model.encode([query])[0].astype('float32')
+    context_embeddings = model.encode(contexts)
+    scores = np.dot(query_embedding, context_embeddings.T)  # Dot-Produkt zur Berechnung der Relevanz
+    ranked_contexts = sorted(zip(scores, contexts), key=lambda x: x[0], reverse=True)
+    return [context for _, context in ranked_contexts[:5]]  # Nur die Top 5 Kontexte zurückgeben
 # Suche und Bewertung
 def search_and_rank_answers(query, index, documents, k=10):
 # Antworten kombinieren
 def combine_answers(answers):
+    # Kombiniert die Top 3 Antworten zu einer einzigen Antwort
+    return " ".join(answers[:3])
 # Gesamtprozess
 def chatbot_response(pdf_path, question):