Spaces:

la04
/

RAG_test_1

Sleeping

App Files Files Community

la04 commited on Jan 9

Commit

b264d4d

verified ·

1 Parent(s): 05103a4

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -9

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ logging.basicConfig(level=logging.INFO)
 # Modelle laden
 model = SentenceTransformer('all-MiniLM-L6-v2')
-qa_model = pipeline("question-answering", model="deepset/roberta-base-squad2")
 # FAISS-Index erstellen
 def create_faiss_index(documents):
@@ -22,8 +22,8 @@ def create_faiss_index(documents):
     index.add(document_embeddings)
     return index, documents
-# Text in kleinere Chunks aufteilen
-def split_text_into_chunks(text, chunk_size=300):
     words = text.split()
     return [" ".join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]
@@ -34,7 +34,7 @@ def extract_text_from_pdf(pdf_path):
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
-        if not text.strip():  # Überprüfen, ob der Text leer ist
             logging.warning(f"Leerer Text auf Seite {page_num}")
         chunks = split_text_into_chunks(text)
         text_chunks.extend(chunks)
@@ -44,15 +44,14 @@ def extract_text_from_pdf(pdf_path):
 def rank_contexts_by_relevance(query, contexts):
     query_embedding = model.encode([query])[0].astype('float32')
     context_embeddings = model.encode(contexts)
-    scores = np.dot(query_embedding, context_embeddings.T)  # Dot-Produkt zur Berechnung der Relevanz
     ranked_contexts = sorted(zip(scores, contexts), key=lambda x: x[0], reverse=True)
     return [context for _, context in ranked_contexts[:5]]  # Nur die Top 5 Kontexte zurückgeben
-# Suche und Bewertung
 def search_and_rank_answers(query, index, documents, k=10):
     query_embedding = model.encode([query])[0].astype('float32')
     D, I = index.search(np.array([query_embedding]), k=k)
     ranked_contexts = [documents[i] for i in I[0]]
     top_contexts = rank_contexts_by_relevance(query, ranked_contexts)
@@ -69,8 +68,7 @@ def search_and_rank_answers(query, index, documents, k=10):
 # Antworten kombinieren
 def combine_answers(answers):
-    # Kombiniert die Top 3 Antworten zu einer einzigen Antwort
-    return " ".join(answers[:3])
 # Gesamtprozess
 def chatbot_response(pdf_path, question):

 # Modelle laden
 model = SentenceTransformer('all-MiniLM-L6-v2')
+qa_model = pipeline("question-answering", model="deepset/bert-large-uncased-whole-word-masking-finetuned-squad")
 # FAISS-Index erstellen
 def create_faiss_index(documents):
     index.add(document_embeddings)
     return index, documents
+# Text in größere Chunks aufteilen
+def split_text_into_chunks(text, chunk_size=500):  # Größere Chunks
     words = text.split()
     return [" ".join(words[i:i + chunk_size]) for i in range(0, len(words), chunk_size)]
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
         text = page.get_text("text")
+        if not text.strip():
             logging.warning(f"Leerer Text auf Seite {page_num}")
         chunks = split_text_into_chunks(text)
         text_chunks.extend(chunks)
 def rank_contexts_by_relevance(query, contexts):
     query_embedding = model.encode([query])[0].astype('float32')
     context_embeddings = model.encode(contexts)
+    scores = np.dot(query_embedding, context_embeddings.T)
     ranked_contexts = sorted(zip(scores, contexts), key=lambda x: x[0], reverse=True)
     return [context for _, context in ranked_contexts[:5]]  # Nur die Top 5 Kontexte zurückgeben
+# Suche nach den besten Antworten
 def search_and_rank_answers(query, index, documents, k=10):
     query_embedding = model.encode([query])[0].astype('float32')
     D, I = index.search(np.array([query_embedding]), k=k)
     ranked_contexts = [documents[i] for i in I[0]]
     top_contexts = rank_contexts_by_relevance(query, ranked_contexts)
 # Antworten kombinieren
 def combine_answers(answers):
+    return " ".join(set(answers[:3]))  # Entfernt Duplikate und kombiniert
 # Gesamtprozess
 def chatbot_response(pdf_path, question):