Spaces:

alfa95
/

Financial_RAG

Sleeping

App Files Files Community

alfa95 commited on 26 days ago

Commit

b907e11

1 Parent(s): 66e0254

app.py

Browse files

Files changed (1) hide show

app.py +29 -7

app.py CHANGED Viewed

@@ -94,12 +94,17 @@ def store_in_faiss(chunks):
     return faiss_index
-# 🔹 5. Retrieve Chunks using BM25
 def retrieve_bm25(query, top_k=2):
     tokenized_query = query.split()
     scores = bm25.get_scores(tokenized_query)
-    top_indices = np.argsort(scores)[-top_k:][::-1]
-    retrieved_chunks = [chunk_texts[i] for i in top_indices]
     return retrieved_chunks
@@ -135,17 +140,34 @@ def refine_with_gemini(query, retrieved_text):
         return "⚠️ Gemini API Exception: Unable to fetch response."
-# 🔹 7. Final Retrieval Function
 def retrieve_and_generate_secure(query):
     print("🔍 Query Received:", query)
     if bm25 is None or not chunk_texts:
         return "❌ No PDF data loaded. Please upload a PDF first."
     bm25_results = retrieve_bm25(query)
     if not bm25_results:
         return "❌ No relevant financial data found for your query."
-    return refine_with_gemini(query, "\n".join(bm25_results))
 # 🔹 8. Load PDF and Process Data

     return faiss_index
+# 🔹 5. Retrieve Chunks using BM25 with Scores
 def retrieve_bm25(query, top_k=2):
     tokenized_query = query.split()
     scores = bm25.get_scores(tokenized_query)
+    top_indices = np.argsort(scores)[-top_k:][::-1]  # Get top indices
+    # Normalize BM25 scores
+    min_score, max_score = np.min(scores), np.max(scores)
+    normalized_scores = [(scores[i] - min_score) / (max_score - min_score) if max_score != min_score else 1 for i in top_indices]
+    retrieved_chunks = [(chunk_texts[i], normalized_scores[idx]) for idx, i in enumerate(top_indices)]
     return retrieved_chunks
         return "⚠️ Gemini API Exception: Unable to fetch response."
+# 🔹 7. Final Retrieval Function with Confidence Score
 def retrieve_and_generate_secure(query):
     print("🔍 Query Received:", query)
     if bm25 is None or not chunk_texts:
         return "❌ No PDF data loaded. Please upload a PDF first."
     bm25_results = retrieve_bm25(query)
     if not bm25_results:
         return "❌ No relevant financial data found for your query."
+    # Extract text and confidence scores
+    retrieved_texts, bm25_confidences = zip(*bm25_results)
+    # Average BM25 Confidence Score
+    avg_bm25_confidence = sum(bm25_confidences) / len(bm25_confidences)
+    # Get FAISS Similarity Score
+    query_embedding = embed_model.encode([query])
+    D, I = faiss_index.search(query_embedding, 1)  # Top-1 FAISS retrieval
+    faiss_confidence = 1 / (1 + D[0][0]) if D[0][0] != 0 else 1  # Convert distance to similarity
+    # Combine Confidence Scores (Weighted Average)
+    final_confidence = (0.6 * avg_bm25_confidence) + (0.4 * faiss_confidence)
+    # Generate Final Answer
+    final_answer = refine_with_gemini(query, "\n".join(retrieved_texts))
+    return f"💬 Answer: {final_answer}\n\n🔹 Confidence Score: {round(final_confidence * 100, 2)}%"
 # 🔹 8. Load PDF and Process Data