Spaces:

Shriharsh
/

Web_Content_QA

Running

Shriharsh commited on Mar 20

Commit

a951dd8

verified ·

1 Parent(s): d2dba3a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,8 +17,8 @@ sources_list = []  # Source URLs for each paragraph
 # Load models at startup (memory: ~340MB total)
 # Retrieval model: all-MiniLM-L6-v2 (~80MB, 384-dim embeddings)
 retriever = SentenceTransformer('all-MiniLM-L6-v2')
-# QA model: DistilBERT fine-tuned on SQuAD (~260MB)
-qa_model = pipeline("question-answering", model="distilbert-base-uncased-distilled-squad")
 def ingest_urls(urls):
     """
@@ -82,7 +82,7 @@ def answer_question(question):
     # Compute cosine similarity with stored embeddings
     cos_scores = util.cos_sim(question_embedding, embeddings)[0]
-    top_k = min(3, len(corpus))  # Get top 3 or less if fewer paragraphs
     top_indices = np.argsort(-cos_scores)[:top_k]
     # Retrieve context (top 3 paragraphs)

 # Load models at startup (memory: ~340MB total)
 # Retrieval model: all-MiniLM-L6-v2 (~80MB, 384-dim embeddings)
 retriever = SentenceTransformer('all-MiniLM-L6-v2')
+# QA model: Xenova/distilbert-base-uncased-distilled-squad
+qa_model = pipeline("question-answering", model="Xenova/distilbert-base-uncased-distilled-squad")
 def ingest_urls(urls):
     """
     # Compute cosine similarity with stored embeddings
     cos_scores = util.cos_sim(question_embedding, embeddings)[0]
+    top_k = min(1, len(corpus))  # Get topmost or less if fewer paragraphs
     top_indices = np.argsort(-cos_scores)[:top_k]
     # Retrieve context (top 3 paragraphs)