Spaces:

mojad121
/

Vector-Boolean-Retrieval-System

Sleeping

App Files Files Community

mojad121 commited on Jun 25

Commit

23ee1af

verified ·

1 Parent(s): 311e164

Upload 2 files

Browse files

Files changed (2) hide show

app.py +18 -12
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -1,15 +1,18 @@
 import os
 import json
-import re
 import math
-import nltk
 from collections import defaultdict, Counter
 from nltk.tokenize import word_tokenize
 from nltk.stem import PorterStemmer, WordNetLemmatizer
-import gradio as gr
-nltk.data.path.append("nltk_data")
 with open("docs.json", "r", encoding="utf-8") as f:
     docs_ds = json.load(f)
@@ -20,8 +23,6 @@ with open("queries.json", "r", encoding="utf-8") as f:
 documents = {int(doc["doc_id"]): doc["text"] for doc in docs_ds}
 queries = {int(q["query_id"]): q["text"] for q in queries_ds}
-stop_words = {"a", "is", "the", "of", "all", "and", "to", "can", "be", "as", "once", "for", "at", "am", "are", "has", "have", "had", "up", "his", "her", "in", "on", "no", "we", "do"}
 inverted_index = defaultdict(set)
 positional_index = defaultdict(lambda: defaultdict(list))
 tf_idf_vectors = defaultdict(dict)
@@ -121,18 +122,23 @@ def execute_vsm_query(user_input_query, alpha=0.001):
             scores[doc_id] = sim
     return sorted(scores, key=scores.get, reverse=True)
-def chat(query, method):
     if not query:
         return "Query cannot be empty"
     if method == "Boolean":
         result = execute_boolean_query(query, documents)
     elif method == "Proximity":
         result = execute_proximity_query(query)
-    else:
         result = execute_vsm_query(query)
     return f"Result-set: {result}"
-process_documents(documents)
-demo = gr.Interface(fn=chat, inputs=["text", gr.Radio(["Boolean", "Proximity", "Vector Space Model"], label="Model")], outputs="text")
-demo.launch()

+import nltk
 import os
 import json
 import math
+import re
+import gradio as gr
 from collections import defaultdict, Counter
 from nltk.tokenize import word_tokenize
 from nltk.stem import PorterStemmer, WordNetLemmatizer
+nltk.download("punkt")
+nltk.download("wordnet")
+stop_words = {"a", "is", "the", "of", "all", "and", "to", "can", "be", "as", "once", "for", "at", "am", "are", "has", "have", "had", "up", "his", "her", "in", "on", "no", "we", "do"}
 with open("docs.json", "r", encoding="utf-8") as f:
     docs_ds = json.load(f)
 documents = {int(doc["doc_id"]): doc["text"] for doc in docs_ds}
 queries = {int(q["query_id"]): q["text"] for q in queries_ds}
 inverted_index = defaultdict(set)
 positional_index = defaultdict(lambda: defaultdict(list))
 tf_idf_vectors = defaultdict(dict)
             scores[doc_id] = sim
     return sorted(scores, key=scores.get, reverse=True)
+process_documents(documents)
+def chatbot_fn(query, method):
     if not query:
         return "Query cannot be empty"
     if method == "Boolean":
         result = execute_boolean_query(query, documents)
     elif method == "Proximity":
         result = execute_proximity_query(query)
+    elif method == "Vector Space Model":
         result = execute_vsm_query(query)
     return f"Result-set: {result}"
+iface = gr.Interface(
+    fn=chatbot_fn,
+    inputs=["text", gr.Radio(["Boolean", "Proximity", "Vector Space Model"], label="Method")],
+    outputs="text",
+    title="Information Retrieval Chatbot",
+)
+iface.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,3 @@
-huggingface_hub==0.25.2
 gradio
 nltk


1	+
2	gradio
3	nltk