Spaces:

Vipul-Chauhan
/

20newsgroup_QA

Sleeping

App Files Files Community

Vipul-Chauhan commited on Mar 28, 2023

Commit

b1979b2

1 Parent(s): b89f0ab

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -9

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 #loading tfidf dataset
 import pandas as pd
-newsdf_sample = pd.read_excel("200_sample_each_20newsgroup_4k_tfidf.xlsx",engine="openpyxl")
 print("file size",len(newsdf_sample))
@@ -63,8 +63,8 @@ def process_row(row):
     return row
 import pickle
-kmeans_tfidf = pickle.load( open( "kmeans_tfidf_20.p", "rb" ) )
-vectorizer = pickle.load(open("tfidf_vectorizer.p","rb"))
 import matplotlib.pyplot as plt
 from wordcloud import WordCloud
@@ -74,11 +74,11 @@ dictt_cluster_words={}
 for i in range(0,20):
   # print(i)
-  temp_df = newsdf_sample[newsdf_sample.exp1==i]
   text_list= temp_df["tfidf_cleaned"].values
   text_list = [element for element in text_list if str(element) != "nan"]
   single_text = " ".join(text_list)
-  wordcloud = WordCloud(width = 1000, height = 500).generate(single_text)
   dictt_cluster_words[i] = wordcloud.words_
@@ -155,7 +155,7 @@ def get_summary_answer(Question):
   print("question: ", Question)
   cluster_selected = return_selected_cluster(Question)
-  temp_df = newsdf_sample[newsdf_sample.exp1==cluster_selected]
   tfidf_ques = vectorizer.transform([process_row(Question)]).todense()
   cosine_score = []
   for sent in temp_df["tfidf_cleaned"].values:
@@ -177,7 +177,10 @@ def get_summary_answer(Question):
   summary = return_summary(relevant_text)
   squad_answer = return_squad_answer(Question, relevant_text)
-  return summary, squad_answer
 import gradio as gr
@@ -185,8 +188,9 @@ iface = gr.Interface(fn = get_summary_answer,
                      inputs = gr.Textbox(type="text", label="Type your question"),
                     #  outputs = ["text", "text"],
                      outputs = [
-                         gr.Textbox(type="text", value=1, label="Answer from Generative Model"),
-                         gr.Textbox(type="text", value=2, label="Answer from SQuAD model"),
                      ],
                      title = "20NewsGroup_QA",
                      description ="Returns answer from 20NewsGroup dataset")

 #loading tfidf dataset
 import pandas as pd
+newsdf_sample = pd.read_excel("complete_tfidf_25.xlsx",engine="openpyxl")
 print("file size",len(newsdf_sample))
     return row
 import pickle
+kmeans_tfidf = pickle.load( open( "kmeans_tfidf_25_complete.p", "rb" ) )
+vectorizer = pickle.load(open("tfidf_vectorizer_complete.p","rb"))
 import matplotlib.pyplot as plt
 from wordcloud import WordCloud
 for i in range(0,20):
   # print(i)
+  temp_df = newsdf_sample[newsdf_sample.exp25==i]
   text_list= temp_df["tfidf_cleaned"].values
   text_list = [element for element in text_list if str(element) != "nan"]
   single_text = " ".join(text_list)
+  wordcloud = WordCloud(width = 1000, height = 500, , max_words=1000).generate(single_text)
   dictt_cluster_words[i] = wordcloud.words_
   print("question: ", Question)
   cluster_selected = return_selected_cluster(Question)
+  temp_df = newsdf_sample[newsdf_sample.exp25==cluster_selected]
   tfidf_ques = vectorizer.transform([process_row(Question)]).todense()
   cosine_score = []
   for sent in temp_df["tfidf_cleaned"].values:
   summary = return_summary(relevant_text)
   squad_answer = return_squad_answer(Question, relevant_text)
+  relevant_text = " ".join(relevant_text.split()[:min(250,len(relevant_text.split()))])
+  return relevant_text, summary, squad_answer
 import gradio as gr
                      inputs = gr.Textbox(type="text", label="Type your question"),
                     #  outputs = ["text", "text"],
                      outputs = [
+                         gr.Textbox(type="text", value=1, label="Relevant text"),
+                         gr.Textbox(type="text", value=2, label="Answer from Generative Model"),
+                         gr.Textbox(type="text", value=3, label="Answer from SQuAD model"),
                      ],
                      title = "20NewsGroup_QA",
                      description ="Returns answer from 20NewsGroup dataset")