Spaces:

FDSRashid
/

Taraf_Semantic_Similarity_Visualizer

Sleeping

App Files Files Community

FDSRashid commited on Jul 14, 2024

Commit

913f06b

verified ·

1 Parent(s): e563f21

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -12

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import gradio as gr
 import os
 import pandas as pd
 from datasets import load_dataset
-from sklearn.metrics.pairwise import cosine_similarity, pairwise_distances
 from datasets import Features, Value
 import plotly.express as px
@@ -16,7 +16,6 @@ Secret_token = os.getenv('HF_token')
 dataset = load_dataset("FDSRashid/embed_matn", token = Secret_token)
 books = load_dataset('FDSRashid/Hadith_info', data_files='Books.csv', token=Secret_token)['train'].to_pandas()
 df = dataset["train"].to_pandas()
-choice =  ['cityblock', 'cosine', 'euclidean', 'l1', 'l2', 'manhattan', 'canberra', 'chebyshev']
 dataset = load_dataset("FDSRashid/hadith_info", data_files = 'All_Matns.csv',token = Secret_token, features = features)
 matn_info = dataset['train'].to_pandas()
@@ -32,19 +31,17 @@ matn_info = pd.merge(matn_info, books, on='Book_ID')
 matn_info = matn_info.reset_index()
 df = df.reset_index()
 cols_to_use = df.columns.difference(matn_info.columns)
 joined_df = pd.merge(matn_info,df[cols_to_use],left_index=True, right_index=True)
 df = joined_df.copy()
 taraf_max = np.max(df['taraf_ID'].unique())
-def plot_similarity_score(taraf_num, metr):
     taraf_df = df[df['taraf_ID']== taraf_num]
     taraf_df['Number'] = np.arange(len(taraf_df))
     embed_taraf = taraf_df['embed'].to_list()
-    cos_score = pairwise_distances(embed_taraf, metric = metr)
-    fig = px.imshow(cos_score, color_continuous_scale='plasma_r')
     matr = cos_score
     rows, cols = matr.shape
     mask = np.tril(np.ones((rows, cols), dtype=bool), k=-1)
@@ -54,11 +51,8 @@ def plot_similarity_score(taraf_num, metr):
     return fig, fig_dis, taraf_df[['matn', 'Number', 'Book_Name', 'Author', 'Hadith Number']]
 with gr.Blocks() as demo:
-  gr.Markdown('# Semantic Distance Visualizer')
-  gr.Markdown('Please note, the closer to zero, the better for this approach. This is semantic distance. On the Matrix plot, I\'ve reversed the color scales. This means that more yellow points are more similar, more purple = more dissimilar. ')
   taraf_number = gr.Slider(1,taraf_max , value=10000, label="Taraf", info="Choose the Taraf to Input", step = 1)
-  metric = gr.Dropdown(choices = choice, value = 'cosine', label = 'Variable to Display', info = 'Choose the variable to visualize.')
   btn = gr.Button('Submit')
-  btn.click(fn = plot_similarity_score, inputs = [taraf_number, metric], outputs = [gr.Plot(),gr.Plot(), gr.DataFrame()])
   demo.launch()

 import os
 import pandas as pd
 from datasets import load_dataset
+from sklearn.metrics.pairwise import cosine_similarity
 from datasets import Features, Value
 import plotly.express as px
 dataset = load_dataset("FDSRashid/embed_matn", token = Secret_token)
 books = load_dataset('FDSRashid/Hadith_info', data_files='Books.csv', token=Secret_token)['train'].to_pandas()
 df = dataset["train"].to_pandas()
 dataset = load_dataset("FDSRashid/hadith_info", data_files = 'All_Matns.csv',token = Secret_token, features = features)
 matn_info = dataset['train'].to_pandas()
 matn_info = matn_info.reset_index()
 df = df.reset_index()
 cols_to_use = df.columns.difference(matn_info.columns)
 joined_df = pd.merge(matn_info,df[cols_to_use],left_index=True, right_index=True)
 df = joined_df.copy()
 taraf_max = np.max(df['taraf_ID'].unique())
+def plot_similarity_score(taraf_num):
     taraf_df = df[df['taraf_ID']== taraf_num]
     taraf_df['Number'] = np.arange(len(taraf_df))
     embed_taraf = taraf_df['embed'].to_list()
+    cos_score = cosine_similarity(embed_taraf)
+    fig = px.imshow(cos_score)
     matr = cos_score
     rows, cols = matr.shape
     mask = np.tril(np.ones((rows, cols), dtype=bool), k=-1)
     return fig, fig_dis, taraf_df[['matn', 'Number', 'Book_Name', 'Author', 'Hadith Number']]
 with gr.Blocks() as demo:
+  gr.Markdown('# Semantic Similarity  Visualizer')
   taraf_number = gr.Slider(1,taraf_max , value=10000, label="Taraf", info="Choose the Taraf to Input", step = 1)
   btn = gr.Button('Submit')
+  btn.click(fn = plot_similarity_score, inputs = [taraf_number], outputs = [gr.Plot(),gr.Plot(), gr.DataFrame()])
   demo.launch()