Spaces:

anzorq
/

spaces-semantic-search-api

Running

App Files Files Community

anzorq commited on May 24, 2023

Commit

f4077f7

1 Parent(s): 108b0a7

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -10

app.py CHANGED Viewed

@@ -10,13 +10,13 @@ def save_embeddings(sentences, filename):
 def load_embeddings(filename):
     return torch.load(filename, map_location=torch.device('cpu'))
-def preprocess_model_descriptions(file_path):
     encodings = ['utf-8', 'latin-1', 'utf-16']
     for encoding in encodings:
         try:
-            df = pd.read_csv(file_path, sep='\t', header=None, names=['model_id', 'description'])
             df.dropna(subset=['description'], inplace=True)
-            model_ids = df['model_id'].tolist()
             descriptions = df['description'].tolist()
             break
         except UnicodeDecodeError:
@@ -24,22 +24,22 @@ def preprocess_model_descriptions(file_path):
     else:
         raise UnicodeDecodeError("Unable to decode the file using the available encodings.")
-    return model_ids, descriptions
-def perform_similarity_search(query_embeddings, embeddings, model_ids, descriptions, top_k=10):
     cosine_scores = util.cos_sim(query_embeddings, embeddings)
     similarity_scores = cosine_scores.tolist()
     results = []
     for i, query_embedding in enumerate(query_embeddings):
-        query_results = sorted(zip(model_ids, descriptions, similarity_scores[i]), key=lambda x: x[2], reverse=True)[:top_k]
         results.extend(query_results)
-    return pd.DataFrame(results, columns=["model_id", "description", "score"])
 model = SentenceTransformer('all-MiniLM-L6-v2')
-model_ids, descriptions = preprocess_model_descriptions('hf_spaces_descriptions.tsv')
 embeddings = load_embeddings('embeddings_hf_spaces_descriptions.pt')
 with gr.Blocks() as demo:
@@ -50,9 +50,8 @@ with gr.Blocks() as demo:
     def search(query):
         query_embedding = model.encode([query], convert_to_tensor=True)
-        return perform_similarity_search(query_embedding, embeddings, model_ids, descriptions, top_k=num_results)
     input.submit(search, inputs=input, outputs=df_output)
-    button.click(search, inputs=input, outputs=df_output)
 demo.launch()

 def load_embeddings(filename):
     return torch.load(filename, map_location=torch.device('cpu'))
+def preprocess_space_descriptions(file_path):
     encodings = ['utf-8', 'latin-1', 'utf-16']
     for encoding in encodings:
         try:
+            df = pd.read_csv(file_path, sep='\t', header=None, names=['space_id', 'description'])
             df.dropna(subset=['description'], inplace=True)
+            space_ids = df['space_id'].tolist()
             descriptions = df['description'].tolist()
             break
         except UnicodeDecodeError:
     else:
         raise UnicodeDecodeError("Unable to decode the file using the available encodings.")
+    return space_ids, descriptions
+def perform_similarity_search(query_embeddings, embeddings, space_ids, descriptions, top_k=10):
     cosine_scores = util.cos_sim(query_embeddings, embeddings)
     similarity_scores = cosine_scores.tolist()
     results = []
     for i, query_embedding in enumerate(query_embeddings):
+        query_results = sorted(zip(space_ids, descriptions, similarity_scores[i]), key=lambda x: x[2], reverse=True)[:top_k]
         results.extend(query_results)
+    return pd.DataFrame(results, columns=["space_id", "description", "score"])
 model = SentenceTransformer('all-MiniLM-L6-v2')
+space_ids, descriptions = preprocess_space_descriptions('hf_spaces_descriptions.tsv')
 embeddings = load_embeddings('embeddings_hf_spaces_descriptions.pt')
 with gr.Blocks() as demo:
     def search(query):
         query_embedding = model.encode([query], convert_to_tensor=True)
+        return perform_similarity_search(query_embedding, embeddings, space_ids, descriptions, top_k=num_results)
     input.submit(search, inputs=input, outputs=df_output)
 demo.launch()