Spaces:

ceejaytheanalyst
/

Insurance_code_mapping

Sleeping

ceejaytheanalyst commited on Apr 4, 2024

Commit

90da2fd

verified ·

1 Parent(s): c8e8d6b

Update app.py

added a threshold of 70%

Files changed (1) hide show

app.py CHANGED Viewed

@@ -24,24 +24,34 @@ def check_misspelled_words(user_input):
     return misspelled
 # Define the function for mapping code
 def mapping_code(user_input):
-    if len(user_input.split()) <= 1:  # Check if sentence has less than 5 words
-        raise ValueError("Input sentence should be more than 1 word long.Please provide the Full description")
     emb1 = model.encode(user_input.lower())
-    #similarities = util.pytorch_cos_sim(emb1, stored_embeddings)[0]
     similarities = []
     for sentence in stored_embeddings:
         similarity = util.cos_sim(sentence, emb1)
         similarities.append(similarity)
-    # Combine similarity scores with 'code' and 'description'
-    result = [(code, description, float(sim)) for code, description, sim in zip(stored_data["SBS_code"], stored_data["Description"], similarities)]
     # Sort results by similarity scores
     result.sort(key=lambda x: x[2], reverse=True)
-    # Return top 5 entries with 'code', 'description', and 'similarity_score'
     num_results = min(5, len(result))
-    top_5_results = [{"Code": code, "Description": description, "Similarity Score": sim} for code, description, sim in result[:num_results]]
     return top_5_results
 # Streamlit frontend interface

     return misspelled
+# Define the function for mapping code
 # Define the function for mapping code
 def mapping_code(user_input):
+    if len(user_input.split()) < 5:  # Check if sentence has less than 5 words
+        raise ValueError("Input sentence should be at least 5 words long.")
     emb1 = model.encode(user_input.lower())
     similarities = []
     for sentence in stored_embeddings:
         similarity = util.cos_sim(sentence, emb1)
         similarities.append(similarity)
+    # Filter results with similarity scores above 0.70
+    result = [(code, desc, sim) for (code, desc, sim) in zip(stored_data["SBS_code"], stored_data["Description"], similarities) if sim > 0.70]
     # Sort results by similarity scores
     result.sort(key=lambda x: x[2], reverse=True)
     num_results = min(5, len(result))
+    # Return top 5 entries with 'code', 'description', and 'similarity_score'
+    top_5_results = []
+    if num_results > 0:
+        for i in range(num_results):
+            code, description, similarity_score = result[i]
+            top_5_results.append({"Code": code, "Description": description, "Similarity Score": similarity_score})
+    else:
+        top_5_results.append({"Code": "", "Description": "No match", "Similarity Score": 0.0})
     return top_5_results
 # Streamlit frontend interface