Spaces:

ginigen
/

Sign-language

Building

Figea commited on Jul 5, 2024

Commit

c55ac1a

verified ·

1 Parent(s): 0fa0230

Update src/synonyms_preprocess.py

Files changed (1) hide show

src/synonyms_preprocess.py CHANGED Viewed

@@ -28,16 +28,20 @@ def find_synonyms(word, model, dict_embedding, dict_2000_tokens): #cluster_to_wo
     """
     This function finds the most similar word in the same cluster, and excludes antonyms
     """
-    antonyms = find_antonyms(word)
-    dict_2000_tokens_less_antonyms = [token for token in dict_2000_tokens if token not in antonyms]
-    word_embedding = model(word)
-    similarities=[]
-    for token in dict_2000_tokens_less_antonyms:
-        similarities.append((token, dict_embedding.get(token).similarity(word_embedding)))
-    most_similar_token = sorted(similarities, key=lambda item: -item[1])[0][0]
-    return most_similar_token

     """
     This function finds the most similar word in the same cluster, and excludes antonyms
     """
+    if word in dict_2000_tokens:
+        return word
+    else:
+        antonyms = find_antonyms(word)
+        dict_2000_tokens_less_antonyms = [token for token in dict_2000_tokens if token not in antonyms]
+        word_embedding = model(word)
+        similarities=[]
+        for token in dict_2000_tokens_less_antonyms:
+            similarities.append((token, dict_embedding.get(token).similarity(word_embedding)))
+        most_similar_token = sorted(similarities, key=lambda item: -item[1])[0][0]
+        return most_similar_token