Spaces:

rachith
/

TemporalSemantics

Runtime error

App Files Files Community

rachith commited on Mar 23, 2023

Commit

2a873fa

1 Parent(s): bdda483

adding 2022 model

Browse files

Files changed (1) hide show

app.py +26 -3

app.py CHANGED Viewed

@@ -7,7 +7,9 @@ description = "Based on TimeLMs which is a RoBERTa model finetuned on tweets at
 article = "This outputs the top 500 similar tokens to the input word, as a list. Stay tuned for more info"
 available_models = ['2019',
-                    '2020']
 model_2019 = AutoModel.from_pretrained('cardiffnlp/twitter-roberta-base-2019-90m')
 tokenizers_2019 = AutoTokenizer.from_pretrained('cardiffnlp/twitter-roberta-base-2019-90m')
@@ -32,6 +34,17 @@ knn_model_2020 = NearestNeighbors(n_neighbors=500,
 nbrs_2020 = knn_model_2020.fit(embedding_matrix_2020)
 distances_2020, indices_2020 = nbrs_2020.kneighbors(embedding_matrix_2020)
 title = "How does a word's meaning change with time?"
@@ -40,16 +53,26 @@ def topk(word,model):
     if model == '2019':
         index = tokenizers_2019.encode(f'{word}')
         for i in indices_2019[index[1]]:
             outs.append(tokenizers_2019.decode(i))
-            print(tokenizers_2019.decode(i))
         return outs
     if model == '2020':
         index = tokenizers_2020.encode(f'{word}')
         for i in indices_2020[index[1]]:
             outs.append(tokenizers_2020.decode(i))
-            print(tokenizers_2020.decode(i))
         return outs
 # with gr.Blocks() as demo:

 article = "This outputs the top 500 similar tokens to the input word, as a list. Stay tuned for more info"
 available_models = ['2019',
+                    '2020',
+                    '2022'
+                    ]
 model_2019 = AutoModel.from_pretrained('cardiffnlp/twitter-roberta-base-2019-90m')
 tokenizers_2019 = AutoTokenizer.from_pretrained('cardiffnlp/twitter-roberta-base-2019-90m')
 nbrs_2020 = knn_model_2020.fit(embedding_matrix_2020)
 distances_2020, indices_2020 = nbrs_2020.kneighbors(embedding_matrix_2020)
+model_2022 = AutoModel.from_pretrained('cardiffnlp/twitter-roberta-base-2022-154m')
+tokenizers_2022 = AutoTokenizer.from_pretrained('cardiffnlp/twitter-roberta-base-jun2020')
+embedding_matrix_2022 = model_2022.embeddings.word_embeddings.weight
+embedding_matrix_2022 = embedding_matrix_2022.detach().numpy()
+knn_model_2022 = NearestNeighbors(n_neighbors=500,
+                        metric='cosine',
+                        algorithm='auto',
+                        n_jobs=3)
+nbrs_2022 = knn_model_2022.fit(embedding_matrix_2022)
+distances_2022, indices_2022 = nbrs_2020.kneighbors(embedding_matrix_2022)
 title = "How does a word's meaning change with time?"
     if model == '2019':
         index = tokenizers_2019.encode(f'{word}')
+        print(index)
         for i in indices_2019[index[1]]:
             outs.append(tokenizers_2019.decode(i))
+            # print(tokenizers_2019.decode(i))
         return outs
     if model == '2020':
         index = tokenizers_2020.encode(f'{word}')
+        print(index)
         for i in indices_2020[index[1]]:
             outs.append(tokenizers_2020.decode(i))
+            # print(tokenizers_2020.decode(i))
+        return outs
+    if model == '2022':
+        index = tokenizers_2022.encode(f'{word}')
+        print(index)
+        for i in indices_2022[index[1]]:
+            outs.append(tokenizers_2022.decode(i))
+            # print(tokenizers_2022decode(i))
         return outs
 # with gr.Blocks() as demo: