Spaces:

asynchronousai
/

paragraph-embedder

Sleeping

asynchronousai commited on Sep 18, 2024

Commit

4d7bc75

verified ·

1 Parent(s): 6062294

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,16 @@
 import gradio as gr
 import io
 def load_vectors(fname):
     fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
     data = {}
     for line in fin:
         tokens = line.rstrip().split(' ')
-        data[tokens[0]] =  map(float, tokens[1:])
     del fin
     return data, sorted(data.keys(), key=len, reverse=True)
 vectors, sorted_vector = load_vectors('wiki-news-300d-1M.vec')
 class TrieNode:
@@ -39,9 +42,10 @@ class Trie:
             current_pos += 1
         return longest_match
 def word2vec(word):
-    return list(vectors[word])
 def tokenize(text):
     trie = Trie()
     for token in sorted_vector:
@@ -59,24 +63,24 @@ def tokenize(text):
             start += 1
     return result
 def paragraph2word(paragraph):
     tokens = tokenize(paragraph)
-    mergedVector = []
-    # Merge vectors
     for token in tokens:
         vector = word2vec(token)
-        if len(mergedVector) == 0:
-            mergedVector = vector
-        else:
-            for i in range(len(vector)):
-                mergedVector[i] += vector[i]
     # Normalize
-    for i in range(len(mergedVector)):
-        mergedVector[i] /= len(tokens)
-    return mergedVector
 demo = gr.Interface(fn=paragraph2word, inputs="text", outputs="text")
 demo.launch()

 import gradio as gr
 import io
+import numpy as np
 def load_vectors(fname):
     fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
     data = {}
     for line in fin:
         tokens = line.rstrip().split(' ')
+        data[tokens[0]] = np.array(list(map(float, tokens[1:])))  # Convert to NumPy array
     del fin
     return data, sorted(data.keys(), key=len, reverse=True)
 vectors, sorted_vector = load_vectors('wiki-news-300d-1M.vec')
 class TrieNode:
             current_pos += 1
         return longest_match
 def word2vec(word):
+    return vectors[word]
 def tokenize(text):
     trie = Trie()
     for token in sorted_vector:
             start += 1
     return result
 def paragraph2word(paragraph):
     tokens = tokenize(paragraph)
+    if not tokens:  # Handle case with no tokens found
+        return np.zeros(300).tolist()  # Return a zero vector of appropriate dimension
+    merged_vector = np.zeros(300)  # Assuming vectors are 300-dimensional
+    # Merge vectors using NumPy
     for token in tokens:
         vector = word2vec(token)
+        merged_vector += vector
     # Normalize
+    merged_vector /= len(tokens)
+    return merged_vector.tolist()  # Convert back to list for output
 demo = gr.Interface(fn=paragraph2word, inputs="text", outputs="text")
 demo.launch()