Spaces:

asynchronousai
/

paragraph-embedder

Sleeping

App Files Files Community

asynchronousai commited on Sep 18, 2024

Commit

f621a6c

verified ·

1 Parent(s): 4d7bc75

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -20

app.py CHANGED Viewed

@@ -2,22 +2,11 @@ import gradio as gr
 import io
 import numpy as np
-def load_vectors(fname):
-    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
-    data = {}
-    for line in fin:
-        tokens = line.rstrip().split(' ')
-        data[tokens[0]] = np.array(list(map(float, tokens[1:])))  # Convert to NumPy array
-    del fin
-    return data, sorted(data.keys(), key=len, reverse=True)
-vectors, sorted_vector = load_vectors('wiki-news-300d-1M.vec')
 class TrieNode:
     def __init__(self):
         self.children = {}
         self.is_end_of_token = False
 class Trie:
     def __init__(self):
         self.root = TrieNode()
@@ -43,9 +32,18 @@ class Trie:
         return longest_match
-def word2vec(word):
-    return vectors[word]
 def tokenize(text):
     trie = Trie()
     for token in sorted_vector:
@@ -64,23 +62,32 @@ def tokenize(text):
     return result
-def paragraph2word(paragraph):
     tokens = tokenize(paragraph)
     if not tokens:  # Handle case with no tokens found
         return np.zeros(300).tolist()  # Return a zero vector of appropriate dimension
     merged_vector = np.zeros(300)  # Assuming vectors are 300-dimensional
     # Merge vectors using NumPy
-    for token in tokens:
-        vector = word2vec(token)
         merged_vector += vector
     # Normalize
     merged_vector /= len(tokens)
     return merged_vector.tolist()  # Convert back to list for output
-demo = gr.Interface(fn=paragraph2word, inputs="text", outputs="text")
-demo.launch()

 import io
 import numpy as np
+# Trie
 class TrieNode:
     def __init__(self):
         self.children = {}
         self.is_end_of_token = False
 class Trie:
     def __init__(self):
         self.root = TrieNode()
         return longest_match
+# Vector Loader
+def load_vectors(fname):
+    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
+    data = {}
+    for line in fin:
+        tokens = line.rstrip().split(' ')
+        data[tokens[0]] = np.array(list(map(float, tokens[1:])))  # Convert to NumPy array
+    del fin
+    return data, sorted(data.keys(), key=len, reverse=True)
+vectors, sorted_vector = load_vectors('wiki-news-300d-1M.vec')
+# Tokenizer
 def tokenize(text):
     trie = Trie()
     for token in sorted_vector:
     return result
+# Interface
+def onInput(paragraph, progress = gr.Progress()):
+    progress(0, "Tokenizing...")
     tokens = tokenize(paragraph)
+    progress(0.1, "Initializing merged vector...")
     if not tokens:  # Handle case with no tokens found
         return np.zeros(300).tolist()  # Return a zero vector of appropriate dimension
     merged_vector = np.zeros(300)  # Assuming vectors are 300-dimensional
     # Merge vectors using NumPy
+    totalTokens = len(tokens)
+    for ind, token in enumerate(tokens):
+        completion = 0.7*((ind+1)/totalTokens)
+        progress(0.1 + completion, f"Merging {token}, Token #{tokens.index(token)+1}/{len(tokens)}")
+        vector = vectors[token]
         merged_vector += vector
     # Normalize
+    progress(0.9, "Normalizing...")
     merged_vector /= len(tokens)
+    progress(1, "Converting to list...")
     return merged_vector.tolist()  # Convert back to list for output
+demo = gr.Interface(fn=onInput, inputs="text", outputs="text")
+demo.launch()