Spaces:

asynchronousai
/

paragraph-embedder

Sleeping

App Files Files Community

asynchronousai commited on Sep 21, 2024

Commit

e96c4ee

verified ·

1 Parent(s): 24adeaa

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -12

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import gradio as gr
 import io
 import numpy as np
-from tok import Tokenizer
 # Vector Loader
 def load_vectors(fname):
@@ -11,20 +12,33 @@ def load_vectors(fname):
         tokens = line.rstrip().split(' ')
         data[tokens[0]] = np.array(list(map(float, tokens[1:])))  # Convert to NumPy array
     del fin
-    return data, sorted(data.keys(), key=len, reverse=True)
-vectors, sorted_vector = load_vectors('wiki-news-300d-1M.vec')
 # Tokenizer
-tokenizer = Tokenizer(protected_words=sorted_vector)
 def tokenize(text):
-    return tokenizer.word_tokenize(text)
 # Interface
-def onInput(paragraph, progress = gr.Progress()):
-    progress(0, "Tokenizing...")
     tokens = tokenize(paragraph)
-    progress(0.1, "Initializing merged vector...")
     if not tokens:  # Handle case with no tokens found
         return np.zeros(300).tolist()  # Return a zero vector of appropriate dimension
@@ -33,17 +47,17 @@ def onInput(paragraph, progress = gr.Progress()):
     # Merge vectors using NumPy
     totalTokens = len(tokens)
     for ind, token in enumerate(tokens):
-        completion = 0.7*((ind+1)/totalTokens)
-        progress(0.1 + completion, f"Merging {token}, Token #{tokens.index(token)+1}/{len(tokens)}")
         vector = vectors[token]
         merged_vector += vector
     # Normalize
-    progress(0.9, "Normalizing...")
     merged_vector /= len(tokens)
-    progress(1, "Converting to list...")
     return merged_vector.tolist()  # Convert back to list for output
 demo = gr.Interface(fn=onInput, inputs="text", outputs="text")

 import gradio as gr
 import io
 import numpy as np
+import ctypes
 # Vector Loader
 def load_vectors(fname):
         tokens = line.rstrip().split(' ')
         data[tokens[0]] = np.array(list(map(float, tokens[1:])))  # Convert to NumPy array
     del fin
+    return data
+vectors = load_vectors('wiki-news-300d-1M.vec')
+tokens = [token.encode('utf-8') for token in vectors.keys()]
 # Tokenizer
+lib = ctypes.CDLL('./tokenizer.so')
+lib.tokenize.argtypes = [ctypes.c_char_p, ctypes.POINTER(ctypes.c_char_p), ctypes.c_int, ctypes.POINTER(ctypes.c_int)]
+lib.tokenize.restype = ctypes.POINTER(ctypes.c_char_p)
 def tokenize(text):
+    text = text.encode('utf-8')
+    num_tokens = len(tokens)
+    tokens_array = (ctypes.c_char_p * num_tokens)(*tokens)
+    result_size = ctypes.c_int()
+    result = lib.tokenize(text, tokens_array, num_tokens, ctypes.byref(result_size))
+    python_tokens = [result[i].decode('utf-8') for i in range(result_size.value)]
+    lib.free_tokens(result, result_size.value)
+    return python_tokens
 # Interface
+def onInput(paragraph):
     tokens = tokenize(paragraph)
     if not tokens:  # Handle case with no tokens found
         return np.zeros(300).tolist()  # Return a zero vector of appropriate dimension
     # Merge vectors using NumPy
     totalTokens = len(tokens)
     for ind, token in enumerate(tokens):
+        completion = 0.2*((ind+1)/totalTokens)
+        if token not in vectors:
+            continue
         vector = vectors[token]
         merged_vector += vector
     # Normalize
     merged_vector /= len(tokens)
     return merged_vector.tolist()  # Convert back to list for output
 demo = gr.Interface(fn=onInput, inputs="text", outputs="text")