Spaces:

asynchronousai
/

paragraph-embedder

Sleeping

App Files Files Community

asynchronousai commited on Sep 22, 2024

Commit

8d5a24c

verified ·

1 Parent(s): cbb233c

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -32

app.py CHANGED Viewed

@@ -1,42 +1,39 @@
 import gradio as gr
-import io
 import numpy as np
-import ctypes
-# Vector Loader
-def load_vectors(fname):
-    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
-    data = {}
-    for line in fin:
-        tokens = line.rstrip().split(' ')
-        data[tokens[0]] = np.array(list(map(float, tokens[1:])))  # Convert to NumPy array
-    del fin
-    return data
-vectors = load_vectors('wiki-news-300d-1M.vec')
-tokens = [token.encode('utf-8') for token in vectors.keys()]
 # Tokenizer
-lib = ctypes.CDLL('./tokenizer.so')
-lib.tokenize.argtypes = [ctypes.c_char_p, ctypes.POINTER(ctypes.c_char_p), ctypes.c_int, ctypes.POINTER(ctypes.c_int)]
-lib.tokenize.restype = ctypes.POINTER(ctypes.c_char_p)
 def tokenize(text):
-    text = text.encode('utf-8')
-    num_tokens = len(tokens)
-    tokens_array = (ctypes.c_char_p * num_tokens)(*tokens)
-    result_size = ctypes.c_int()
-    result = lib.tokenize(text, tokens_array, num_tokens, ctypes.byref(result_size))
-    python_tokens = [result[i].decode('utf-8') for i in range(result_size.value)]
-    lib.free_tokens(result, result_size.value)
-    return python_tokens
 # Interface
-def onInput(paragraph):
     tokens = tokenize(paragraph)
     if not tokens:  # Handle case with no tokens found
@@ -48,6 +45,7 @@ def onInput(paragraph):
     totalTokens = len(tokens)
     for ind, token in enumerate(tokens):
         completion = 0.2*((ind+1)/totalTokens)
         if token not in vectors:
             continue
@@ -58,7 +56,7 @@ def onInput(paragraph):
     # Normalize
     merged_vector /= len(tokens)
-    return merged_vector.tolist()  # Convert back to list for output
-demo = gr.Interface(fn=onInput, inputs="text", outputs="text")
 demo.launch()

 import gradio as gr
 import numpy as np
+import json
+import pickle as pkl
+from transformers import AutoTokenizer
+import re
+# Vector Loader
+vectors = pkl.load(open("vectors.pkl", "rb"))
+vocab = [word.lower() for word in vectors.keys()]
 # Tokenizer
+tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
+def make_alphanumeric(input_string):
+    return re.sub(r'[^a-zA-Z0-9 ]', '', input_string)
 def tokenize(text):
+    # Check data
+    if len(text) == 0:
+        gr.Error("No text provided.")
+    elif len(text) > 4096:
+        gr.Error("Text too long.")
+    # Filter
+    text = make_alphanumeric(text.lower())
+    pre_tokenize_result = tokenizer._tokenizer.pre_tokenizer.pre_tokenize_str(text)
+    pre_tokenized_text = [word for word, offset in pre_tokenize_result]
+    tokens = []
+    for word in pre_tokenized_text:
+        if word in vocab:
+            tokens.append(word)
+    return tokens
 # Interface
+def onInput(paragraph, progress = gr.Progress()):
     tokens = tokenize(paragraph)
     if not tokens:  # Handle case with no tokens found
     totalTokens = len(tokens)
     for ind, token in enumerate(tokens):
         completion = 0.2*((ind+1)/totalTokens)
+        progress(0.6 + completion, f"Merging {token}, Token #{tokens.index(token)+1}/{len(tokens)}")
         if token not in vectors:
             continue
     # Normalize
     merged_vector /= len(tokens)
+    return merged_vector.tolist(), json.dumps(tokens)
+demo = gr.Interface(fn=onInput, inputs="text", outputs=["text", "json"])
 demo.launch()