Spaces:

antagonico
/

Similacion

Paused

App Files Files Community

antagonico commited on Oct 16, 2023

Commit

5c96576

1 Parent(s): 11a4a60

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -15

app.py CHANGED Viewed

@@ -16,26 +16,46 @@ collection = chroma_client.create_collection(name="my_collection")
 def generate_hash(text):
     return hashlib.md5(text.encode('utf-8')).hexdigest()
 # Función para obtener embeddings del modelo
 def get_embeddings(sentences):
     embeddings = []
     for sentence in sentences:
-        sentence_hash = generate_hash(sentence)
-        # Verificar si el embedding ya está en la base de datos
-        results = collection.query(query_texts=[sentence], n_results=1)
-        if results and isinstance(results, list) and results[0].get('embedding'):
-            embeddings.append(np.array(results[0]['embedding']))
         else:
-            # Si no está en la base de datos, calcula el embedding y lo almacena
-            embedding = model.encode(sentence, show_progress_bar=False)
-            collection.add(
-                embeddings=[embedding.tolist()],
-                documents=[sentence],
-                metadatas=[{"source": "my_source"}],
-                ids=[sentence_hash]  # Usa el hash como ID
-            )
-            embeddings.append(embedding)
-    return np.array(embeddings)
 # Función para comparar las sentencias
 def calculate_similarity(args):
@@ -69,3 +89,5 @@ iface = gr.Interface(
 # Inicia la interfaz de Gradio
 iface.launch()

 def generate_hash(text):
     return hashlib.md5(text.encode('utf-8')).hexdigest()
+# Función para obtener embeddings del modelo
+import sqlite3
+import gradio as gr
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+import numpy as np
+import multiprocessing
+# Inicializa la base de datos y crea la tabla si no existe
+conn = sqlite3.connect('embeddings.db')
+c = conn.cursor()
+c.execute('''CREATE TABLE IF NOT EXISTS embeddings
+             (sentence TEXT PRIMARY KEY, embedding BLOB)''')
+conn.commit()
+# Carga el modelo
+model = SentenceTransformer('Maite89/Roberta_finetuning_semantic_similarity_stsb_multi_mt')
 # Función para obtener embeddings del modelo
 def get_embeddings(sentences):
+    # Intenta recuperar los embeddings de la base de datos
     embeddings = []
+    new_sentences = []
     for sentence in sentences:
+        c.execute('SELECT embedding FROM embeddings WHERE sentence=?', (sentence,))
+        result = c.fetchone()
+        if result:
+            embeddings.append(np.frombuffer(result[0], dtype=np.float32))
         else:
+            new_sentences.append(sentence)
+    # Si hay nuevas sentencias, obtén los embeddings y almacénalos en la base de datos
+    if new_sentences:
+        new_embeddings = model.encode(new_sentences, show_progress_bar=False)
+        embeddings.extend(new_embeddings)
+        c.executemany('INSERT INTO embeddings VALUES (?,?)',
+                      [(sent, emb.tobytes()) for sent, emb in zip(new_sentences, new_embeddings)])
+        conn.commit()
+    return embeddings
 # Función para comparar las sentencias
 def calculate_similarity(args):
 # Inicia la interfaz de Gradio
 iface.launch()
+conn.close()