Spaces:

elimoralsmendox
/

Chatbot_cabi_jina_embeddings

Sleeping

App Files Files Community

elimoralsmendox commited on Jan 21

Commit

f9f6cc7

verified ·

1 Parent(s): 8000b29

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -19

app.py CHANGED Viewed

@@ -1,25 +1,15 @@
 import os
-# Instalar las dependencias necesarias
 os.system("pip install gradio sentence-transformers pandas numpy scipy chromadb")
-os.system("echo $(ls ./)")
-# Importar las librerías
-import pandas as pd
-import numpy as np
 from sentence_transformers import SentenceTransformer
-from scipy.spatial.distance import cosine
 import chromadb
 from chromadb.utils import embedding_functions
 import gradio as gr
-# Cargar base de datos de trámites y servicios
-file_path = 'Diagrama de decisión.csv'  # Asegúrate de subir este archivo
-if not os.path.exists(file_path):
-    raise FileNotFoundError(f"El archivo {file_path} no se encontró en el directorio actual.")
-df = pd.read_csv(file_path, encoding='latin-1')
 # Configuración de variables
 EMBEDDING_LLM = "jinaai/jina-embeddings-v2-base-es"  # Modelo de embedding utilizado
@@ -29,6 +19,17 @@ model = SentenceTransformer(
     trust_remote_code=True,
 )
 # Crear una columna combinada para embeddings
 df['text'] = df.apply(
     lambda x: f"Trámite: {x['Trámite']}; Descripción: {x['Descripción']}; Palabras clave: {x['Tag (palabras clave)']}",
@@ -38,8 +39,8 @@ df['text'] = df.apply(
 # Generar embeddings
 df['embeddings'] = model.encode(df['text'], batch_size=64, show_progress_bar=True).tolist()
-# Configurar cliente de ChromaDB persistente
-client_persistent = chromadb.PersistentClient(path='/content/data_embeddings')
 embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=EMBEDDING_LLM)
 # Crear o cargar colección en ChromaDB
@@ -63,6 +64,8 @@ db.add(
     metadatas=df[['Trámite', 'Descripción', 'Tag (palabras clave)']].to_dict('records')
 )
 # Función para realizar consultas
 def obtener_recomendaciones(preferencias, top_k=5):
     # Convertir preferencias en embeddings
@@ -104,7 +107,7 @@ def procesar_recomendaciones(preferencias):
     # Convertir los resultados a un DataFrame
     return pd.DataFrame(resultados)
-# Interfaz de Gradio
 def interfaz(preferencias):
     tabla_resultados = procesar_recomendaciones(preferencias)
     return tabla_resultados
@@ -117,5 +120,5 @@ ui = gr.Interface(
     description="Introduce tus preferencias para obtener resultados relevantes basados en similitud semántica."
 )
-if __name__ == "__main__":
-    ui.launch(server_name="0.0.0.0", server_port=7860, enable_queue=True)

+# Instalar bibliotecas necesarias (solo se ejecutará localmente en un Space)
 import os
 os.system("pip install gradio sentence-transformers pandas numpy scipy chromadb")
+# Importar librerías necesarias
 from sentence_transformers import SentenceTransformer
+import pandas as pd
 import chromadb
 from chromadb.utils import embedding_functions
+from datetime import datetime
 import gradio as gr
 # Configuración de variables
 EMBEDDING_LLM = "jinaai/jina-embeddings-v2-base-es"  # Modelo de embedding utilizado
     trust_remote_code=True,
 )
+# Ruta del archivo CSV (debe estar disponible en el directorio del Space)
+file_path = './Diagrama_de_decision.csv'
+# Cargar la base de datos, especificando la codificación
+df = pd.read_csv(
+    file_path,
+    index_col=0,
+    encoding='utf-8',
+    sep='|'
+)
 # Crear una columna combinada para embeddings
 df['text'] = df.apply(
     lambda x: f"Trámite: {x['Trámite']}; Descripción: {x['Descripción']}; Palabras clave: {x['Tag (palabras clave)']}",
 # Generar embeddings
 df['embeddings'] = model.encode(df['text'], batch_size=64, show_progress_bar=True).tolist()
+# Configurar cliente de ChromaDB persistente (usando una ruta compatible con Spaces)
+client_persistent = chromadb.PersistentClient(path='./data_embeddings')
 embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=EMBEDDING_LLM)
 # Crear o cargar colección en ChromaDB
     metadatas=df[['Trámite', 'Descripción', 'Tag (palabras clave)']].to_dict('records')
 )
+print(f"Número de registros en la colección: {db.count()}")
 # Función para realizar consultas
 def obtener_recomendaciones(preferencias, top_k=5):
     # Convertir preferencias en embeddings
     # Convertir los resultados a un DataFrame
     return pd.DataFrame(resultados)
+# Interfaz de Gradio con formato de tabla
 def interfaz(preferencias):
     tabla_resultados = procesar_recomendaciones(preferencias)
     return tabla_resultados
     description="Introduce tus preferencias para obtener resultados relevantes basados en similitud semántica."
 )
+# Ejecutar la aplicación
+ui.launch(server_name="0.0.0.0", server_port=7860)