Spaces:

elimoralsmendox
/

Chatbot_cabi_jina_embeddings

Sleeping

App Files Files Community

elimoralsmendox commited on Jan 10

Commit

f11692e

verified ·

1 Parent(s): 2ab7011

Update app.py

Browse files

Files changed (1) hide show

app.py +128 -60

app.py CHANGED Viewed

@@ -1,64 +1,132 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
-def respond(
-    message,
-    history: list[tuple[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
-        yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
-demo = gr.ChatInterface(
-    respond,
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
 )
-if __name__ == "__main__":
-    demo.launch()

+import os
+# Instalar las dependencias necesarias
+os.system("pip install -U sentence-transformers chromadb pandas gradio numpy scipy")
+# Importar librerías necesarias
+from sentence_transformers import SentenceTransformer, util
+import pandas as pd
+import chromadb
+from chromadb.utils import embedding_functions
 import gradio as gr
+from scipy.spatial.distance import cosine
+# Verificar si el archivo CSV existe
+file_path = './tramites_servicios_catalago.csv'
+if not os.path.exists(file_path):
+    raise FileNotFoundError(f"El archivo {file_path} no se encuentra en el directorio del Space. ¡Asegúrate de subirlo!")
+# Cargar la base de datos de trámites y servicios
+df = pd.read_csv(file_path, encoding='latin-1')
+# Crear una columna combinada para los embeddings
+df['text'] = df.apply(
+    lambda x: (
+        f"Nombre del trámite: {x['nombre_tramite']}, "
+        f"Descripción: {x['descripcion']}, "
+        f"Dependencia: {x['dependencia']}, "
+        f"Nivel de gobierno: {x['nivel_gobierno']}, "
+        f"Trámite o servicio: {x['tramite_servicio']}, "
+        f"Tipo: {x['tipo']}, "
+        f"Homoclave: {x['homoclave']}, "
+        f"URL: {x['url']}"
+    ), axis=1
+)
+# Cargar modelo de embeddings
+print("Cargando el modelo de embeddings...")
+model = SentenceTransformer("jinaai/jina-embeddings-v2-base-es", trust_remote_code=True)
+# Generar embeddings
+print("Generando embeddings...")
+df['embeddings'] = model.encode(df['text'], batch_size=64, show_progress_bar=True).tolist()
+# Crear identificadores únicos
+df['ids'] = df.index.astype(str)
+# Configurar cliente de ChromaDB persistente
+print("Configurando la base de datos ChromaDB...")
+client_persistent = chromadb.PersistentClient(path='./data_embeddings')
+embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="jinaai/jina-embeddings-v2-base-es")
+db = client_persistent.get_or_create_collection(name='tramites_servicios_db', embedding_function=embedding_function)
+# Agregar datos a la colección
+print("Agregando datos a la colección de ChromaDB...")
+db.add(
+    ids=df['ids'].tolist(),
+    embeddings=df['embeddings'].tolist(),
+    documents=df['text'].tolist(),
+    metadatas=df[['nombre_tramite', 'descripcion', 'dependencia', 'nivel_gobierno',
+                  'tramite_servicio', 'tipo', 'homoclave', 'url']].to_dict('records')
 )
+# Función para realizar consultas
+def obtener_recomendaciones(preferencias, top_k=3):
+    # Convertir preferencias en embeddings
+    consulta_embedding = model.encode(preferencias, show_progress_bar=False)
+    # Realizar consulta en ChromaDB
+    results = db.query(query_embeddings=[consulta_embedding], n_results=top_k)
+    # Verificar si hay resultados
+    if not results or not results["metadatas"] or not results["metadatas"][0]:
+        return []
+    recomendaciones = []
+    for idx, metadata in enumerate(results["metadatas"][0]):
+        dist = results["distances"][0][idx]
+        metadata['distancia_euclidiana'] = dist
+        recomendaciones.append(metadata)
+    return recomendaciones
+# Función para procesar resultados y generar una tabla
+def procesar_recomendaciones(preferencias):
+    recomendaciones = obtener_recomendaciones(preferencias)
+    if not recomendaciones:
+        return pd.DataFrame([{"Mensaje": "No se encontraron resultados para las preferencias proporcionadas."}])
+    # Crear una tabla con las recomendaciones
+    resultados = []
+    for idx, tramite in enumerate(recomendaciones, 1):
+        resultados.append({
+            "#": idx,
+            "Nombre del Trámite": tramite.get('nombre_tramite', 'Desconocido'),
+            "Descripción": tramite.get('descripcion', 'No disponible'),
+            "Dependencia": tramite.get('dependencia', 'No disponible'),
+            "Nivel de Gobierno": tramite.get('nivel_gobierno', 'No disponible'),
+            "Tipo": tramite.get('tipo', 'No disponible'),
+            "Homoclave": tramite.get('homoclave', 'No disponible'),
+            "URL": tramite.get('url', 'No disponible'),
+            "Distancia Euclidiana": tramite.get('distancia_euclidiana', 'N/A')
+        })
+    # Convertir los resultados a un DataFrame
+    return pd.DataFrame(resultados)
+# Interfaz de Gradio con formato de tabla
+def interfaz(preferencias):
+    tabla_resultados = procesar_recomendaciones(preferencias)
+    return tabla_resultados
+# Configurar la interfaz de Gradio
+ui = gr.Interface(
+    fn=interfaz,
+    inputs=gr.Textbox(
+        label="Preferencias",
+        placeholder="Escribe tus preferencias, e.g., consulta de actas, trámite de licencias"
+    ),
+    outputs=gr.Dataframe(
+        label="Resultados de Búsqueda",
+        headers=["#", "Nombre del Trámite", "Descripción", "Dependencia", "Nivel de Gobierno", "Tipo", "Homoclave", "URL", "Distancia Euclidiana"]
+    ),
+    title="Buscador de Trámites y Servicios con Búsqueda Semántica",
+    description="Introduce tus preferencias para obtener resultados relevantes basados en similitud semántica."
+)
+# Ejecutar la aplicación
+print("Iniciando la aplicación en Hugging Face Spaces...")
+ui.launch(server_name="0.0.0.0", server_port=7860)