Spaces:

JaphetHernandez
/

Prueba_2

Sleeping

App Files Files Community

JaphetHernandez commited on Oct 29, 2024

Commit

6ad76d6

verified ·

1 Parent(s): 5ef9654

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -23

app.py CHANGED Viewed

@@ -1,77 +1,76 @@
 import pandas as pd
-from langchain.chains import LLMChain
 from langchain.prompts import PromptTemplate
-#from langchain.llms import HuggingFaceHub
-from transformers import LlamaForCausalLM, AutoTokenizer
-from huggingface_hub import login
 import streamlit as st
 import sys
 import re
-from langchain_community.llms import HuggingFaceHub
-# Inicialización de Hugging Face con el token de la API desde los secretos de Streamlit
 huggingface_token = st.secrets["SECRET"]
 login(huggingface_token)
-# Cargar el archivo CSV
 uploaded_file = st.file_uploader("Sube un archivo CSV con la columna 'job_title':", type=["csv"])
 if uploaded_file:
     df = pd.read_csv(uploaded_file)
     st.dataframe(df)
-    # Ingreso del query
     query = "aspiring human resources specialist"
-    # Crear un modelo LLaMA
     model_name = "meta-llama/Llama-3.2-1B"
     modelo = LlamaForCausalLM.from_pretrained(model_name)
     try:
-        # Usar AutoTokenizer para manejar automáticamente el tokenizador adecuado
         tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
         print("Tokenizador cargado con éxito.")
     except Exception as e:
         print(f"Error al cargar el tokenizador: {e}")
         sys.exit(1)
-    # Crear un prompt para la cadena LLM
     prompt_template = PromptTemplate(
         input_variables=["query", "texto"],
         template=(
             "Calcular el cosine similarity score entre '{query}' y '{texto}'. "
-            "Responde solo con un número entre 0 y 1 en formato float, sin texto adicional. No agregues nada más en tu respuesta. "
         )
     )
-    # Crear una cadena LLM con LangChain usando HuggingFaceHub y pasar el token
     llm = HuggingFaceHub(repo_id=model_name, huggingfacehub_api_token=huggingface_token, model_kwargs={"max_new_tokens": 3})
-    chain = LLMChain(llm=llm, prompt=prompt_template)
     def calcular_similitud(texto):
         prompt = {"query": query, "texto": texto}
-        resultado = chain.run(prompt)
-        print("Resultado del modelo:", resultado)  # Imprimir la salida del modelo
-        # Usar expresiones regulares para extraer el puntaje de similitud
-        match = re.search(r"\b(0\.\d+|1\.0)\b", resultado)  # Solo números entre 0.0 y 1.0
         if match:
             score = float(match.group(1))
             return score
         else:
-            st.error(f"No se pudo extraer el puntaje de similitud del resultado: {resultado}")
             return None
-    # Calcular la similitud para cada job title
     df['Score'] = df['job_title'].apply(calcular_similitud)
-    # Reportar los resultados
     st.write(df)
 else:
     st.write("No se ha subido un archivo")
 '''
 import pandas as pd
 from langchain.chains import LLMChain

 import pandas as pd
+from langchain.chains import LLMChain, RAGChain
 from langchain.prompts import PromptTemplate
+from langchain_community.llms import HuggingFaceHub
+from langchain.rag import RagIndex
 import streamlit as st
 import sys
 import re
+from transformers import LlamaForCausalLM, AutoTokenizer
+from huggingface_hub import login
+# Inicialización de Hugging Face
 huggingface_token = st.secrets["SECRET"]
 login(huggingface_token)
+# Cargar archivo CSV
 uploaded_file = st.file_uploader("Sube un archivo CSV con la columna 'job_title':", type=["csv"])
 if uploaded_file:
     df = pd.read_csv(uploaded_file)
     st.dataframe(df)
     query = "aspiring human resources specialist"
+    # Modelo LLaMA
     model_name = "meta-llama/Llama-3.2-1B"
     modelo = LlamaForCausalLM.from_pretrained(model_name)
+    # Tokenizador
     try:
         tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
         print("Tokenizador cargado con éxito.")
     except Exception as e:
         print(f"Error al cargar el tokenizador: {e}")
         sys.exit(1)
+    # Prompt para cadena LLM
     prompt_template = PromptTemplate(
         input_variables=["query", "texto"],
         template=(
             "Calcular el cosine similarity score entre '{query}' y '{texto}'. "
+            "Responde solo con un número entre 0 y 1 en formato float, sin texto adicional."
         )
     )
+    # Cargar índice RAG
+    rag_index = RagIndex.from_directory("path_al_tu_indice_rag")
+    # Crear cadena RAG
     llm = HuggingFaceHub(repo_id=model_name, huggingfacehub_api_token=huggingface_token, model_kwargs={"max_new_tokens": 3})
+    rag_chain = RAGChain(llm=llm, index=rag_index, prompt=prompt_template)
     def calcular_similitud(texto):
         prompt = {"query": query, "texto": texto}
+        resultado = rag_chain.run(prompt)
+        print("Resultado del modelo:", resultado)
+        match = re.search(r"\b(0\.\d+|1\.0)\b", resultado)
         if match:
             score = float(match.group(1))
             return score
         else:
+            st.error(f"No se pudo extraer el puntaje de similitud: {resultado}")
             return None
+    # Calcular similitud para cada job title
     df['Score'] = df['job_title'].apply(calcular_similitud)
+    # Reportar resultados
     st.write(df)
 else:
     st.write("No se ha subido un archivo")
 '''
 import pandas as pd
 from langchain.chains import LLMChain