Spaces:

Cesar42
/

PreguntasDocumentos

Sleeping

App Files Files Community

Cesar42 commited on Mar 11

Commit

f468207

verified ·

1 Parent(s): 04cf132

Upload app.py

Browse files

Files changed (1) hide show

app.py +57 -47

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import streamlit as st
 import os
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.llms import HuggingFaceHub
 from langchain.chains.question_answering import load_qa_chain
@@ -11,17 +11,24 @@ from langchain.prompts import PromptTemplate
 st.set_page_config(page_title='preguntaDOC')
 st.header("Pregunta a tu PDF")
-# Ya no necesitamos la clave de OpenAI
-huggingface_api_token = st.text_input('Hugging Face API Token (opcional)', type='password')
 pdf_obj = st.file_uploader("Carga tu documento", type="pdf", on_change=st.cache_resource.clear)
 @st.cache_resource
-def create_embeddings(pdf):
     pdf_reader = PdfReader(pdf)
     text = ""
     for page in pdf_reader.pages:
         text += page.extract_text()
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=800,
         chunk_overlap=100,
@@ -29,51 +36,54 @@ def create_embeddings(pdf):
     )
     chunks = text_splitter.split_text(text)
-    # Usando el mismo modelo de embeddings que ya estabas usando
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
     knowledge_base = FAISS.from_texts(chunks, embeddings)
     return knowledge_base
-if pdf_obj:
-    knowledge_base = create_embeddings(pdf_obj)
-    user_question = st.text_input("Haz una pregunta sobre tu PDF:")
-    if user_question:
-        # Configurar el token de Hugging Face si se proporciona
-        if huggingface_api_token:
-            os.environ["HUGGINGFACEHUB_API_TOKEN"] = huggingface_api_token
-        docs = knowledge_base.similarity_search(user_question, 3)
-        # Usar un modelo gratuito de Hugging Face en lugar de OpenAI
-        llm = HuggingFaceHub(
-            repo_id="google/flan-t5-large",  # Modelo gratuito con buenas capacidades para Q&A
-            model_kwargs={"temperature": 0.5, "max_length": 512}
-        )
-        # Crear un prompt template adecuado para modelos como T5
-        prompt_template = """
-        Responde a la siguiente pregunta basándote únicamente en el contexto proporcionado.
-        Contexto: {context}
-        Pregunta: {question}
-        Respuesta:
-        """
-        PROMPT = PromptTemplate(
-            template=prompt_template,
-            input_variables=["context", "question"]
-        )
-        chain = load_qa_chain(llm, chain_type="stuff", prompt=PROMPT)
-        # Mostrar un mensaje mientras se procesa
-        with st.spinner("Procesando tu pregunta..."):
-            try:
-                respuesta = chain.run(input_documents=docs, question=user_question)
-                st.write(respuesta)
-            except Exception as e:
-                st.error(f"Error al procesar tu pregunta: {str(e)}")
-                st.info("Si no has proporcionado un token de Hugging Face, considera hacerlo para evitar limitaciones de rate limit.")

 import os
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceHubEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.llms import HuggingFaceHub
 from langchain.chains.question_answering import load_qa_chain
 st.set_page_config(page_title='preguntaDOC')
 st.header("Pregunta a tu PDF")
+# Campo para el token de Hugging Face (ahora requerido para los embeddings)
+huggingface_api_token = st.text_input('Hugging Face API Token (requerido)', type='password')
 pdf_obj = st.file_uploader("Carga tu documento", type="pdf", on_change=st.cache_resource.clear)
 @st.cache_resource
+def create_embeddings(pdf, api_token):
+    if not api_token:
+        st.error("Se requiere un token de API de Hugging Face")
+        return None
+    os.environ["HUGGINGFACEHUB_API_TOKEN"] = api_token
     pdf_reader = PdfReader(pdf)
     text = ""
     for page in pdf_reader.pages:
         text += page.extract_text()
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=800,
         chunk_overlap=100,
     )
     chunks = text_splitter.split_text(text)
+    # Usar HuggingFaceHubEmbeddings en lugar de HuggingFaceEmbeddings
+    # Este enfoque no requiere sentence-transformers instalado localmente
+    embeddings = HuggingFaceHubEmbeddings(
+        repo_id="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
+        huggingfacehub_api_token=api_token
+    )
     knowledge_base = FAISS.from_texts(chunks, embeddings)
     return knowledge_base
+if pdf_obj and huggingface_api_token:
+    knowledge_base = create_embeddings(pdf_obj, huggingface_api_token)
+    if knowledge_base:
+        user_question = st.text_input("Haz una pregunta sobre tu PDF:")
+        if user_question:
+            docs = knowledge_base.similarity_search(user_question, 3)
+            # Usar un modelo gratuito de Hugging Face
+            llm = HuggingFaceHub(
+                repo_id="google/flan-t5-large",
+                huggingfacehub_api_token=huggingface_api_token,
+                model_kwargs={"temperature": 0.5, "max_length": 512}
+            )
+            prompt_template = """
+            Responde a la siguiente pregunta basándote únicamente en el contexto proporcionado.
+            Contexto: {context}
+            Pregunta: {question}
+            Respuesta:
+            """
+            PROMPT = PromptTemplate(
+                template=prompt_template,
+                input_variables=["context", "question"]
+            )
+            chain = load_qa_chain(llm, chain_type="stuff", prompt=PROMPT)
+            with st.spinner("Procesando tu pregunta..."):
+                try:
+                    respuesta = chain.run(input_documents=docs, question=user_question)
+                    st.write(respuesta)
+                except Exception as e:
+                    st.error(f"Error al procesar tu pregunta: {str(e)}")
+elif not huggingface_api_token and pdf_obj:
+    st.warning("Por favor, ingresa tu token de API de Hugging Face para continuar.")