Spaces:

NaimaAqeel
/

Chatbot

Runtime error

App Files Files Community

NaimaAqeel commited on Jun 7, 2024

Commit

3ee65d3

verified ·

1 Parent(s): 2b4be53

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -4,16 +4,16 @@ import numpy as np
 import PyPDF2
 import io
 from docx import Document
 from sentence_transformers import SentenceTransformer
 from langchain_community.vectorstores import FAISS
 from langchain_community.embeddings import HuggingFaceEmbeddings
-from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
-from nltk.tokenize import sent_tokenize
-import torch
 import gradio as gr
 import pickle
-import nltk
 nltk.download('punkt')
 # Function to extract text from a PDF file
@@ -37,17 +37,17 @@ def extract_text_from_docx(docx_data):
         print(f"Error extracting text from DOCX: {e}")
     return text
-# Initialize the embedding model
 embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
-# Hugging Face API token
 api_token = os.getenv('HUGGINGFACEHUB_API_TOKEN')
 if not api_token:
     raise ValueError("HUGGINGFACEHUB_API_TOKEN environment variable is not set")
-# Define RAG models
 generator_model_name = "facebook/bart-base"
-retriever_model_name = "facebook/bart-base"  # Can be the same as generator
 generator = AutoModelForSeq2SeqLM.from_pretrained(generator_model_name)
 generator_tokenizer = AutoTokenizer.from_pretrained(generator_model_name)
 retriever = AutoModelForSeq2SeqLM.from_pretrained(retriever_model_name)
@@ -132,7 +132,7 @@ def process_and_query(state, question):
 # Create Gradio interface
 iface = gr.Interface(
     fn=upload_files,
-    inputs=gr.inputs.FileContent(label="Upload PDF or DOCX file"),
     outputs="json",
     live=True,
     capture_session=True

 import PyPDF2
 import io
 from docx import Document
+from nltk.tokenize import sent_tokenize
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from sentence_transformers import SentenceTransformer
 from langchain_community.vectorstores import FAISS
 from langchain_community.embeddings import HuggingFaceEmbeddings
 import gradio as gr
 import pickle
+# Download NLTK punkt tokenizer if not already downloaded
+import nltk
 nltk.download('punkt')
 # Function to extract text from a PDF file
         print(f"Error extracting text from DOCX: {e}")
     return text
+# Initialize Sentence Transformer model for embeddings
 embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
+# Initialize Hugging Face API token
 api_token = os.getenv('HUGGINGFACEHUB_API_TOKEN')
 if not api_token:
     raise ValueError("HUGGINGFACEHUB_API_TOKEN environment variable is not set")
+# Initialize RAG models from Hugging Face
 generator_model_name = "facebook/bart-base"
+retriever_model_name = "facebook/bart-base"
 generator = AutoModelForSeq2SeqLM.from_pretrained(generator_model_name)
 generator_tokenizer = AutoTokenizer.from_pretrained(generator_model_name)
 retriever = AutoModelForSeq2SeqLM.from_pretrained(retriever_model_name)
 # Create Gradio interface
 iface = gr.Interface(
     fn=upload_files,
+    inputs=gr.inputs.File(label="Upload PDF or DOCX file"),
     outputs="json",
     live=True,
     capture_session=True