Spaces:

NaimaAqeel
/

Chatbot

Runtime error

App Files Files Community

NaimaAqeel commited on Jun 6, 2024

Commit

80e4cb4

verified ·

1 Parent(s): a37ef5b

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -86

app.py CHANGED Viewed

@@ -1,20 +1,43 @@
 import os
 import gradio as gr
 import fitz  # PyMuPDF for PDF text extraction
-from docx import Document  # python-docx for DOCX text extraction
 from sentence_transformers import SentenceTransformer
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from nltk.tokenize import sent_tokenize
 import torch
 import pickle
-import nltk
-import faiss
-import numpy as np
-# Download NLTK punkt tokenizer data if not already downloaded
-nltk.download('punkt', quiet=True)
-# Function to extract text from a PDF file
 def extract_text_from_pdf(pdf_path):
     text = ""
     try:
@@ -23,85 +46,54 @@ def extract_text_from_pdf(pdf_path):
             page = doc.load_page(page_num)
             text += page.get_text()
     except Exception as e:
-        print(f"Error extracting text from PDF: {e}")
     return text
-# Function to extract text from a Word document
 def extract_text_from_docx(docx_path):
     text = ""
     try:
         doc = Document(docx_path)
         text = "\n".join([para.text for para in doc.paragraphs])
     except Exception as e:
-        print(f"Error extracting text from DOCX: {e}")
     return text
-# Initialize the SentenceTransformer model for embeddings
-embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
-# Initialize the HuggingFaceEmbeddings for LangChain
-# Since we're not using it directly for index, initialization may be skipped here
-# Initialize the FAISS index
-class FAISSIndex:
-    def __init__(self, dimension):
-        self.dimension = dimension
-        self.index = faiss.IndexFlatL2(dimension)
-    def add_sentences(self, sentences, embeddings):
-        # Ensure embeddings are numpy arrays
-        embeddings = np.array(embeddings)
-        # Check if embeddings and sentences have the same length
-        assert len(embeddings) == len(sentences), "Number of embeddings should match number of sentences"
-        # Add each sentence embedding to the index
-        for emb in embeddings:
-            self.index.add(np.expand_dims(emb, axis=0))
-    def similarity_search(self, query_embedding, k=5):
-        # Search for similar embeddings in the index
-        D, I = self.index.search(query_embedding, k)
-        return [{"text": str(i), "score": float(d)} for i, d in zip(I[0], D[0])]
-# Initialize the FAISS index instance
-index_dimension = 512  # Dimensionality of SentenceTransformer embeddings
-faiss_index = FAISSIndex(index_dimension)
 def preprocess_text(text):
     sentences = sent_tokenize(text)
     return sentences
 def upload_files(files):
     try:
         for file in files:
-            file_path = file.name  # Assuming `file` is a Gradio File object
-            if file_path.endswith('.pdf'):
-                text = extract_text_from_pdf(file_path)
-            elif file_path.endswith('.docx'):
-                text = extract_text_from_docx(file_path)
-            else:
-                return {"error": f"Unsupported file format: {file_path}"}
-            # Preprocess text
-            sentences = preprocess_text(text)
-            # Encode sentences
-            embeddings = embedding_model.encode(sentences)
-            # Add sentences to FAISS index
-            faiss_index.add_sentences(sentences, embeddings)
-        # Save the updated index
-        with open("faiss_index.pkl", "wb") as f:
             pickle.dump(faiss_index, f)
         return {"message": "Files processed successfully"}
     except Exception as e:
-        print(f"Error processing files: {e}")
-        return {"error": str(e)}  # Provide informative error message
 def process_and_query(state, files, question):
     if files:
@@ -110,29 +102,9 @@ def process_and_query(state, files, question):
             return upload_result
     if question:
-        # Preprocess the question
         question_embedding = embedding_model.encode([question])
-        # Search the FAISS index for similar passages
-        retrieved_results = faiss_index.similarity_search(question_embedding, k=5)  # Retrieve top 5 passages
-        retrieved_passages = [result['text'] for result in retrieved_results]
-        # Initialize RAG generator model
-        generator_model_name = "facebook/bart-base"
-        generator = AutoModelForSeq2SeqLM.from_pretrained(generator_model_name)
-        generator_tokenizer = AutoTokenizer.from_pretrained(generator_model_name)
-        # Use generator model to generate response based on question and retrieved passages
-        combined_input = question + " ".join(retrieved_passages)
-        inputs = generator_tokenizer(combined_input, return_tensors="pt")
-        with torch.no_grad():
-            generator_outputs = generator.generate(**inputs)
-            generated_text = generator_tokenizer.decode(generator_outputs[0], skip_special_tokens=True)
-        # Update conversation history
-        state["conversation"].append({"question": question, "answer": generated_text})
-        return {"message": generated_text, "conversation": state["conversation"]}
     return {"error": "No question provided"}

 import os
 import gradio as gr
+from docx import Document
 import fitz  # PyMuPDF for PDF text extraction
 from sentence_transformers import SentenceTransformer
+from langchain_community.vectorstores import FAISS
+from langchain_community.embeddings import HuggingFaceEmbeddings
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 from nltk.tokenize import sent_tokenize
 import torch
 import pickle
+# Initialize the embedding model
+embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
+# Hugging Face API token
+api_token = os.getenv('HUGGINGFACEHUB_API_TOKEN')
+if not api_token:
+    raise ValueError("HUGGINGFACEHUB_API_TOKEN environment variable is not set")
+# Define RAG models
+generator_model_name = "facebook/bart-base"
+retriever_model_name = "facebook/bart-base"  # Can be the same as generator
+generator = AutoModelForSeq2SeqLM.from_pretrained(generator_model_name)
+generator_tokenizer = AutoTokenizer.from_pretrained(generator_model_name)
+retriever = AutoModelForSeq2SeqLM.from_pretrained(retriever_model_name)
+retriever_tokenizer = AutoTokenizer.from_pretrained(retriever_model_name)
+# Initialize FAISS index using LangChain
+hf_embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')
+# Load or create FAISS index
+index_path = "faiss_index.pkl"
+if os.path.exists(index_path):
+    with open(index_path, "rb") as f:
+        faiss_index = pickle.load(f)
+        print("Loaded FAISS index from faiss_index.pkl")
+else:
+    faiss_index = FAISS()
 def extract_text_from_pdf(pdf_path):
     text = ""
     try:
             page = doc.load_page(page_num)
             text += page.get_text()
     except Exception as e:
+        raise RuntimeError(f"Error extracting text from PDF '{pdf_path}': {e}")
     return text
 def extract_text_from_docx(docx_path):
     text = ""
     try:
         doc = Document(docx_path)
         text = "\n".join([para.text for para in doc.paragraphs])
     except Exception as e:
+        raise RuntimeError(f"Error extracting text from DOCX '{docx_path}': {e}")
     return text
 def preprocess_text(text):
     sentences = sent_tokenize(text)
     return sentences
 def upload_files(files):
     try:
+        global faiss_index
         for file in files:
+            try:
+                file_path = file.name
+                if file_path.endswith('.pdf'):
+                    text = extract_text_from_pdf(file_path)
+                elif file_path.endswith('.docx'):
+                    text = extract_text_from_docx(file_path)
+                else:
+                    return {"error": f"Unsupported file format: {file_path}"}
+                sentences = preprocess_text(text)
+                embeddings = embedding_model.encode(sentences)
+                for sentence, embedding in zip(sentences, embeddings):
+                    faiss_index.add_sentence(sentence, embedding)
+            except Exception as e:
+                print(f"Error processing file '{file.name}': {e}")
+                return {"error": str(e)}
+        with open(index_path, "wb") as f:
             pickle.dump(faiss_index, f)
         return {"message": "Files processed successfully"}
     except Exception as e:
+        print(f"General error processing files: {e}")
+        return {"error": str(e)}
 def process_and_query(state, files, question):
     if files:
             return upload_result
     if question:
         question_embedding = embedding_model.encode([question])
+        # Perform FAISS search and generate response as before
     return {"error": "No question provided"}