Spaces:

hamzaherry
/

RAG-BASED-APP-QA

Sleeping

App Files Files Community

hamzaherry commited on Dec 26, 2024

Commit

b5f9e6b

verified ·

1 Parent(s): 472cb47

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -22

app.py CHANGED Viewed

@@ -5,8 +5,14 @@ from PyPDF2 import PdfReader
 from sentence_transformers import SentenceTransformer
 from groq import Groq
 from dotenv import load_dotenv
 # Initialize Groq client
 client = Groq(api_key="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")
@@ -18,16 +24,27 @@ model = SentenceTransformer("all-MiniLM-L6-v2")
 dimension = 384  # Embedding size for the Sentence Transformer model
 index = faiss.IndexFlatL2(dimension)
-# Function to process PDF and create embeddings
-def process_pdf(pdf_file):
-    pdf_reader = PdfReader(pdf_file)
-    text = ""
-    for page in pdf_reader.pages:
-        text += page.extract_text()
-    chunks = [text[i:i + 500] for i in range(0, len(text), 500)]  # Chunk into 500-char blocks
-    embeddings = model.encode(chunks)
-    index.add(embeddings)
-    return chunks, embeddings
 # Function to query FAISS and generate a response
 def query_model(query):
@@ -50,15 +67,10 @@ def query_model(query):
 # Streamlit app
 st.title("RAG-based PDF Question Answering")
-st.write("Upload a PDF and ask questions based on its content.")
-uploaded_file = st.file_uploader("Upload your PDF", type=["pdf"])
-if uploaded_file:
-    stored_chunks, _ = process_pdf(uploaded_file)
-    st.success("PDF processed and embeddings created.")
-    query = st.text_input("Ask a question:")
-    if query:
-        answer = query_model(query)
-        st.write("### Answer:")
-        st.write(answer)

 from sentence_transformers import SentenceTransformer
 from groq import Groq
 from dotenv import load_dotenv
+import requests
+from io import BytesIO
+# Predefined Google Drive links
+PDF_LINKS = [
+    "https://drive.google.com/uc?id=1JPf0XvDhn8QoDOlZDrxCOpu4WzKFESNz",
+    # Add more Google Drive links here
+]
 # Initialize Groq client
 client = Groq(api_key="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")
 dimension = 384  # Embedding size for the Sentence Transformer model
 index = faiss.IndexFlatL2(dimension)
+# Store chunks globally
+stored_chunks = []
+# Function to download and extract the PDF content
+def download_and_process_pdf(link):
+    response = requests.get(link)
+    if response.status_code == 200:
+        pdf_reader = PdfReader(BytesIO(response.content))
+        text = ""
+        for page in pdf_reader.pages:
+            text += page.extract_text()
+        chunks = [text[i:i + 500] for i in range(0, len(text), 500)]  # Chunk into 500-char blocks
+        embeddings = model.encode(chunks)
+        index.add(embeddings)
+        stored_chunks.extend(chunks)
+    else:
+        print(f"Failed to download PDF from link: {link}")
+# Process all predefined links
+for link in PDF_LINKS:
+    download_and_process_pdf(link)
 # Function to query FAISS and generate a response
 def query_model(query):
 # Streamlit app
 st.title("RAG-based PDF Question Answering")
+st.write("Preloaded documents from Google Drive are ready for querying.")
+query = st.text_input("Ask a question:")
+if query:
+    answer = query_model(query)
+    st.write("### Answer:")
+    st.write(answer)