radarbackend11262024v11

Runtime error

App Files Files Community

Pijush2023 commited on Sep 16, 2024

Commit

3ce55e9

verified ·

1 Parent(s): d0253c9

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -4

app.py CHANGED Viewed

@@ -33,6 +33,8 @@ import torchaudio
 import numpy as np
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from langchain_huggingface import HuggingFaceEmbeddings
 # Neo4j imports
@@ -126,12 +128,12 @@ gpt4o_mini_model = initialize_gpt4o_mini_model()
 # Existing embeddings and vector store for GPT-4o
 gpt_embeddings = OpenAIEmbeddings(api_key=os.environ['OPENAI_API_KEY'])
-gpt_vectorstore = PineconeVectorStore(index_name="italyopenai", embedding=gpt_embeddings)
 gpt_retriever = gpt_vectorstore.as_retriever(search_kwargs={'k': 5})
 # New vector store setup for Phi-3.5
 phi_embeddings = embeddings
-phi_vectorstore = PineconeVectorStore(index_name="italyopenai", embedding=embeddings)
 phi_retriever = phi_vectorstore.as_retriever(search_kwargs={'k': 5})
@@ -142,7 +144,8 @@ phi_retriever = phi_vectorstore.as_retriever(search_kwargs={'k': 5})
 from pinecone import Pinecone
 pc = Pinecone(api_key=os.environ['PINECONE_API_KEY'])
-index_name = "italyopenai"
 vectorstore = PineconeVectorStore(index_name=index_name, embedding=embeddings)
 retriever = vectorstore.as_retriever(search_kwargs={'k': 5})
@@ -1562,6 +1565,24 @@ def fetch_google_flights(departure_id="JFK", arrival_id="BHM", outbound_date=cur
 # def insert_prompt(current_text, prompt):
 #     return prompt[0] if prompt else current_text
@@ -1669,7 +1690,16 @@ with gr.Blocks(theme='gradio/soft') as demo:
         #     refresh_button = gr.Button("Refresh Images")
         #     refresh_button.click(fn=update_images, inputs=None, outputs=[image_output_1, image_output_2, image_output_3])

 import numpy as np
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_community.document_loaders import PDFPlumberLoader
+import pdfplumber
 # Neo4j imports
 # Existing embeddings and vector store for GPT-4o
 gpt_embeddings = OpenAIEmbeddings(api_key=os.environ['OPENAI_API_KEY'])
+gpt_vectorstore = PineconeVectorStore(index_name="italy-pdf", embedding=gpt_embeddings)
 gpt_retriever = gpt_vectorstore.as_retriever(search_kwargs={'k': 5})
 # New vector store setup for Phi-3.5
 phi_embeddings = embeddings
+phi_vectorstore = PineconeVectorStore(index_name="italy-pdf", embedding=embeddings)
 phi_retriever = phi_vectorstore.as_retriever(search_kwargs={'k': 5})
 from pinecone import Pinecone
 pc = Pinecone(api_key=os.environ['PINECONE_API_KEY'])
+# index_name = "italyopenai"
+index_name = "italy-pdf"
 vectorstore = PineconeVectorStore(index_name=index_name, embedding=embeddings)
 retriever = vectorstore.as_retriever(search_kwargs={'k': 5})
 # def insert_prompt(current_text, prompt):
 #     return prompt[0] if prompt else current_text
+# Function to process PDF, extract text, split it into chunks, and upload to the vector DB
+def process_pdf(pdf_file):
+    with pdfplumber.open(pdf_file) as pdf:
+        all_text = ""
+        for page in pdf.pages:
+            all_text += page.extract_text()
+    # Split the text into chunks
+    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+    chunks = text_splitter.split_text(all_text)
+    # Embed and upload the chunks into the vector database
+    chunk_ids = []
+    for chunk in chunks:
+        chunk_id = vector_store.add_documents([chunk])
+        chunk_ids.append(chunk_id)
+    return f"Uploaded {len(chunks)} chunks to the vector database."
         #     refresh_button = gr.Button("Refresh Images")
         #     refresh_button.click(fn=update_images, inputs=None, outputs=[image_output_1, image_output_2, image_output_3])
+        # File upload component
+        with gr.Column():
+                file_input = gr.File(label="Upload PDF", file_types=[".pdf"])
+                # Button to trigger processing
+                process_button = gr.Button("Process PDF and Upload")
+                # Output textbox for results
+                output_textbox = gr.Textbox(label="Result")
+                # Define button click action
+                process_button.click(fn=process_pdf, inputs=file_input, outputs=output_textbox)