Files Added

Browse files

Files changed (10) hide show

.gitattributes +1 -0
.streamlit/config.toml +3 -0
app.py +99 -0
requirements.txt +8 -0
vectordb/Budget-Speech-2024/index.faiss +0 -0
vectordb/Budget-Speech-2024/index.pkl +3 -0
vectordb/The-100-Page-Machine-Learning-Book/index.faiss +3 -0
vectordb/The-100-Page-Machine-Learning-Book/index.pkl +3 -0
vectordb/test/index.faiss +0 -0
vectordb/test/index.pkl +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+vectordb/The-100-Page-Machine-Learning-Book/index.faiss filter=lfs diff=lfs merge=lfs -text

.streamlit/config.toml ADDED Viewed

	@@ -0,0 +1,3 @@

+[server]
+enableXsrfProtection = false
+enableCORS = false

app.py ADDED Viewed

	@@ -0,0 +1,99 @@

+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain_community.llms import OpenAI
+from langchain_community.vectorstores import FAISS
+from langchain_community.callbacks import get_openai_callback
+from langchain.chains.question_answering import load_qa_chain
+import streamlit as st
+from PyPDF2 import PdfReader
+from dotenv import load_dotenv
+load_dotenv()
+import re
+##! Converting PDF to text ##
+# def read_pdf(pdf):
+#     pdf_reader = PdfReader(pdf)
+#     text = ""
+#     for page in pdf_reader.pages:
+#         text += page.extract_text()
+#     return text
+##! Saving vectorestore locally ##
+# def save_vectorstore(title, vector_store):
+#     title = re.sub('\s+', '-', title)
+#     title = re.sub('[^a-zA-Z0-9\-]+', '', title)
+#     vector_store.save_local(f"./vectordb/{title[:35]}")
+#     print(f"{title} stored!")
+#     return True
+##* Load vectorstore ##
+def load_vectorstore(name, embeddings):
+    vector_store = FAISS.load_local(f"./vectordb/{name}/", embeddings=embeddings, allow_dangerous_deserialization=True)
+    return vector_store
+def main():
+    st.header('Chat with PDF 💬')
+    # pdf = st.file_uploader("Upload PDF", type='pdf')
+    embeddings = OpenAIEmbeddings()
+    vector_store = ''
+    if 'clicked' not in st.session_state:
+        st.session_state.clicked = False
+    def click_button():
+        st.session_state.clicked = True
+    # st.button('Load', on_click=click_button)
+    with st.container(border=True):
+        st.markdown('''
+             *Disclaimer: Section for uploading the PDF file has been removed as the API calls for OpenAI are not free. I've included few pdfs for Q&A. You can access the source code and enable the section for uploading PDFs.*
+                ''')
+    ##! Converting text to word Embeddings ##
+    # if st.session_state.clicked:
+    #     if pdf is not None:
+    #         text = read_pdf(pdf)
+    #         text_splitter = RecursiveCharacterTextSplitter(
+    #             chunk_size=1000,
+    #             chunk_overlap=200,
+    #             length_function=len
+    #         )
+    #         chunks = text_splitter.split_text(text=text)
+    #         vector_store = FAISS.from_texts(chunks, embedding=embeddings)
+    #         if save_btn:
+    #             save_vectorstore(pdf.name[:-4], vector_store)
+    option = st.selectbox(label="Select the PDF: ", options=['Budget Speech 2024', 'The 100 Page Machine Learning Book'], index=None)
+    query = st.text_input("Ask questions from your PDF file:")
+    if query and not option:
+        st.warning("Please Select a PDF")
+    if option:
+        title = re.sub('\s+', '-', option)
+        title = re.sub('[^a-zA-Z0-9\-]+', '', title)
+        vector_store = load_vectorstore(title, embeddings)
+        if query:
+            docs = vector_store.similarity_search(query=query, k=3)
+            llm = OpenAI(temperature=0)
+            chain = load_qa_chain(llm=llm, chain_type="stuff")
+            with get_openai_callback() as cb:
+                response = chain.invoke({"input_documents": docs, "question":query})
+                print(cb)
+                st.write(response["output_text"])
+if __name__ == '__main__':
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+streamlit
+PyPDF2
+langchain
+langchain_community
+openai
+tiktoken
+faiss-cpu
+python-dotenv

vectordb/Budget-Speech-2024/index.faiss ADDED Viewed

Binary file (277 kB). View file

vectordb/Budget-Speech-2024/index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f26f0949132ab2b73881fa767ffdb7943c53b38c1a3f7c8ab548b1d7e7e77280
+size 48844

vectordb/The-100-Page-Machine-Learning-Book/index.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6fecddc1fa588c31bdb8a707349a831503e609d89d5b0ade3a9007b03d56f3f
+size 2150445

vectordb/The-100-Page-Machine-Learning-Book/index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ce1dc384be60be0ce9b6489f2892c15e734d73c43b9b5b6878080611a39459f
+size 379563

vectordb/test/index.faiss ADDED Viewed

Binary file (135 kB). View file

vectordb/test/index.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de9e7792ae26942b5b47586eac60a9e8339b598aacf5c404e15b6a03c5deac6b
+size 23798