Spaces:

ngmitam
/

trade

Runtime error

App Files Files Community

ngmitam commited on Aug 14, 2023

Commit

c740382

1 Parent(s): ebe5f88

First commit

Browse files

Files changed (3) hide show

.gitignore +2 -0
app.py +100 -0
requirements.txt +206 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ .env
2	+ .vscode

app.py ADDED Viewed

	@@ -0,0 +1,100 @@

+import streamlit as st
+from dotenv import load_dotenv
+from PyPDF2 import PdfReader
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.vectorstores import FAISS
+from langchain.chat_models import ChatOpenAI
+from langchain.embeddings import OpenAIEmbeddings, HuggingFaceEmbeddings
+from langchain.memory import ConversationBufferMemory
+from langchain.chains import ConversationalRetrievalChain
+from langchain.llms import GPT4All
+from streamlit_chat import message
+from huggingface_hub import hf_hub_download
+from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
+def get_pdf_text(pdfs):
+    text = ""
+    for pdf in pdfs:
+        pdf_reader = PdfReader(pdf)
+        for page in pdf_reader.pages:
+            text += page.extract_text()
+    return text
+def get_text_chunks(text):
+    text_splitter = CharacterTextSplitter(separator="\n",
+                                          chunk_size=1000, chunk_overlap=200, length_function=len)
+    chunks = text_splitter.split_text(text)
+    return chunks
+def get_vectorstore(text_chunks):
+    # embeddings = OpenAIEmbeddings()
+    embeddings = HuggingFaceEmbeddings(
+        model_name="all-MiniLM-L6-v2")
+    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
+    return vectorstore
+def get_conversation_chain(vectorstore):
+    callbacks = [StreamingStdOutCallbackHandler()]
+    llm = GPT4All(model="/tmp/ggml-gpt4all-j-v1.3-groovy.bin",
+                  max_tokens=1000, backend='gptj', callbacks=callbacks, n_batch=8, verbose=False)
+    # llm = ChatOpenAI()
+    memory = ConversationBufferMemory(
+        memory_key='chat_history', return_messages=True)
+    conversation_chain = ConversationalRetrievalChain.from_llm(
+        llm=llm,
+        retriever=vectorstore.as_retriever(),
+        memory=memory
+    )
+    return conversation_chain
+def user_input(user_question):
+    print(user_question)
+    response = st.session_state.conversation({'question': user_question})
+    print(response)
+    st.session_state.chat_history = response['chat_history']
+    for i, messages in enumerate(st.session_state.chat_history):
+        if i % 2 == 0:
+            message(messages.content, is_user=True)
+        else:
+            message(messages.content)
+def main():
+    load_dotenv()
+    hf_hub_download(repo_id="dnato/ggml-gpt4all-j-v1.3-groovy.bin",
+                    filename="ggml-gpt4all-j-v1.3-groovy.bin", local_dir="/tmp")
+    st.set_page_config(page_title="Chat with PDF")
+    if "conversation" not in st.session_state:
+        st.session_state.conversation = None
+    if "chat_history" not in st.session_state:
+        st.session_state.chat_history = None
+    st.header("Chat with PDF")
+    user_question = st.text_input("Ask a question about your documents...")
+    if user_question:
+        user_input(user_question)
+    with st.sidebar:
+        st.subheader("Your Documents")
+        pdfs = st.file_uploader("Upload here", accept_multiple_files=True)
+        if st.button("Process"):
+            with st.spinner("Processing"):
+                raw_text = get_pdf_text(pdfs)
+                # print(raw_text)
+                chunks = get_text_chunks(raw_text)
+                # print(chunks)
+                vectorstore = get_vectorstore(chunks)
+                # print(vectorstore)
+                st.session_state.conversation = get_conversation_chain(
+                    vectorstore)
+                st.success("Processing Complete !")
+if __name__ == '__main__':
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,206 @@

+aiohttp==3.8.5
+aiosignal==1.3.1
+altair==5.0.1
+anyio==3.7.1
+appnope==0.1.3
+argilla==1.1.1
+astroid==2.15.5
+asttokens==2.2.1
+async-timeout==4.0.2
+attrs==23.1.0
+backcall==0.2.0
+backoff==2.2.1
+beautifulsoup4==4.12.2
+blinker==1.6.2
+cachetools==5.3.1
+certifi==2023.5.7
+cffi==1.15.1
+chardet==5.2.0
+charset-normalizer==3.1.0
+chromadb==0.3.26
+click==8.1.6
+clickhouse-connect==0.6.8
+colorclass==2.2.2
+coloredlogs==15.0.1
+comm==0.1.3
+compressed-rtf==1.0.6
+contourpy==1.1.0
+cryptography==41.0.3
+cycler==0.11.0
+Cython==0.29.35
+dataclasses-json==0.5.14
+debugpy==1.6.7
+decorator==5.1.1
+Deprecated==1.2.14
+dill==0.3.6
+diskcache==5.6.1
+duckdb==0.8.1
+easygui==0.98.3
+ebcdic==1.1.1
+et-xmlfile==1.1.0
+executing==1.2.0
+extract-msg==0.41.5
+faiss-cpu==1.7.4
+fastapi==0.101.0
+filelock==3.12.2
+filetype==1.2.0
+flatbuffers==23.5.26
+fonttools==4.40.0
+frozenlist==1.4.0
+fsspec==2023.6.0
+gitdb==4.0.10
+GitPython==3.1.32
+gpt4all==1.0.3
+h11==0.9.0
+hnswlib==0.7.0
+httpcore==0.11.1
+httptools==0.6.0
+httpx==0.15.5
+huggingface-hub==0.16.4
+humanfriendly==10.0
+idna==3.4
+IMAPClient==2.3.1
+importlib-metadata==6.8.0
+InstructorEmbedding==1.0.1
+ipykernel==6.23.3
+ipython==8.14.0
+isort==5.12.0
+jedi==0.18.2
+Jinja2==3.1.2
+joblib==1.3.1
+jsonschema==4.19.0
+jsonschema-specifications==2023.7.1
+jupyter_client==8.3.0
+jupyter_core==5.3.1
+kiwisolver==1.4.4
+langchain==0.0.228
+langchainplus-sdk==0.0.20
+lark-parser==0.12.0
+lazy-object-proxy==1.9.0
+llama-cpp-python==0.1.68
+lxml==4.9.3
+lz4==4.3.2
+Markdown==3.4.4
+markdown-it-py==3.0.0
+MarkupSafe==2.1.3
+marshmallow==3.20.1
+matplotlib==3.7.1
+matplotlib-inline==0.1.6
+mccabe==0.7.0
+mdurl==0.1.2
+monotonic==1.6
+mpmath==1.3.0
+msg-parser==1.2.0
+msoffcrypto-tool==5.1.1
+multidict==6.0.4
+mypy-extensions==1.0.0
+nest-asyncio==1.5.6
+networkx==3.1
+nltk==3.8.1
+numexpr==2.8.5
+numpy==1.25.0
+olefile==0.46
+oletools==0.60.1
+onnxruntime==1.15.1
+openai==0.27.8
+openapi-schema-pydantic==1.2.4
+openpyxl==3.1.2
+overrides==7.4.0
+packaging==23.1
+pandas==1.5.3
+pandoc==2.3
+parso==0.8.3
+pcodedmp==1.2.6
+pdf2image==1.16.3
+pdfminer.six==20221105
+pexpect==4.8.0
+pickleshare==0.7.5
+Pillow==9.5.0
+platformdirs==3.8.0
+plumbum==1.8.2
+ply==3.11
+posthog==3.0.1
+prompt-toolkit==3.0.38
+protobuf==4.23.4
+psutil==5.9.5
+ptyprocess==0.7.0
+pulsar-client==3.2.0
+pure-eval==0.2.2
+pyarrow==12.0.1
+pycocotools @ git+https://github.com/leimao/cocoapi.git@8c9bcc3cf640524c4c20a9c40e89cb6a2f2fa0e9#subdirectory=PythonAPI
+pycparser==2.21
+pycryptodome==3.15.0
+pydantic==1.10.12
+pydeck==0.8.0
+Pygments==2.15.1
+pylint==2.17.4
+Pympler==1.0.1
+PyMuPDF==1.22.5
+pypandoc==1.11
+pyparsing==2.4.7
+PyPDF2==3.0.1
+python-dateutil==2.8.2
+python-docx==0.8.11
+python-dotenv==1.0.0
+python-magic==0.4.27
+python-pptx==0.6.21
+pytz==2023.3
+pytz-deprecation-shim==0.1.0.post0
+pywatchman==1.4.1
+PyYAML==6.0.1
+pyzmq==25.1.0
+red-black-tree-mod==1.20
+referencing==0.30.2
+regex==2023.6.3
+requests==2.31.0
+rfc3986==1.5.0
+rich==13.5.2
+rpds-py==0.9.2
+RTFDE==0.0.2
+safetensors==0.3.1
+scikit-learn==1.3.0
+scipy==1.11.1
+sentence-transformers==2.2.2
+sentencepiece==0.1.99
+six==1.16.0
+smmap==5.0.0
+sniffio==1.3.0
+soupsieve==2.4.1
+SQLAlchemy==2.0.19
+stack-data==0.6.2
+starlette==0.27.0
+streamlit==1.24.0
+streamlit-chat==0.1.1
+sympy==1.12
+tabulate==0.9.0
+tenacity==8.2.2
+threadpoolctl==3.2.0
+tiktoken==0.4.0
+tokenizers==0.13.3
+toml==0.10.2
+tomlkit==0.11.8
+toolz==0.12.0
+torch==2.0.1
+torchvision==0.15.2
+tornado==6.3.2
+tqdm==4.65.0
+traitlets==5.9.0
+transformers==4.31.0
+typing-inspect==0.9.0
+typing_extensions==4.7.1
+tzdata==2023.3
+tzlocal==4.3.1
+unstructured==0.8.0
+urllib3==2.0.3
+uvicorn==0.23.2
+uvloop==0.17.0
+validators==0.21.2
+watchfiles==0.19.0
+wcwidth==0.2.6
+websockets==11.0.3
+wrapt==1.13.3
+xlrd==2.0.1
+XlsxWriter==3.1.2
+yarl==1.9.2
+zipp==3.16.2
+zstandard==0.21.0