ArxivChainLitDemo

Paused

App Files Files Community

llm-wizard commited on Jul 18, 2023

Commit

0c62088

0 Parent(s):

Duplicate from c-s-ale/ArxivChainLitDemo

Browse files

Files changed (8) hide show

.env.example +1 -0
.gitattributes +34 -0
.gitignore +4 -0
Dockerfile +11 -0
README.md +10 -0
app.py +103 -0
chainlit.md +11 -0
requirements.txt +7 -0

.env.example ADDED Viewed

	@@ -0,0 +1 @@


1	+ OPENAI_API_KEY=

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+.env
+.vscode
+.chroma
+__pycache__

Dockerfile ADDED Viewed

	@@ -0,0 +1,11 @@

+FROM python:3.9
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+COPY ./requirements.txt ~/app/requirements.txt
+RUN pip install -r requirements.txt
+COPY . .
+CMD ["chainlit", "run", "app.py", "--port", "7860"]

README.md ADDED Viewed

	@@ -0,0 +1,10 @@

+---
+title: ArxivChainLitDemo
+emoji: 💻
+colorFrom: indigo
+colorTo: gray
+sdk: docker
+pinned: false
+license: openrail
+duplicated_from: c-s-ale/ArxivChainLitDemo
+---

app.py ADDED Viewed

	@@ -0,0 +1,103 @@

+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.document_loaders import PyMuPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.vectorstores import Chroma
+from langchain.chains import RetrievalQAWithSourcesChain
+from langchain.chat_models import ChatOpenAI
+from langchain.prompts.chat import (
+    ChatPromptTemplate,
+    SystemMessagePromptTemplate,
+    HumanMessagePromptTemplate,
+)
+import os
+import arxiv
+import chainlit as cl
+from chainlit import user_session
+@cl.langchain_factory(use_async=True)
+async def init():
+    arxiv_query = None
+    # Wait for the user to ask an Arxiv question
+    while arxiv_query == None:
+        arxiv_query = await cl.AskUserMessage(
+            content="Please enter a topic to begin!", timeout=15
+        ).send()
+    # Obtain the top 30 results from Arxiv for the query
+    search = arxiv.Search(
+        query=arxiv_query["content"],
+        max_results=3,
+        sort_by=arxiv.SortCriterion.Relevance,
+    )
+    await cl.Message(content="Downloading and chunking articles...").send()
+    # download each of the pdfs
+    pdf_data = []
+    for result in search.results():
+        loader = PyMuPDFLoader(result.pdf_url)
+        loaded_pdf = loader.load()
+        for document in loaded_pdf:
+            document.metadata["source"] = result.entry_id
+            document.metadata["file_path"] = result.pdf_url
+            document.metadata["title"] = result.title
+            pdf_data.append(document)
+    # Create a Chroma vector store
+    embeddings = OpenAIEmbeddings(
+        disallowed_special=(),
+    )
+    # If operation takes too long, make_async allows to run in a thread
+    # docsearch = await cl.make_async(Chroma.from_documents)(pdf_data, embeddings)
+    docsearch = Chroma.from_documents(pdf_data, embeddings)
+    # Create a chain that uses the Chroma vector store
+    chain = RetrievalQAWithSourcesChain.from_chain_type(
+        ChatOpenAI(
+            model_name="gpt-3.5-turbo-16k",
+            temperature=0,
+        ),
+        chain_type="stuff",
+        retriever=docsearch.as_retriever(),
+        return_source_documents=True,
+    )
+    # Let the user know that the system is ready
+    await cl.Message(
+        content=f"We found a few papers about `{arxiv_query['content']}` you can now ask questions!"
+    ).send()
+    return chain
+@cl.langchain_postprocess
+async def process_response(res):
+    answer = res["answer"]
+    source_elements_dict = {}
+    source_elements = []
+    for idx, source in enumerate(res["source_documents"]):
+        title = source.metadata["title"]
+        if title not in source_elements_dict:
+            source_elements_dict[title] = {
+                "page_number": [source.metadata["page"]],
+                "url": source.metadata["file_path"],
+            }
+        else:
+            source_elements_dict[title]["page_number"].append(source.metadata["page"])
+        # sort the page numbers
+        source_elements_dict[title]["page_number"].sort()
+    for title, source in source_elements_dict.items():
+        # create a string for the page numbers
+        page_numbers = ", ".join([str(x) for x in source["page_number"]])
+        text_for_source = f"Page Number(s): {page_numbers}\nURL: {source['url']}"
+        source_elements.append(
+            cl.Text(name=title, content=text_for_source, display="inline")
+        )
+    await cl.Message(content=answer, elements=source_elements).send()

chainlit.md ADDED Viewed

	@@ -0,0 +1,11 @@

+# ⚠️ Warning ⚠️
+You will need a GPT-4 API key to use this app due to large context size!
+# Welcome to AskArxiv powered by Chainlit!
+In this app, you'll be able to enter a topic - and then ask ~30 papers from Arxiv about that topic!
+### Link To Demo
+[Hugging Face Space]()

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+arxiv==1.4.7
+langchain==0.0.202
+chainlit==0.4.1
+openai
+chromadb
+tiktoken
+pymupdf