Spaces:

zhtet
/

RegBotBeta

Sleeping

App Files Files Community

Zwea Htet commited on Aug 6, 2023

Commit

b17ddeb

2 Parent(s): 54d209f ad2d0d7

Merge branch 'main' of https://huggingface.co/spaces/zhtet/RegBotBeta

Browse files

Files changed (7) hide show

.gitattributes +2 -0
assets/pdf/CADWReg.pdf +3 -0
models/langOpen.py +7 -5
models/llamaCustom.py +21 -18
pages/langchain_demo.py +1 -1
pages/llama_custom_demo.py +6 -3
utils/chatbox.py +0 -1

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 .*pdf filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 .*pdf filter=lfs diff=lfs merge=lfs -text
+assets/pdf/calregs.pdf filter=lfs diff=lfs merge=lfs -text
+assets/pdf/CADWReg.pdf filter=lfs diff=lfs merge=lfs -text

assets/pdf/CADWReg.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a80bdec9f2f6c15ca5d9181723b711bb7428fa48babaf87bab3f3b690055f54
+size 3724564

models/langOpen.py CHANGED Viewed

@@ -4,13 +4,15 @@ import openai
 from dotenv import load_dotenv
 from langchain.chains import LLMChain
 from langchain.chat_models import ChatOpenAI
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.prompts import PromptTemplate
 from langchain.vectorstores import FAISS
-load_dotenv()
-embeddings = OpenAIEmbeddings()
 prompt_template = """Answer the question using the given context to the best of your ability.
 If you don't know, answer I don't know.
@@ -28,12 +30,12 @@ class LangOpen:
     def initialize_index(self, index_name):
         path = f"./vectorStores/{index_name}"
         if os.path.exists(path=path):
             return FAISS.load_local(folder_path=path, embeddings=embeddings)
         else:
-            faiss = FAISS.from_texts(
-                "./assets/updated_calregs.txt", embedding=embeddings
-            )
             faiss.save_local(path)
             return faiss

 from dotenv import load_dotenv
 from langchain.chains import LLMChain
 from langchain.chat_models import ChatOpenAI
+from langchain.document_loaders import PyPDFLoader
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.prompts import PromptTemplate
 from langchain.vectorstores import FAISS
+loader = PyPDFLoader("./assets/pdf/CADWReg.pdf")
+pages = loader.load_and_split()
+load_dotenv()
 prompt_template = """Answer the question using the given context to the best of your ability.
 If you don't know, answer I don't know.
     def initialize_index(self, index_name):
         path = f"./vectorStores/{index_name}"
+        embeddings = OpenAIEmbeddings()
         if os.path.exists(path=path):
             return FAISS.load_local(folder_path=path, embeddings=embeddings)
         else:
+            faiss = FAISS.from_documents(pages, embeddings)
             faiss.save_local(path)
             return faiss

models/llamaCustom.py CHANGED Viewed

@@ -5,6 +5,7 @@ from typing import Any, List, Mapping, Optional
 import numpy as np
 import openai
 import pandas as pd
 from dotenv import load_dotenv
 from huggingface_hub import HfFileSystem
@@ -35,12 +36,6 @@ NUM_OUTPUT = 525
 # set maximum chunk overlap
 CHUNK_OVERLAP_RATION = 0.2
-prompt_helper = PromptHelper(
-    context_window=CONTEXT_WINDOW,
-    num_output=NUM_OUTPUT,
-    chunk_overlap_ratio=CHUNK_OVERLAP_RATION,
-)
 llm_model_name = "bigscience/bloom-560m"
 tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
 model = AutoModelForCausalLM.from_pretrained(llm_model_name, config="T5Config")
@@ -70,24 +65,21 @@ class CustomLLM(LLM):
     @property
     def _identifying_params(self) -> Mapping[str, Any]:
-        return {"name_of_model": self.model_name}
     @property
     def _llm_type(self) -> str:
         return "custom"
 class LlamaCustom:
-    # define llm
-    llm_predictor = LLMPredictor(llm=CustomLLM())
-    service_context = ServiceContext.from_defaults(
-        llm_predictor=llm_predictor, prompt_helper=prompt_helper
-    )
-    def __init__(self, name: str) -> None:
-        self.vector_index = self.initialize_index(index_name=name)
-    def initialize_index(self, index_name):
         file_path = f"./vectorStores/{index_name}"
         if os.path.exists(path=file_path):
             # rebuild storage context
@@ -101,11 +93,22 @@ class LlamaCustom:
             #     index = pickle.loads(file.readlines())
             return index
         else:
             # documents = prepare_data(r"./assets/regItems.json")
             documents = SimpleDirectoryReader(input_dir="./assets/pdf").load_data()
             index = GPTVectorStoreIndex.from_documents(
-                documents, service_context=self.service_context
             )
             # local write access
@@ -120,4 +123,4 @@ class LlamaCustom:
         print("query_str: ", query_str)
         query_engine = self.vector_index.as_query_engine()
         response = query_engine.query(query_str)
-        return str(response)

 import numpy as np
 import openai
+import streamlit as st
 import pandas as pd
 from dotenv import load_dotenv
 from huggingface_hub import HfFileSystem
 # set maximum chunk overlap
 CHUNK_OVERLAP_RATION = 0.2
 llm_model_name = "bigscience/bloom-560m"
 tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
 model = AutoModelForCausalLM.from_pretrained(llm_model_name, config="T5Config")
     @property
     def _identifying_params(self) -> Mapping[str, Any]:
+        return {"name_of_model": llm_model_name}
     @property
     def _llm_type(self) -> str:
         return "custom"
+@st.cache_resource
 class LlamaCustom:
+    def __init__(self, model_name: str) -> None:
+        self.vector_index = self.initialize_index(model_name=model_name)
+    def initialize_index(self, model_name: str):
+        index_name = model_name.split("/")[-1]
         file_path = f"./vectorStores/{index_name}"
         if os.path.exists(path=file_path):
             # rebuild storage context
             #     index = pickle.loads(file.readlines())
             return index
         else:
+            # define llm
+            prompt_helper = PromptHelper(
+                context_window=CONTEXT_WINDOW,
+                num_output=NUM_OUTPUT,
+                chunk_overlap_ratio=CHUNK_OVERLAP_RATION,
+            )
+            llm_predictor = LLMPredictor(llm=CustomLLM())
+            service_context = ServiceContext.from_defaults(
+                llm_predictor=llm_predictor, prompt_helper=prompt_helper
+            )
             # documents = prepare_data(r"./assets/regItems.json")
             documents = SimpleDirectoryReader(input_dir="./assets/pdf").load_data()
             index = GPTVectorStoreIndex.from_documents(
+                documents, service_context=service_context
             )
             # local write access
         print("query_str: ", query_str)
         query_engine = self.vector_index.as_query_engine()
         response = query_engine.query(query_str)
+        return str(response)

pages/langchain_demo.py CHANGED Viewed

@@ -17,7 +17,7 @@ if "openai_api_key" not in st.session_state:
     st.info("Enter your openai key to access the chatbot.")
 else:
     option = st.selectbox(
-        label="Select your model:", options=("gpt-3.5-turbo", "gpt-4"), index=0
     )
     with st.spinner(f"Initializing {option} ..."):

     st.info("Enter your openai key to access the chatbot.")
 else:
     option = st.selectbox(
+        label="Select your model:", options=("gpt-3.5-turbo", "gpt-4")
     )
     with st.spinner(f"Initializing {option} ..."):

pages/llama_custom_demo.py CHANGED Viewed

@@ -1,11 +1,10 @@
 import os
-import time
 import openai
 import streamlit as st
 from models.llamaCustom import LlamaCustom
-from utils.chatbox import *
 st.set_page_config(page_title="Llama", page_icon="🦙")
@@ -17,7 +16,11 @@ if "messages" not in st.session_state:
 if "openai_api_key" not in st.session_state:
     st.info("Enter your openai key to access the chatbot.")
 else:
     with st.spinner("Initializing vector index"):
-        model = LlamaCustom(name="llamaCustom")
     chatbox("llama_custom", model)

 import os
 import openai
 import streamlit as st
 from models.llamaCustom import LlamaCustom
+from utils.chatbox import chatbox
 st.set_page_config(page_title="Llama", page_icon="🦙")
 if "openai_api_key" not in st.session_state:
     st.info("Enter your openai key to access the chatbot.")
 else:
+    option = st.selectbox(
+        label="Select your model:", options=("bigscience/bloom-560m",)
+    )
     with st.spinner("Initializing vector index"):
+        model = LlamaCustom(model_name=option)
     chatbox("llama_custom", model)

utils/chatbox.py CHANGED Viewed

@@ -40,7 +40,6 @@ def display_bot_msg(model_name: str, bot_response: str):
         {"model_name": model_name, "role": "assistant", "content": full_response}
     )
-# @st.cache_data
 def chatbox(model_name: str, model: None):
     # Display chat messages from history on app rerun
     for message in st.session_state.messages:

         {"model_name": model_name, "role": "assistant", "content": full_response}
     )
 def chatbox(model_name: str, model: None):
     # Display chat messages from history on app rerun
     for message in st.session_state.messages: