Spaces:

andreped
/

chatbot-streamlit-demo

Build error

App Files Files Community

andreped commited on Oct 24, 2023

Commit

612f625

1 Parent(s): 59fea76

Reformated code

Browse files

Files changed (3) hide show

app.py +4 -3
chatbot/data.py +8 -7
chatbot/redirect.py +55 -23

app.py CHANGED Viewed

@@ -15,11 +15,12 @@ st.header("Chat with André's research 💬 📚")
 if "messages" not in st.session_state.keys():  # Initialize the chat message history
     st.session_state.messages = [{"role": "assistant", "content": "Ask me a question about André's research!"}]
 def main():
     # setup logger sidebar
-    #st.sidebar.text("Standard output log:")
-    #_sidebar_out = st.sidebar.empty()
-    #with rd.stdout(to=_sidebar_out, format='text'):
     #    print("test")
     # setup dataset

 if "messages" not in st.session_state.keys():  # Initialize the chat message history
     st.session_state.messages = [{"role": "assistant", "content": "Ask me a question about André's research!"}]
 def main():
     # setup logger sidebar
+    # st.sidebar.text("Standard output log:")
+    # _sidebar_out = st.sidebar.empty()
+    # with rd.stdout(to=_sidebar_out, format='text'):
     #    print("test")
     # setup dataset

chatbot/data.py CHANGED Viewed

@@ -1,7 +1,5 @@
 import os
-from chatbot import redirect as rd
 import streamlit as st
 from gdown import download_folder
 from llama_index import ServiceContext
@@ -11,21 +9,24 @@ from llama_index import set_global_service_context
 from llama_index.embeddings import OpenAIEmbedding
 from llama_index.llms import AzureOpenAI
 @st.cache_resource(show_spinner=False)
 def download_test_data():
     # url = f"https://drive.google.com/drive/folders/uc?export=download&confirm=pbef&id={file_id}"
     url = "https://drive.google.com/drive/folders/1uDSAWtLvp1YPzfXUsK_v6DeWta16pq6y"
     with st.spinner(text="Downloading test data. This might take a minute."):
-        # @TODO: replace gown solution with a custom solution compatible with GitHub and
         # use st.progress to get more verbose during download
         download_folder(url=url, quiet=False, use_cookies=False, output="./data/")
 @st.cache_resource(show_spinner=False)
 def load_data():
     with st.spinner(text="Loading and indexing the provided dataset – hang tight! This may take a few seconds."):
         documents = SimpleDirectoryReader(input_dir="./data", recursive=True).load_data()
     with st.spinner(text="Setting up Azure OpenAI..."):
         llm = AzureOpenAI(
             model="gpt-3.5-turbo",
@@ -50,11 +51,11 @@ def load_data():
             api_base=st.secrets["OPENAI_API_BASE"],
             api_type="azure",
             api_version=st.secrets["OPENAI_API_VERSION"],
-            embed_batch_size=10,  # set to one to reduce rate limit -> may degrade response runtime
         )
     with st.spinner(text="Setting up Vector Store Index..."):
-        service_context = ServiceContext.from_defaults(llm=llm, embed_model=embed_model)
         set_global_service_context(service_context)
         index = VectorStoreIndex.from_documents(documents)  # , service_context=service_context)
         return index

 import os
 import streamlit as st
 from gdown import download_folder
 from llama_index import ServiceContext
 from llama_index.embeddings import OpenAIEmbedding
 from llama_index.llms import AzureOpenAI
+from chatbot import redirect as rd
 @st.cache_resource(show_spinner=False)
 def download_test_data():
     # url = f"https://drive.google.com/drive/folders/uc?export=download&confirm=pbef&id={file_id}"
     url = "https://drive.google.com/drive/folders/1uDSAWtLvp1YPzfXUsK_v6DeWta16pq6y"
     with st.spinner(text="Downloading test data. This might take a minute."):
+        # @TODO: replace gown solution with a custom solution compatible with GitHub and
         # use st.progress to get more verbose during download
         download_folder(url=url, quiet=False, use_cookies=False, output="./data/")
 @st.cache_resource(show_spinner=False)
 def load_data():
     with st.spinner(text="Loading and indexing the provided dataset – hang tight! This may take a few seconds."):
         documents = SimpleDirectoryReader(input_dir="./data", recursive=True).load_data()
     with st.spinner(text="Setting up Azure OpenAI..."):
         llm = AzureOpenAI(
             model="gpt-3.5-turbo",
             api_base=st.secrets["OPENAI_API_BASE"],
             api_type="azure",
             api_version=st.secrets["OPENAI_API_VERSION"],
+            embed_batch_size=10,  # set to low value to reduce rate limit -> may degrade response runtime
         )
     with st.spinner(text="Setting up Vector Store Index..."):
+        service_context = ServiceContext.from_defaults(llm=llm, embed_model=embed_model)  # , chunk_size=512)
         set_global_service_context(service_context)
         index = VectorStoreIndex.from_documents(documents)  # , service_context=service_context)
         return index

chatbot/redirect.py CHANGED Viewed

@@ -1,8 +1,9 @@
-import streamlit as st
-import io
 import contextlib
-import sys
 import re
 class _Redirect:
@@ -10,6 +11,7 @@ class _Redirect:
     Based on: https://gist.github.com/schaumb/037f139035d93cff3ad9f4f7e5f739ce
     Also see: https://github.com/streamlit/streamlit/issues/268#issuecomment-810478208
     """
     class IOStuff(io.StringIO):
         def __init__(self, trigger, max_buffer, buffer_separator, regex, dup=None):
             super().__init__()
@@ -23,7 +25,7 @@ class _Redirect:
             if self._max_buffer:
                 concatenated_len = super().tell() + len(__s)
                 if concatenated_len > self._max_buffer:
-                    rest = self.get_filtered_output()[concatenated_len - self._max_buffer:]
                     if self._buffer_separator is not None:
                         rest = rest.split(self._buffer_separator, 1)[-1]
                     super().seek(0)
@@ -39,20 +41,35 @@ class _Redirect:
             if self._regex is None or self._buffer_separator is None:
                 return self.getvalue()
-            return self._buffer_separator.join(filter(self._regex.search, self.getvalue().split(self._buffer_separator)))
         def print_at_end(self):
             self._trigger(self.get_filtered_output())
-    def __init__(self, stdout=None, stderr=False, format=None, to=None, max_buffer=None, buffer_separator='\n',
-                 regex=None, duplicate_out=False):
-        self.io_args = {'trigger': self._write, 'max_buffer': max_buffer, 'buffer_separator': buffer_separator,
-                        'regex': regex}
         self.redirections = []
         self.st = None
         self.stderr = stderr is True
         self.stdout = stdout is True or (stdout is None and not self.stderr)
-        self.format = format or 'code'
         self.to = to
         self.fun = None
         self.duplicate_out = duplicate_out or None
@@ -61,29 +78,36 @@ class _Redirect:
         if not self.stdout and not self.stderr:
             raise ValueError("one of stdout or stderr must be True")
-        if self.format not in ['text', 'markdown', 'latex', 'code', 'write']:
             raise ValueError(
-                f"format need oneof the following: {', '.join(['text', 'markdown', 'latex', 'code', 'write'])}")
-        if self.to and (not hasattr(self.to, 'text') or not hasattr(self.to, 'empty')):
             raise ValueError(f"'to' is not a streamlit container object")
     def __enter__(self):
         if self.st is not None:
             if self.to is None:
                 if self.active_nested is None:
-                    self.active_nested = self(format=self.format, max_buffer=self.io_args['max_buffer'],
-                                              buffer_separator=self.io_args['buffer_separator'],
-                                              regex=self.io_args['regex'], duplicate_out=self.duplicate_out)
                 return self.active_nested.__enter__()
             else:
                 raise Exception("Already entered")
         to = self.to or st
-        to.text(f"Redirected output from "
-                f"{'stdout and stderr' if self.stdout and self.stderr else 'stdout' if self.stdout else 'stderr'}"
-                f"{' [' + self.io_args['regex'] + ']' if self.io_args['regex'] else ''}"
-                f":")
         self.st = to.empty()
         self.fun = getattr(self.st, self.format)
@@ -103,9 +127,17 @@ class _Redirect:
         return io_obj
-    def __call__(self, to=None, format=None, max_buffer=None, buffer_separator='\n', regex=None, duplicate_out=False):
-        return _Redirect(self.stdout, self.stderr, format=format, to=to, max_buffer=max_buffer,
-                         buffer_separator=buffer_separator, regex=regex, duplicate_out=duplicate_out)
     def __exit__(self, *exc):
         if self.active_nested is not None:

 import contextlib
+import io
 import re
+import sys
+import streamlit as st
 class _Redirect:
     Based on: https://gist.github.com/schaumb/037f139035d93cff3ad9f4f7e5f739ce
     Also see: https://github.com/streamlit/streamlit/issues/268#issuecomment-810478208
     """
     class IOStuff(io.StringIO):
         def __init__(self, trigger, max_buffer, buffer_separator, regex, dup=None):
             super().__init__()
             if self._max_buffer:
                 concatenated_len = super().tell() + len(__s)
                 if concatenated_len > self._max_buffer:
+                    rest = self.get_filtered_output()[concatenated_len - self._max_buffer :]
                     if self._buffer_separator is not None:
                         rest = rest.split(self._buffer_separator, 1)[-1]
                     super().seek(0)
             if self._regex is None or self._buffer_separator is None:
                 return self.getvalue()
+            return self._buffer_separator.join(
+                filter(self._regex.search, self.getvalue().split(self._buffer_separator))
+            )
         def print_at_end(self):
             self._trigger(self.get_filtered_output())
+    def __init__(
+        self,
+        stdout=None,
+        stderr=False,
+        format=None,
+        to=None,
+        max_buffer=None,
+        buffer_separator="\n",
+        regex=None,
+        duplicate_out=False,
+    ):
+        self.io_args = {
+            "trigger": self._write,
+            "max_buffer": max_buffer,
+            "buffer_separator": buffer_separator,
+            "regex": regex,
+        }
         self.redirections = []
         self.st = None
         self.stderr = stderr is True
         self.stdout = stdout is True or (stdout is None and not self.stderr)
+        self.format = format or "code"
         self.to = to
         self.fun = None
         self.duplicate_out = duplicate_out or None
         if not self.stdout and not self.stderr:
             raise ValueError("one of stdout or stderr must be True")
+        if self.format not in ["text", "markdown", "latex", "code", "write"]:
             raise ValueError(
+                f"format need oneof the following: {', '.join(['text', 'markdown', 'latex', 'code', 'write'])}"
+            )
+        if self.to and (not hasattr(self.to, "text") or not hasattr(self.to, "empty")):
             raise ValueError(f"'to' is not a streamlit container object")
     def __enter__(self):
         if self.st is not None:
             if self.to is None:
                 if self.active_nested is None:
+                    self.active_nested = self(
+                        format=self.format,
+                        max_buffer=self.io_args["max_buffer"],
+                        buffer_separator=self.io_args["buffer_separator"],
+                        regex=self.io_args["regex"],
+                        duplicate_out=self.duplicate_out,
+                    )
                 return self.active_nested.__enter__()
             else:
                 raise Exception("Already entered")
         to = self.to or st
+        to.text(
+            f"Redirected output from "
+            f"{'stdout and stderr' if self.stdout and self.stderr else 'stdout' if self.stdout else 'stderr'}"
+            f"{' [' + self.io_args['regex'] + ']' if self.io_args['regex'] else ''}"
+            f":"
+        )
         self.st = to.empty()
         self.fun = getattr(self.st, self.format)
         return io_obj
+    def __call__(self, to=None, format=None, max_buffer=None, buffer_separator="\n", regex=None, duplicate_out=False):
+        return _Redirect(
+            self.stdout,
+            self.stderr,
+            format=format,
+            to=to,
+            max_buffer=max_buffer,
+            buffer_separator=buffer_separator,
+            regex=regex,
+            duplicate_out=duplicate_out,
+        )
     def __exit__(self, *exc):
         if self.active_nested is not None: