Spaces:

bstraehle
/

rag

Running

App Files Files Community

bstraehle commited on Oct 22, 2023

Commit

8c128f9

1 Parent(s): 24b21f4

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -12

app.py CHANGED Viewed

@@ -30,8 +30,9 @@ RAG_CHAIN_PROMPT = PromptTemplate(input_variables = ["context", "question"],
 CHROMA_DIR  = "/data/chroma"
 YOUTUBE_DIR = "/data/youtube"
-YOUTUBE_URL_01 = "https://www.youtube.com/watch?v=--khbXchTeE"
 YOUTUBE_URL_02 = "https://www.youtube.com/watch?v=Iy1IpvcJH7I&list=PL2yQDdvlhXf9XsB2W76_seM6dJxcE2Pdc&index=2"
 MODEL_NAME  = "gpt-4"
@@ -41,16 +42,17 @@ def invoke(openai_api_key, use_rag, prompt):
                      temperature = 0)
     if (use_rag):
         # Document loading, splitting, and storage
-        #loader = GenericLoader(YoutubeAudioLoader([YOUTUBE_URL_01,
-        #                                           YOUTUBE_URL_02], YOUTUBE_DIR),
-        #                       OpenAIWhisperParser())
-        #docs = loader.load()
-        #text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150,
-        #                                               chunk_size = 1500)
-        #splits = text_splitter.split_documents(docs)
-        #vector_db = Chroma.from_documents(documents = splits,
-        #                                  embedding = OpenAIEmbeddings(),
-        #                                  persist_directory = CHROMA_DIR)
         # Document retrieval
         vector_db = Chroma(embedding_function = OpenAIEmbeddings(),
                            persist_directory = CHROMA_DIR)
@@ -63,7 +65,6 @@ def invoke(openai_api_key, use_rag, prompt):
     else:
         chain = LLMChain(llm = llm, prompt = LLM_CHAIN_PROMPT)
         result = chain.run({"question": prompt})
-    print(os.listdir("/data/chroma/"))
     return result
 description = """<strong>Overview:</strong> The app demonstrates how to use a Large Language Model (LLM) with Retrieval Augmented Generation (RAG) on external data

 CHROMA_DIR  = "/data/chroma"
 YOUTUBE_DIR = "/data/youtube"
+YOUTUBE_URL_01 = "https://www.youtube.com/watch?v=Iy1IpvcJH7I&list=PL2yQDdvlhXf9XsB2W76_seM6dJxcE2Pdc&index=1"
 YOUTUBE_URL_02 = "https://www.youtube.com/watch?v=Iy1IpvcJH7I&list=PL2yQDdvlhXf9XsB2W76_seM6dJxcE2Pdc&index=2"
+YOUTUBE_URL_03 = "https://www.youtube.com/watch?v=Iy1IpvcJH7I&list=PL2yQDdvlhXf9XsB2W76_seM6dJxcE2Pdc&index=3"
 MODEL_NAME  = "gpt-4"
                      temperature = 0)
     if (use_rag):
         # Document loading, splitting, and storage
+        loader = GenericLoader(YoutubeAudioLoader([YOUTUBE_URL_01,
+                                                   YOUTUBE_URL_02,
+                                                   YOUTUBE_URL_03], YOUTUBE_DIR),
+                               OpenAIWhisperParser())
+        docs = loader.load()
+        text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150,
+                                                       chunk_size = 1500)
+        splits = text_splitter.split_documents(docs)
+        vector_db = Chroma.from_documents(documents = splits,
+                                          embedding = OpenAIEmbeddings(),
+                                          persist_directory = CHROMA_DIR)
         # Document retrieval
         vector_db = Chroma(embedding_function = OpenAIEmbeddings(),
                            persist_directory = CHROMA_DIR)
     else:
         chain = LLMChain(llm = llm, prompt = LLM_CHAIN_PROMPT)
         result = chain.run({"question": prompt})
     return result
 description = """<strong>Overview:</strong> The app demonstrates how to use a Large Language Model (LLM) with Retrieval Augmented Generation (RAG) on external data