Spaces:

bstraehle
/

rag

Running

bstraehle commited on Oct 20, 2023

Commit

8cffc38

1 Parent(s): 45e2e37

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,16 +33,16 @@ def invoke(openai_api_key, youtube_url, process_video, prompt):
         print(111)
         loader = GenericLoader(YoutubeAudioLoader([youtube_url], YOUTUBE_DIR), OpenAIWhisperParser())
         docs = loader.load()
         text_splitter = RecursiveCharacterTextSplitter(chunk_size = 1500, chunk_overlap = 150)
         splits = text_splitter.split_documents(docs)
     else:
         print(222)
-        splits = iter([])
-    vector_db = Chroma.from_documents(documents = splits, embedding = OpenAIEmbeddings(), persist_directory = CHROMA_DIR)
     llm = ChatOpenAI(model_name = MODEL_NAME, temperature = 0)
     qa_chain = RetrievalQA.from_chain_type(llm, retriever = vector_db.as_retriever(), return_source_documents = True, chain_type_kwargs = {"prompt": QA_CHAIN_PROMPT})
     result = qa_chain({"query": prompt})
-    shutil.rmtree(YOUTUBE_DIR)
     #shutil.rmtree(CHROMA_DIR)
     return result["result"]

         print(111)
         loader = GenericLoader(YoutubeAudioLoader([youtube_url], YOUTUBE_DIR), OpenAIWhisperParser())
         docs = loader.load()
+        shutil.rmtree(YOUTUBE_DIR)
         text_splitter = RecursiveCharacterTextSplitter(chunk_size = 1500, chunk_overlap = 150)
         splits = text_splitter.split_documents(docs)
+        vector_db = Chroma.from_documents(documents = splits, embedding = OpenAIEmbeddings(), persist_directory = CHROMA_DIR)
     else:
         print(222)
+        vector_db = Chroma(persist_directory = CHROMA_DIR, embedding_function = OpenAIEmbeddings())
     llm = ChatOpenAI(model_name = MODEL_NAME, temperature = 0)
     qa_chain = RetrievalQA.from_chain_type(llm, retriever = vector_db.as_retriever(), return_source_documents = True, chain_type_kwargs = {"prompt": QA_CHAIN_PROMPT})
     result = qa_chain({"query": prompt})
     #shutil.rmtree(CHROMA_DIR)
     return result["result"]