new-test-redarc

Runtime error

App Files Files Community

DiamondYin commited on Aug 1, 2023

Commit

f71f3ee

1 Parent(s): b185613

Update app_utils.py

Browse files

Files changed (1) hide show

app_utils.py +14 -4

app_utils.py CHANGED Viewed

@@ -6,6 +6,7 @@ import boto3 # AWS Polly
 from pydub import AudioSegment #    AudioSegment is a class in the pydub module that can be used to manipulate audio files.
 from pydub.playback import play  #  play is a function in the pydub.playback module that can be used to play audio files.
 import logging
 from langchain import OpenAI
 from langchain.chains import RetrievalQA #  RetrievalQA is a class in the langchain.chains module that can be used to build a retrieval-based question answering system.
@@ -38,11 +39,20 @@ def initialize_knowledge_base():
     loader = DirectoryLoader('profiles', glob='**/*.txt') #文件夹加载器 profiles文件夹下的所有txt文件
     docs = loader.load()
-    char_text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
-    doc_texts = char_text_splitter.split_documents(docs)
-    openAI_embeddings = OpenAIEmbeddings()
-    vStore = Chroma.from_documents(doc_texts, openAI_embeddings)
     conv_model = RetrievalQA.from_chain_type(
         llm=OpenAI(model_name="gpt-3.5-turbo-16k"),

 from pydub import AudioSegment #    AudioSegment is a class in the pydub module that can be used to manipulate audio files.
 from pydub.playback import play  #  play is a function in the pydub.playback module that can be used to play audio files.
 import logging
+import numpy as np
 from langchain import OpenAI
 from langchain.chains import RetrievalQA #  RetrievalQA is a class in the langchain.chains module that can be used to build a retrieval-based question answering system.
     loader = DirectoryLoader('profiles', glob='**/*.txt') #文件夹加载器 profiles文件夹下的所有txt文件
     docs = loader.load()
+    char_text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0) #文本分割器 chunk_size=1000, chunk_overlap=0
+    doc_texts = char_text_splitter.split_documents(docs) #文档分割器，作用是将文档分割成小块
+    # Embed each chunk of text
+    embeddings = []
+    embedder = OpenAIEmbeddings()
+    for doc in doc_texts:
+        embedding = embedder.embed(doc)
+        embeddings.append(embedding)
+    vStore = np.concatenate(embeddings, axis=0)
+    #openAI_embeddings = OpenAIEmbeddings()
+    #vStore = Chroma.from_documents(doc_texts, openAI_embeddings) #Chroma是一个类，用于存储向量,from_documents是一个方法，用于从文档中创建向量存储器,openAI_embeddings是一个类，用于将文本转换为向量
     conv_model = RetrievalQA.from_chain_type(
         llm=OpenAI(model_name="gpt-3.5-turbo-16k"),