new-test-redarc

Runtime error

App Files Files Community

DiamondYin commited on Aug 1, 2023

Commit

ca413dd

1 Parent(s): ae359fc

Update app_utils.py

Browse files

Files changed (1) hide show

app_utils.py +16 -9

app_utils.py CHANGED Viewed

@@ -15,6 +15,8 @@ from langchain.document_loaders import DirectoryLoader #
 from langchain.embeddings.openai import OpenAIEmbeddings # OpenAIGPTEmbeddings
 from langchain.text_splitter import CharacterTextSplitter #     CharacterTextSplitter is a class in the langchain.text_splitter module that can be used to split text into chunks.
 #import streamlit as st
 from tenacity import (
     retry,
     stop_after_attempt,
@@ -53,24 +55,29 @@ def initialize_knowledge_base():
     loader = DirectoryLoader('profiles', glob='**/*.txt') #文件夹加载器 profiles文件夹下的所有txt文件
     docs = loader.load()
     char_text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0) #文本分割器 chunk_size=1000, chunk_overlap=0
     doc_texts = char_text_splitter.split_documents(docs) #文档分割器，作用是将文档分割成小块
     # Embed each chunk of text
-    embeddings = []
-    openAI_embeddings = OpenAIEmbeddings()
-    for doc in doc_texts:
-        text = str(doc)
         #embedding = openAI_embeddings.embed_documents(text)
         #embeddings.append(embedding)
-        embedding = embedding_from_string(text, "text-embedding-ada-002")
-        embeddings.append(embedding)
-    vStore = np.concatenate(embeddings, axis=0)
-    #openAI_embeddings = OpenAIEmbeddings()
-    #vStore = Chroma.from_documents(doc_texts, openAI_embeddings) #Chroma是一个类，用于存储向量,from_documents是一个方法，用于从文档中创建向量存储器,openAI_embeddings是一个类，用于将文本转换为向量
     conv_model = RetrievalQA.from_chain_type(
         llm=OpenAI(model_name="gpt-3.5-turbo-16k"),

 from langchain.embeddings.openai import OpenAIEmbeddings # OpenAIGPTEmbeddings
 from langchain.text_splitter import CharacterTextSplitter #     CharacterTextSplitter is a class in the langchain.text_splitter module that can be used to split text into chunks.
 #import streamlit as st
+from langchain.indexes import VectorstoreIndexCreator #导入向量存储索引创建器
+from langchain.vectorstores import DocArrayInMemorySearch #向量存储
 from tenacity import (
     retry,
     stop_after_attempt,
     loader = DirectoryLoader('profiles', glob='**/*.txt') #文件夹加载器 profiles文件夹下的所有txt文件
     docs = loader.load()
+    #index = VectorstoreIndexCreator(
+     #   vectorstore_cls=DocArrayInMemorySearch
+    #).from_loaders([loader])
     char_text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0) #文本分割器 chunk_size=1000, chunk_overlap=0
     doc_texts = char_text_splitter.split_documents(docs) #文档分割器，作用是将文档分割成小块
     # Embed each chunk of text
+   #embeddings = []
+    #openAI_embeddings = OpenAIEmbeddings()
+    #for doc in doc_texts:
+    #    text = str(doc)
         #embedding = openAI_embeddings.embed_documents(text)
         #embeddings.append(embedding)
+    #    embedding = embedding_from_string(text, "text-embedding-ada-002")
+    #    embeddings.append(embedding)
+    #vStore = np.concatenate(embeddings, axis=0)
+    openAI_embeddings = OpenAIEmbeddings()
+    vStore = Chroma.from_documents(doc_texts, openAI_embeddings) #Chroma是一个类，用于存储向量,from_documents是一个方法，用于从文档中创建向量存储器,openAI_embeddings是一个类，用于将文本转换为向量
     conv_model = RetrievalQA.from_chain_type(
         llm=OpenAI(model_name="gpt-3.5-turbo-16k"),