Spaces:

markpeace
/

rise-ai

Sleeping

markpeace commited on Jan 13, 2024

Commit

94b154c

1 Parent(s): bbe9d13

moved to recursivechar

Files changed (1) hide show

train/faq.py CHANGED Viewed

@@ -1,7 +1,7 @@
 def train():
     from langchain_community.document_loaders.csv_loader import CSVLoader
-    from langchain.text_splitter import CharacterTextSplitter
     from langchain_openai import OpenAIEmbeddings
     from langchain_community.vectorstores.faiss import FAISS
     from dotenv import load_dotenv
@@ -10,7 +10,7 @@ def train():
     documents = WebBaseLoader("https://rise.mmu.ac.uk/what-is-rise/").load()
     # Split document in chunks
-    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=30)
     docs = text_splitter.split_documents(documents=documents)
     embeddings = OpenAIEmbeddings()

 def train():
     from langchain_community.document_loaders.csv_loader import CSVLoader
+    from langchain.text_splitter import RecursiveCharacterTextSplitter
     from langchain_openai import OpenAIEmbeddings
     from langchain_community.vectorstores.faiss import FAISS
     from dotenv import load_dotenv
     documents = WebBaseLoader("https://rise.mmu.ac.uk/what-is-rise/").load()
     # Split document in chunks
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
     docs = text_splitter.split_documents(documents=documents)
     embeddings = OpenAIEmbeddings()