Spaces:

Namitg02
/

Test

Runtime error

Namitg02 commited on May 6, 2024

Commit

30b8a93

verified ·

1 Parent(s): 229c387

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,10 +4,16 @@ from datasets import load_dataset
 dataset = load_dataset("Namitg02/Test")
 print(dataset)
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=15,separators=["\n\n", "\n", " ", ""])
-#docs = splitter.split_documents(dataset)
-docs = splitter.split_text(str(dataset))
 from langchain_community.embeddings import HuggingFaceEmbeddings
@@ -17,6 +23,7 @@ embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
 from langchain_community.vectorstores import Chroma
 persist_directory = 'docs/chroma/'
 vectordb = Chroma.from_documents(
     documents=[docs],
     embedding=embedding_model,

 dataset = load_dataset("Namitg02/Test")
 print(dataset)
+from langchain.docstore.document import Document as LangchainDocument
+RAW_KNOWLEDGE_BASE = [
+    LangchainDocument(page_content=doc["dataset"], metadata={"one": doc["two"]})
+]
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=15,separators=["\n\n", "\n", " ", ""])
+docs = splitter.split_documents(RAW_KNOWLEDGE_BASE)
+#docs = splitter.split_text(str(dataset))
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
 persist_directory = 'docs/chroma/'
 vectordb = Chroma.from_documents(
     documents=[docs],
     embedding=embedding_model,