RAG-Vereine

Sleeping

mgokg commited on May 13

Commit

137a6a3

verified ·

1 Parent(s): c32efda

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import chromadb
 from chromadb.utils import embedding_functions
 from PyPDF2 import PdfReader
 from gradio_client import Client
 import speech_recognition as sr
@@ -78,15 +79,23 @@ def process_pdf(file):
     for page in pdf_reader.pages:
         text += page.extract_text()
-    embeddings = embedding_function([text])
-    # Store the entire text in ChromaDB
-    collection.add(
-        documents=[text],
-        metadatas=[{"filename": file.name}],
-        ids=[file.name]  # Use the filename as the unique ID
     )
     return f"PDF wurde erfolgreich in ChromaDB gespeichert."
 def search_similar_documents(prompt):

 import gradio as gr
 import chromadb
 from chromadb.utils import embedding_functions
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from PyPDF2 import PdfReader
 from gradio_client import Client
 import speech_recognition as sr
     for page in pdf_reader.pages:
         text += page.extract_text()
+    # Split the text into smaller chunks
+    text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=1000,  # Adjust the chunk size as needed
+        chunk_overlap=100  # Adjust the overlap as needed
     )
+    chunks = text_splitter.split_text(text)
+    # Create embeddings for each chunk
+    embeddings = embedding_function(chunks)
+    # Store each chunk in ChromaDB
+    for i, chunk in enumerate(chunks):
+        collection.add(
+            documents=[chunk],
+            metadatas=[{"filename": file.name, "chunk_id": i}],
+            ids=[f"{file.name}_{i}"]  # Use a unique ID for each chunk
+        )
     return f"PDF wurde erfolgreich in ChromaDB gespeichert."
 def search_similar_documents(prompt):