RAG-PDF-Chatbot_copied

Sleeping

App Files Files Community

sudip1987 commited on Dec 17, 2024

Commit

cbab016

verified ·

1 Parent(s): 46d0a50

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -3

app.py CHANGED Viewed

@@ -40,6 +40,15 @@ def get_text_splitter(strategy: str, chunk_size: int = 1024, chunk_overlap: int
     }
     return splitters.get(strategy)
 def load_doc(list_file_path: List[str], splitting_strategy: str, chunk_size: str):
     chunk_size_value = CHUNK_SIZES[chunk_size][splitting_strategy]
     loaders = [PyPDFLoader(x) for x in list_file_path]
@@ -59,12 +68,13 @@ def create_db(splits, db_choice: str = "faiss"):
         "qdrant": lambda: Qdrant.from_documents(
             splits,
             embeddings,
-            location=":memory:",
             collection_name="pdf_docs"
         )
     }
     return db_creators[db_choice]()
 def initialize_database(list_file_obj, splitting_strategy, chunk_size, db_choice, progress=gr.Progress()):
     """Initialize vector database with error handling"""
     try:
@@ -77,7 +87,7 @@ def initialize_database(list_file_obj, splitting_strategy, chunk_size, db_choice
         doc_splits = load_doc(list_file_path, splitting_strategy, chunk_size)
         if not doc_splits:
-            return None, "No content extracted from documents."
         vector_db = create_db(doc_splits, db_choice)
         return vector_db, f"Database created successfully using {splitting_strategy} splitting and {db_choice} vector database!"
@@ -100,7 +110,7 @@ def initialize_llmchain(llm_choice, temperature, max_tokens, top_k, vector_db, p
             max_new_tokens=max_tokens,
             top_k=top_k
         )
         memory = ConversationBufferMemory(
             memory_key="chat_history",
             output_key='answer',

     }
     return splitters.get(strategy)
+# def get_text_splitter(strategy, chunk_size=1024, chunk_overlap=64):
+#     if strategy == "recursive":
+#         return RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+#     elif strategy == "fixed":
+#         return CharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+#     elif strategy == "token":
+#         return TokenTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+#     return None
 def load_doc(list_file_path: List[str], splitting_strategy: str, chunk_size: str):
     chunk_size_value = CHUNK_SIZES[chunk_size][splitting_strategy]
     loaders = [PyPDFLoader(x) for x in list_file_path]
         "qdrant": lambda: Qdrant.from_documents(
             splits,
             embeddings,
+            location=":memory:",   # In memory database for qdrant
             collection_name="pdf_docs"
         )
     }
     return db_creators[db_choice]()
+# Initialize Vector DB
 def initialize_database(list_file_obj, splitting_strategy, chunk_size, db_choice, progress=gr.Progress()):
     """Initialize vector database with error handling"""
     try:
         doc_splits = load_doc(list_file_path, splitting_strategy, chunk_size)
         if not doc_splits:
+            return None, "No content extracted from documents."
         vector_db = create_db(doc_splits, db_choice)
         return vector_db, f"Database created successfully using {splitting_strategy} splitting and {db_choice} vector database!"
             max_new_tokens=max_tokens,
             top_k=top_k
         )
+        # Temporary memory
         memory = ConversationBufferMemory(
             memory_key="chat_history",
             output_key='answer',