rag-chat-botapi

Sleeping

Pamudu13 commited on Apr 2

Commit

c062c17

verified ·

1 Parent(s): c005795

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -66,37 +66,40 @@ def create_db(splits):
     vectordb = FAISS.from_documents(splits, embeddings)
     return vectordb
-def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, api_token):
-    """Initialize the LLM chain with a HuggingFace model"""
-    # Use valid Hugging Face parameters. `max_length` might be the correct field instead of `max_new_tokens`
-    llm = HuggingFaceEndpoint(
-        repo_id=llm_model,
-        huggingfacehub_api_token=api_token,
-        temperature=temperature,
-        max_length=max_tokens,  # Adjusted from max_new_tokens to max_length
-        # Remove top_k as it may not be valid or handled differently
-    )
-    # Set up memory for conversation
     memory = ConversationBufferMemory(
         memory_key="chat_history",
         output_key='answer',
         return_messages=True
     )
-    # Ensure vector_db is used as a retriever
-    retriever = vector_db.as_retriever()
-    # Initialize ConversationalRetrievalChain using LLM and the retriever
     qa_chain = ConversationalRetrievalChain.from_llm(
         llm,
         retriever=retriever,
-        chain_type="stuff",
         memory=memory,
         return_source_documents=True,
         verbose=False,
     )
-    return qa_chain
 def format_chat_history(message, chat_history):

     vectordb = FAISS.from_documents(splits, embeddings)
     return vectordb
+def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, progress=gr.Progress()):
+    if llm_model == "meta-llama/Meta-Llama-3-8B-Instruct":
+        llm = HuggingFaceEndpoint(
+            repo_id=llm_model,
+            huggingfacehub_api_token = api_token,
+            temperature = temperature,
+            max_new_tokens = max_tokens,
+            top_k = top_k,
+        )
+    else:
+        llm = HuggingFaceEndpoint(
+            huggingfacehub_api_token = api_token,
+            repo_id=llm_model,
+            temperature = temperature,
+            max_new_tokens = max_tokens,
+            top_k = top_k,
+        )
     memory = ConversationBufferMemory(
         memory_key="chat_history",
         output_key='answer',
         return_messages=True
     )
+    retriever=vector_db.as_retriever()
     qa_chain = ConversationalRetrievalChain.from_llm(
         llm,
         retriever=retriever,
+        chain_type="stuff",
         memory=memory,
         return_source_documents=True,
         verbose=False,
     )
+    return qa_chain
 def format_chat_history(message, chat_history):