Spaces:

datascientist22
/

blogpostQA-retrieval-bot

Sleeping

App Files Files Community

datascientist22 commited on Sep 5, 2024

Commit

479c15b

verified ·

1 Parent(s): fc71a0f

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -51

app.py CHANGED Viewed

@@ -2,16 +2,35 @@ import streamlit as st
 import re
 import os
 from langchain.chains import ConversationalRetrievalChain
-from langchain.document_loaders import WebBaseLoader
-from langchain.vectorstores import Chroma
-from langchain.prompts import load_prompt
-from langchain.chat_models import ChatGroq
-from langchain.output_parsers import StrOutputParser
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.runnables import RunnablePassthrough
-import torch
 from sentence_transformers import SentenceTransformer
 import bs4
 # Sidebar Style with Multicolored Background
 sidebar_bg_style = """
@@ -92,49 +111,53 @@ if 'chat_history' not in st.session_state:
 # Submit button for chat
 if st.button("Submit Query"):
-    if query:
-        if url_input:
-            # Blog loading logic based on user input URL
-            loader = WebBaseLoader(
-                web_paths=(url_input,),  # Use the user-input URL
-                bs_kwargs=dict(
-                    parse_only=bs4.SoupStrainer()  # Adjust based on the user's URL structure
-                ),
-            )
-            docs = loader.load()
-            text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-            splits = text_splitter.split_documents(docs)
-            # Initialize the embedding model
-            embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
-            # Initialize Chroma with the embedding class
-            vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)
-            # Retrieve and generate using the relevant snippets of the blog
-            retriever = vectorstore.as_retriever()
-            prompt = load_prompt("rlm/rag-prompt")
-            def format_docs(docs):
-                return "\n\n".join(doc.page_content for doc in docs)
-            rag_chain = (
-                {"context": retriever | format_docs, "question": RunnablePassthrough()}
-                | prompt
-                | ChatGroq(model="llama3-8b-8192")  # Replace `llm` with an appropriate language model
-                | StrOutputParser()
-            )
-            # Generate the answer using the user's query
-            result = rag_chain.invoke(query)
-            # Store query and response in session for chat history
-            st.session_state['chat_history'].append((query, result))
-        else:
-            st.warning("Please enter a valid URL.")
-    else:
-        st.warning("Please enter a question.")
 # Display chat history
 for q, r in st.session_state['chat_history']:

 import re
 import os
 from langchain.chains import ConversationalRetrievalChain
+from langchain_chroma import Chroma
+from langchain_community.document_loaders import WebBaseLoader
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.runnables import RunnablePassthrough
+from langchain_text_splitters import RecursiveCharacterTextSplitter
 from sentence_transformers import SentenceTransformer
+from langchain import hub
 import bs4
+import torch
+# Define the embedding class
+class SentenceTransformerEmbedding:
+    def __init__(self, model_name):
+        self.model = SentenceTransformer(model_name)
+    def embed_documents(self, texts):
+        embeddings = self.model.encode(texts, convert_to_tensor=True)
+        if isinstance(embeddings, torch.Tensor):
+            return embeddings.cpu().detach().numpy().tolist()  # Convert tensor to list
+        return embeddings
+    def embed_query(self, query):
+        embedding = self.model.encode([query], convert_to_tensor=True)
+        if isinstance(embedding, torch.Tensor):
+            return embedding.cpu().detach().numpy().tolist()[0]  # Convert tensor to list
+        return embedding[0]
+# Streamlit UI setup
+st.title("🤖 Chatbot with URL-based Document Retrieval")
 # Sidebar Style with Multicolored Background
 sidebar_bg_style = """
 # Submit button for chat
 if st.button("Submit Query"):
+    if query and url_input:
+        # Blog loading logic based on user input URL
+        loader = WebBaseLoader(
+            web_paths=(url_input,),  # Use the user-input URL
+            bs_kwargs=dict(
+                parse_only=bs4.SoupStrainer()  # Adjust based on the user's URL structure
+            ),
+        )
+        docs = loader.load()
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+        splits = text_splitter.split_documents(docs)
+        # Initialize the embedding model
+        embedding_model = SentenceTransformerEmbedding('all-MiniLM-L6-v2')
+        # Initialize Chroma with the embedding class
+        vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)
+        # Retrieve and generate using the relevant snippets of the blog
+        retriever = vectorstore.as_retriever()
+        prompt = hub.pull("rlm/rag-prompt")
+        def format_docs(docs):
+            return "\n\n".join(doc.page_content for doc in docs)
+        # Replace llm with an appropriate model or implement your logic
+        class CustomLanguageModel:
+            def generate(self, prompt, context):
+                # Custom implementation or call to an API
+                # For demonstration, let's use a simple placeholder response
+                return f"Response to query '{prompt}' based on context."
+        custom_llm = CustomLanguageModel()
+        rag_chain = (
+            {"context": retriever | format_docs, "question": RunnablePassthrough()}
+            | prompt
+            | custom_llm.generate  # Adjust based on actual usage
+            | StrOutputParser()
+        )
+        # Generate the answer using the user's query
+        result = rag_chain.invoke(query)
+        # Store query and response in session for chat history
+        st.session_state['chat_history'].append((query, result))
 # Display chat history
 for q, r in st.session_state['chat_history']: