Spaces:

datascientist22
/

blogpostQA-retrieval-bot

Sleeping

App Files Files Community

datascientist22 commited on Sep 5, 2024

Commit

4e001cd

verified ·

1 Parent(s): df535b0

Update app.py

Browse files

Files changed (1) hide show

app.py +72 -55

app.py CHANGED Viewed

@@ -1,6 +1,18 @@
 import streamlit as st
 import re
 import os
 # Sidebar Style with Multicolored Background
 sidebar_bg_style = """
@@ -81,61 +93,66 @@ if 'chat_history' not in st.session_state:
 # Submit button for chat
 if st.button("Submit Query"):
-    if query and url_input:
-        # Blog loading logic based on user input URL
-        loader = WebBaseLoader(
-            web_paths=(url_input,),  # Use the user-input URL
-            bs_kwargs=dict(
-                parse_only=bs4.SoupStrainer()  # Adjust based on the user's URL structure
-            ),
-        )
-        docs = loader.load()
-        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-        splits = text_splitter.split_documents(docs)
-        # Define the embedding class
-        class SentenceTransformerEmbedding:
-            def __init__(self, model_name):
-                self.model = SentenceTransformer(model_name)
-            def embed_documents(self, texts):
-                embeddings = self.model.encode(texts, convert_to_tensor=True)
-                if isinstance(embeddings, torch.Tensor):
-                    return embeddings.cpu().detach().numpy().tolist()  # Convert tensor to list
-                return embeddings
-            def embed_query(self, query):
-                embedding = self.model.encode([query], convert_to_tensor=True)
-                if isinstance(embedding, torch.Tensor):
-                    return embedding.cpu().detach().numpy().tolist()[0]  # Convert tensor to list
-                return embedding[0]
-        # Initialize the embedding model
-        embedding_model = SentenceTransformerEmbedding('all-MiniLM-L6-v2')
-        # Initialize Chroma with the embedding class
-        vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)
-        # Retrieve and generate using the relevant snippets of the blog
-        retriever = vectorstore.as_retriever()
-        prompt = hub.pull("rlm/rag-prompt")
-        def format_docs(docs):
-            return "\n\n".join(doc.page_content for doc in docs)
-        rag_chain = (
-            {"context": retriever | format_docs, "question": RunnablePassthrough()}
-            | prompt
-            | ChatGroq(model="llama3-8b-8192")  # Replace `llm` with an appropriate language model
-            | StrOutputParser()
-        )
-        # Generate the answer using the user's query
-        result = rag_chain.invoke(query)
-        # Store query and response in session for chat history
-        st.session_state['chat_history'].append((query, result))
 # Display chat history
 for q, r in st.session_state['chat_history']:

 import streamlit as st
 import re
 import os
+from langchain.chains import ConversationalRetrievalChain
+from langchain.document_loaders import WebBaseLoader
+from langchain.embeddings import SentenceTransformerEmbedding
+from langchain.vectorstores import Chroma
+from langchain.prompts import load_prompt
+from langchain.chat_models import ChatGroq
+from langchain.output_parsers import StrOutputParser
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.runnables import RunnablePassthrough
+import torch
+from sentence_transformers import SentenceTransformer
+import bs4
 # Sidebar Style with Multicolored Background
 sidebar_bg_style = """
 # Submit button for chat
 if st.button("Submit Query"):
+    if query:
+        if url_input:
+            # Blog loading logic based on user input URL
+            loader = WebBaseLoader(
+                web_paths=(url_input,),  # Use the user-input URL
+                bs_kwargs=dict(
+                    parse_only=bs4.SoupStrainer()  # Adjust based on the user's URL structure
+                ),
+            )
+            docs = loader.load()
+            text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+            splits = text_splitter.split_documents(docs)
+            # Define the embedding class
+            class SentenceTransformerEmbedding:
+                def __init__(self, model_name):
+                    self.model = SentenceTransformer(model_name)
+                def embed_documents(self, texts):
+                    embeddings = self.model.encode(texts, convert_to_tensor=True)
+                    if isinstance(embeddings, torch.Tensor):
+                        return embeddings.cpu().detach().numpy().tolist()  # Convert tensor to list
+                    return embeddings
+                def embed_query(self, query):
+                    embedding = self.model.encode([query], convert_to_tensor=True)
+                    if isinstance(embedding, torch.Tensor):
+                        return embedding.cpu().detach().numpy().tolist()[0]  # Convert tensor to list
+                    return embedding[0]
+            # Initialize the embedding model
+            embedding_model = SentenceTransformerEmbedding('all-MiniLM-L6-v2')
+            # Initialize Chroma with the embedding class
+            vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)
+            # Retrieve and generate using the relevant snippets of the blog
+            retriever = vectorstore.as_retriever()
+            prompt = load_prompt("rlm/rag-prompt")
+            def format_docs(docs):
+                return "\n\n".join(doc.page_content for doc in docs)
+            rag_chain = (
+                {"context": retriever | format_docs, "question": RunnablePassthrough()}
+                | prompt
+                | ChatGroq(model="llama3-8b-8192")  # Replace `llm` with an appropriate language model
+                | StrOutputParser()
+            )
+            # Generate the answer using the user's query
+            result = rag_chain.invoke(query)
+            # Store query and response in session for chat history
+            st.session_state['chat_history'].append((query, result))
+        else:
+            st.warning("Please enter a valid URL.")
+    else:
+        st.warning("Please enter a question.")
 # Display chat history
 for q, r in st.session_state['chat_history']: