Spaces:

Deaksh
/

research-tool

Sleeping

Deaksh commited on Feb 19

Commit

d809e9e

verified ·

1 Parent(s): 536c37e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,6 +11,8 @@ from langchain_groq import ChatGroq
 from langchain.embeddings import OpenAIEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.vectorstores import Chroma
 from dotenv import load_dotenv
@@ -32,12 +34,29 @@ llm = ChatGroq(model_name="llama-3.3-70b-versatile", temperature=0.9, max_tokens
 if process_url_clicked:
     # load data
-    loader = UnstructuredURLLoader(urls=urls)
-    main_placeholder.text("Data Loading...Started...✅✅✅")
-    data = loader.load()
-    if not data:
-        st.error("Failed to load content from the provided URLs. Please check their availability.")
-        st.stop()
     # split data
     text_splitter = RecursiveCharacterTextSplitter(
         separators=['\n\n', '\n', '.', ','],

 from langchain.embeddings import OpenAIEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.vectorstores import Chroma
+import requests
+from bs4 import BeautifulSoup
 from dotenv import load_dotenv
 if process_url_clicked:
     # load data
+    #loader = UnstructuredURLLoader(urls=urls)
+    #main_placeholder.text("Data Loading...Started...✅✅✅")
+    #data = loader.load()
+    def fetch_web_content(url):
+    try:
+        response = requests.get(url, timeout=10)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.text, "html.parser")
+        return soup.get_text()
+    except Exception as e:
+        return f"Error fetching {url}: {str(e)}"
+# Your list of URLs
+url = url
+# Display status message
+main_placeholder.text("Data Loading...Started...✅✅✅")
+# Fetch content
+data = [fetch_web_content(url) for url in urls if url.strip()]
+# Display completion message
+main_placeholder.text("Data Loading...Completed...✅✅✅")
     # split data
     text_splitter = RecursiveCharacterTextSplitter(
         separators=['\n\n', '\n', '.', ','],