Spaces:

Arxived
/

chat-w-csv

Sleeping

App Files Files Community

DrishtiSharma commited on Jan 27

Commit

dff1e7c

verified ·

1 Parent(s): 7abc67e

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -13

app.py CHANGED Viewed

@@ -2,26 +2,29 @@ import streamlit as st
 import pandas as pd
 import os
 from dotenv import load_dotenv
 from langchain_community.document_loaders.csv_loader import CSVLoader
 from langchain_community.vectorstores import FAISS as LangChainFAISS
 from langchain.chains import create_retrieval_chain
 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_openai import OpenAIEmbeddings, ChatOpenAI
-from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
-from llama_index.embeddings.openai import OpenAIEmbedding
-from llama_index.vector_stores.faiss import FaissVectorStore
-from llama_index.llms.openai import OpenAI
 import faiss
 # Load environment variables
 os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
-# Set global OpenAI parameters
 EMBED_DIMENSION = 512
 llama_llm = OpenAI(model="gpt-3.5-turbo")
 llama_embedding_model = OpenAIEmbedding(model="text-embedding-3-small", dimensions=EMBED_DIMENSION)
-langchain_llm = ChatOpenAI(model="gpt-4o")
 # Streamlit app
 st.title("Streamlit App with LangChain and LlamaIndex")
@@ -39,9 +42,13 @@ if uploaded_file:
     # LangChain Tab
     with tab1:
         st.subheader("LangChain Query")
-        loader = CSVLoader(file_path=uploaded_file)
         docs = loader.load_and_split()
         # LangChain FAISS VectorStore
         langchain_index = faiss.IndexFlatL2(EMBED_DIMENSION)
         langchain_vector_store = LangChainFAISS(
@@ -74,19 +81,27 @@ if uploaded_file:
     # LlamaIndex Tab
     with tab2:
         st.subheader("LlamaIndex Query")
-        csv_reader = SimpleDirectoryReader(
-            input_files=[uploaded_file],
-            file_extractor={".csv": PagedCSVReader()},
         )
-        docs = csv_reader.load_data()
-        # LlamaIndex FAISS VectorStore
         llama_faiss_index = faiss.IndexFlatL2(EMBED_DIMENSION)
         llama_vector_store = FaissVectorStore(faiss_index=llama_faiss_index)
         pipeline = IngestionPipeline(vector_store=llama_vector_store, documents=docs)
         nodes = pipeline.run()
-        # LlamaIndex Query Engine
         llama_index = VectorStoreIndex(nodes)
         query_engine = llama_index.as_query_engine(similarity_top_k=2)

 import pandas as pd
 import os
 from dotenv import load_dotenv
+from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
+from llama_index.readers.file import PagedCSVReader
+from llama_index.embeddings.openai import OpenAIEmbedding
+from llama_index.llms.openai import OpenAI
+from llama_index.vector_stores.faiss import FaissVectorStore
+from llama_index.core.ingestion import IngestionPipeline
 from langchain_community.document_loaders.csv_loader import CSVLoader
 from langchain_community.vectorstores import FAISS as LangChainFAISS
 from langchain.chains import create_retrieval_chain
 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_openai import OpenAIEmbeddings, ChatOpenAI
 import faiss
 # Load environment variables
+load_dotenv()
 os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
+# Global OpenAI and FAISS settings
 EMBED_DIMENSION = 512
 llama_llm = OpenAI(model="gpt-3.5-turbo")
 llama_embedding_model = OpenAIEmbedding(model="text-embedding-3-small", dimensions=EMBED_DIMENSION)
+langchain_llm = ChatOpenAI(model="gpt-3.5-turbo-0125")
 # Streamlit app
 st.title("Streamlit App with LangChain and LlamaIndex")
     # LangChain Tab
     with tab1:
         st.subheader("LangChain Query")
+        loader = CSVLoader(file_path=uploaded_file.name)
         docs = loader.load_and_split()
+        # Preview the first document
+        st.write("Preview of a document chunk (LangChain):")
+        st.text(docs[0].page_content)
         # LangChain FAISS VectorStore
         langchain_index = faiss.IndexFlatL2(EMBED_DIMENSION)
         langchain_vector_store = LangChainFAISS(
     # LlamaIndex Tab
     with tab2:
         st.subheader("LlamaIndex Query")
+        # Use PagedCSVReader for CSV loading
+        csv_reader = PagedCSVReader()
+        reader = SimpleDirectoryReader(
+            input_files=[uploaded_file.name],
+            file_extractor={".csv": csv_reader},
         )
+        docs = reader.load_data()
+        # Preview the first document
+        st.write("Preview of a document chunk (LlamaIndex):")
+        st.text(docs[0].text)
+        # Initialize FAISS Vector Store
         llama_faiss_index = faiss.IndexFlatL2(EMBED_DIMENSION)
         llama_vector_store = FaissVectorStore(faiss_index=llama_faiss_index)
+        # Create the ingestion pipeline and process the data
         pipeline = IngestionPipeline(vector_store=llama_vector_store, documents=docs)
         nodes = pipeline.run()
+        # Create a query engine
         llama_index = VectorStoreIndex(nodes)
         query_engine = llama_index.as_query_engine(similarity_top_k=2)