rag-tool

Sleeping

App Files Files Community

rag-tool / vector_store_retriever.py

Chris4K

Update vector_store_retriever.py

22387fd over 1 year ago

raw

history blame

2.54 kB

	import gradio as gr
	from langchain.document_loaders import DirectoryLoader, PyPDFLoader
	from langchain.vectorstores import Chroma
	from langchain.chains import RetrievalQA
	from langchain.embeddings import HuggingFaceInstructEmbeddings
	from langchain.agents import Tool
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain.llms import HuggingFacePipeline
	from transformers import LlamaTokenizer, LlamaForCausalLM, pipeline

	# Load and process the text files
	loader = DirectoryLoader('./new_papers/', glob="./*.pdf", loader_cls=PyPDFLoader)
	documents = loader.load()

	# Splitting the text into chunks
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
	texts = text_splitter.split_documents(documents)

	# HF Instructor Embeddings
	instructor_embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl", model_kwargs={"device": "cuda"})

	# Embed and store the texts
	persist_directory = 'db'
	embedding = instructor_embeddings
	vectordb = Chroma.from_documents(documents=texts, embedding=embedding, persist_directory=persist_directory)

	# Make a retriever
	retriever = vectordb.as_retriever(search_kwargs={"k": 3})

	# Setup LLM for text generation
	tokenizer = LlamaTokenizer.from_pretrained("TheBloke/wizardLM-7B-HF")
	model = LlamaForCausalLM.from_pretrained("TheBloke/wizardLM-7B-HF", load_in_8bit=True, device_map='auto', torch_dtype=torch.float16, low_cpu_mem_usage=True)
	pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_length=1024, temperature=0, top_p=0.95, repetition_penalty=1.15)
	local_llm = HuggingFacePipeline(pipeline=pipe)

	# Make a chain
	qa_chain = RetrievalQA.from_chain_type(llm=local_llm, chain_type="stuff", retriever=retriever, return_source_documents=True)

	class VectorStoreRetrieverTool(Tool):
	name = "vectorstore_retriever"
	description = "This tool uses LangChain's RetrievalQA to find relevant answers from a vector store based on a given query."

	inputs = ["text"]
	outputs = ["text"]

	def __call__(self, query: str):
	# Run the query through the RetrievalQA chain
	llm_response = qa_chain(query)
	return llm_response['result']

	# Create the Gradio interface using the HuggingFaceTool
	tool = gr.Interface(
	VectorStoreRetrieverTool(),
	live=True,
	title="LangChain-Application: Vectorstore-Retriever",
	description="This tool uses LangChain's RetrievalQA to find relevant answers from a vector store based on a given query.",
	)

	# Launch the Gradio interface
	tool.launch()