Spaces:

suchinth08
/

lawllm

Sleeping

App Files Files Community

suchinth08 commited on Feb 3, 2024

Commit

d4ed260

verified ·

1 Parent(s): adce4c9

Upload 4 files

Browse files

Files changed (4) hide show

README.md +3 -12
lawmain.py +29 -0
lppchain.py +58 -0
lpphelper.py +50 -0

README.md CHANGED Viewed

@@ -1,12 +1,3 @@
----
-title: Lawllm
-emoji: 📚
-colorFrom: red
-colorTo: purple
-sdk: streamlit
-sdk_version: 1.31.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# lawllm
+Law LLM Model to work on Indian Judiciary Acts, Orders, Provisions and Citations
+![image](https://github.com/suchinth08/lawllm/assets/21136148/9e47d810-c3b4-487a-9663-07ad9b3186a5)

lawmain.py ADDED Viewed

	@@ -0,0 +1,29 @@

+import streamlit as st
+from PIL import Image
+from lppchain import get_lpphelper_chain,process_llm_response
+#st.title( "Lakna Reddy & Associates 🤖")
+col1, mid, col2 = st.columns(3)
+image = Image.open('lawimage2.jpg')
+with col1:
+    st.image(image, width=150)
+with col2:
+    st.markdown("## Lakna Reddy & Associates")
+question = st.text_input("Question: ")
+@st.cache_resource
+def load_qa_chain():
+    chain = get_lpphelper_chain()
+    return chain
+if question:
+    chain = load_qa_chain()
+    #response = chain.run(question)
+    #llm_response = process_llm_response(response)
+    with st.spinner('Generating response...'):
+        response = chain.invoke(question)
+        print(response)
+        #answer = response['result']
+        answer = process_llm_response(response)
+        st.header("Answer")
+        st.write(answer.replace("<pad>",""))

lppchain.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import transformers
+import torch
+import os
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from transformers import pipeline
+from langchain.llms import HuggingFacePipeline
+from langchain.vectorstores import Chroma
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains import RetrievalQA
+from langchain.document_loaders import TextLoader
+from langchain.document_loaders import PyPDFLoader
+from langchain.document_loaders import DirectoryLoader
+from InstructorEmbedding import INSTRUCTOR
+from langchain.embeddings import HuggingFaceInstructEmbeddings
+from langchain_community.vectorstores import Chroma
+import textwrap
+import streamlit as st
+persist_directory = 'db'
+instructor_embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-base")
+embedding = instructor_embeddings
+tokenizer = AutoTokenizer.from_pretrained("lmsys/fastchat-t5-3b-v1.0")
+model = AutoModelForSeq2SeqLM.from_pretrained("lmsys/fastchat-t5-3b-v1.0")
+pipe = pipeline("text2text-generation",model=model, tokenizer=tokenizer, max_length=256)
+local_llm = HuggingFacePipeline(pipeline=pipe)
+vectordb = Chroma(persist_directory=persist_directory,embedding_function=embedding)
+retriever = vectordb.as_retriever(search_kwargs={"k": 3})
+def get_lpphelper_chain():
+    qa_chain = RetrievalQA.from_chain_type(llm=local_llm,
+                                  chain_type="stuff",
+                                  retriever=retriever,
+                                  return_source_documents=True)
+    return qa_chain
+def wrap_text_preserve_newlines(text, width=110):
+    # Split the input text into lines based on newline characters
+    lines = text.split('\n')
+    # Wrap each line individually
+    wrapped_lines = [textwrap.fill(line, width=width) for line in lines]
+    # Join the wrapped lines back together using newline characters
+    wrapped_text = '\n'.join(wrapped_lines)
+    return wrapped_text
+def process_llm_response(llm_response):
+    wrap_text = wrap_text_preserve_newlines(llm_response['result'])
+    sources = '\n\nSources:'
+    print('\n\nSources:')
+    for source in llm_response["source_documents"]:
+        sources.join(source.metadata['source'])
+    print(wrap_text.join(sources))
+    return wrap_text.replace("<pad>","")
+if __name__=="__main__":
+    get_lpphelper_chain()

lpphelper.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import transformers
+import torch
+import os
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from transformers import pipeline
+from langchain.llms import HuggingFacePipeline
+from langchain.vectorstores import Chroma
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains import RetrievalQA
+from langchain.document_loaders import TextLoader
+from langchain.document_loaders import PyPDFLoader
+from langchain.document_loaders import DirectoryLoader
+from InstructorEmbedding import INSTRUCTOR
+from langchain.embeddings import HuggingFaceInstructEmbeddings
+from langchain_community.vectorstores import Chroma
+import textwrap
+def gen_vectordb():
+    tokenizer = AutoTokenizer.from_pretrained("lmsys/fastchat-t5-3b-v1.0")
+    model = AutoModelForSeq2SeqLM.from_pretrained("lmsys/fastchat-t5-3b-v1.0")
+    pipe = pipeline(
+        "text2text-generation",
+        model=model,
+        tokenizer=tokenizer,
+        max_length=256
+    )
+    local_llm = HuggingFacePipeline(pipeline=pipe)
+    loader = DirectoryLoader('C:/Users/SudheerRChinthala/sivallm/new_papers', glob="./*.pdf", loader_cls=PyPDFLoader)
+    documents = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    texts = text_splitter.split_documents(documents)
+    instructor_embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-base")
+    persist_directory = 'db'
+    embedding = instructor_embeddings
+    vectordb = Chroma.from_documents(documents=texts,
+                                    embedding=embedding,
+                                    persist_directory=persist_directory)
+    retriever = vectordb.as_retriever(search_kwargs={"k": 3})
+    qa_chain = RetrievalQA.from_chain_type(llm=local_llm,
+                                    chain_type="stuff",
+                                    retriever=retriever,
+                                    return_source_documents=True)
+    vectordb.persist()
+    vectordb = None
+if __name__=="__main__":
+    gen_vectordb()