Spaces:

Lalit1997
/

test-api

Running

App Files Files Community

LalitMahale commited on Jun 27

Commit

f58e385

1 Parent(s): 1c2bd30

summarization api added

Browse files

Files changed (11) hide show

.env +1 -0
.gitignore +2 -1
all_answers.pkl +0 -0
all_merged_list.pkl +0 -0
all_mix_embedding.pkl +0 -0
app.py +23 -12
process.py +1 -1
requirements.txt +3 -0
utils/convert_embedding.py +21 -21
utils/rag.py +33 -33
utils/summary.py +39 -0

.env CHANGED Viewed

@@ -1,3 +1,4 @@
 GOOGLE_API = 'AIzaSyB3wI2r6ZgQnYQ3V39PX5S0zWSRqy5ldYw'
 TOKEN = "AIzaSyB3wI2r6ZgQnYQ3V39PX5S0zWSRqy5ldYw_Lalit"
 GROQ_API = "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"

 GOOGLE_API = 'AIzaSyB3wI2r6ZgQnYQ3V39PX5S0zWSRqy5ldYw'
 TOKEN = "AIzaSyB3wI2r6ZgQnYQ3V39PX5S0zWSRqy5ldYw_Lalit"
 GROQ_API = "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"
+MODEL =  "llama-3.3-70b-versatile"

.gitignore CHANGED Viewed

@@ -1,2 +1,3 @@
 __py*
-utils/__py*

 __py*
+utils/__py*
+uploads*

all_answers.pkl DELETED Viewed

Binary file (53.4 kB)

all_merged_list.pkl DELETED Viewed

Binary file (71.6 kB)

all_mix_embedding.pkl DELETED Viewed

Binary file (708 kB)

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import base64
 from pathlib import Path
 from process import Response
 import uuid
 load_dotenv()
 # Create the FastAPI app instance
 os.makedirs("/tmp/huggingface_cache", exist_ok=True)
@@ -118,34 +119,44 @@ async def audio_chat(audio: UploadFile = File(...), token: str = ""):
 # Request model
 class FileUploadRequest(BaseModel):
     filename: str
     content_type: str
     base64_file: str
-UPLOAD_DIR = "/tmp/uploads"
-Path(UPLOAD_DIR).mkdir(parents=True, exist_ok=True)
 @app.post("/summarizer")
 async def upload_base64(file_data: FileUploadRequest):
     try:
-        print(file_data.filename)
-        file_path = os.path.join(UPLOAD_DIR, file_data.filename)
         with open(file_path, "wb") as f:
             f.write(base64.b64decode(file_data.base64_file))
-        extracted_text = f"Saved file: {file_path}\nContent-Type: {file_data.content_type}\n"
-        extracted_text += f"(First 100 bytes shown)\n\n"
-        with open(file_path, "rb") as f:
-            extracted_text += repr(f.read(100))
-        return {"text": "api under development"}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/upload")
 async def upload_file(req: UploadRequest):
     session_id = str(uuid.uuid4())

 from pathlib import Path
 from process import Response
 import uuid
+from utils.summary import Summary
 load_dotenv()
 # Create the FastAPI app instance
 os.makedirs("/tmp/huggingface_cache", exist_ok=True)
 # Request model
+UPLOAD_DIR = "uploads"
+Path(UPLOAD_DIR).mkdir(parents=True, exist_ok=True)
 class FileUploadRequest(BaseModel):
+    token: str
     filename: str
     content_type: str
     base64_file: str
 @app.post("/summarizer")
 async def upload_base64(file_data: FileUploadRequest):
     try:
+        file_path = os.path.join(os.getcwd(),UPLOAD_DIR, file_data.filename)
         with open(file_path, "wb") as f:
             f.write(base64.b64decode(file_data.base64_file))
+        if file_data.content_type == "application/pdf":
+            doc = Summary().load_doc(doc_path=file_path)
+            chunks,size = Summary().doc_chunk(docs_path=doc)
+            summary = Summary().get_summary(document=chunks,len_document=size)
+            print(summary)
+            return {"text":summary}
+        else:
+            return {"text":f"{file_data.content_type} not supported"}
+        # with open(file_path, "rb") as f:
+        #     content = f.read(100)
+        summary = "# working in *progress*.."
+        return {"text": summary}
     except Exception as e:
+        import traceback
+        traceback.print_exc()  # 🔥 Show full error in terminal
         raise HTTPException(status_code=500, detail=str(e))
+## RAG Chatbot
 @app.post("/upload")
 async def upload_file(req: UploadRequest):
     session_id = str(uuid.uuid4())

process.py CHANGED Viewed

@@ -13,7 +13,7 @@ class Response:
             res = self.client.chat.completions.create(
             messages=[
                 {"role":"system",
-                "content":f"You are a Question answer chatbot. You have to understand the given content based on that provide answer. If don't know tell unable to get details. only give answers like your are lalit. do not provide addition text.",
                     "role": "user",
                     "content": f"Content : {mytext}\n\n Question : {query}",
                 }

             res = self.client.chat.completions.create(
             messages=[
                 {"role":"system",
+                "content":f"You are a Question answer chatbot. You have to understand the given content based on that provide answer. If don't know tell unable to get details. only give answers like your are lalit. Provide response required for user question do not provide additional context.",
                     "role": "user",
                     "content": f"Content : {mytext}\n\n Question : {query}",
                 }

requirements.txt CHANGED Viewed

@@ -8,3 +8,6 @@ langchain-google-genai
 faster_whisper
 groq==0.28.0
 python-dotenv==1.1.0

 faster_whisper
 groq==0.28.0
 python-dotenv==1.1.0
+langchain-groq==0.3.4
+pymupdf==1.26.1
+transformers==4.53.0

utils/convert_embedding.py CHANGED Viewed

@@ -1,24 +1,24 @@
-from sentence_transformers import SentenceTransformer
-class GetEmbedding:
-    def __init__(self,data:list):
-        self.data = data
-    def user_query_emb(self,model_name:str = 'paraphrase-MiniLM-L6-v2'):
-        try:
-            model = SentenceTransformer(model_name_or_path=model_name)
-            embedding = model.encode(self.data)
-            return embedding
-        except Exception as e:
-            print(e)
-    def convert_data(self,model_name:str = 'paraphrase-MiniLM-L6-v2'):
-        try:
-            model = SentenceTransformer(model_name)
-            embeddings = model.encode(self.data)
-            return embeddings
-        except Exception as e:
-            print(e)
-if __name__ == "__main__":
-    emb = GetEmbedding("lalit")
-    print( emb)

+# from sentence_transformers import SentenceTransformer
+# class GetEmbedding:
+#     def __init__(self,data:list):
+#         self.data = data
+#     def user_query_emb(self,model_name:str = 'paraphrase-MiniLM-L6-v2'):
+#         try:
+#             model = SentenceTransformer(model_name_or_path=model_name)
+#             embedding = model.encode(self.data)
+#             return embedding
+#         except Exception as e:
+#             print(e)
+#     def convert_data(self,model_name:str = 'paraphrase-MiniLM-L6-v2'):
+#         try:
+#             model = SentenceTransformer(model_name)
+#             embeddings = model.encode(self.data)
+#             return embeddings
+#         except Exception as e:
+#             print(e)
+# if __name__ == "__main__":
+#     emb = GetEmbedding("lalit")
+#     print( emb)

utils/rag.py CHANGED Viewed

@@ -1,42 +1,42 @@
-from langchain_google_genai import GoogleGenerativeAI
-import requests
-from bs4 import BeautifulSoup
-from dotenv import load_dotenv
-import os
-load_dotenv()
-class RAG:
-    def __init__(self):
-        self.url = 'https://lalitmahale.github.io'
-        self.llm = GoogleGenerativeAI(google_api_key=os.getenv("GOOGLE_API"),model="gemini-1.5-pro")
-    def get_data(self):
-        try:
-            res = requests.get(self.url)
-            soup = BeautifulSoup(res.content, "html.parser")
-            return soup.get_text()
-        except Exception as e:
-            print(e)
-    def clean_text(self):
-        return self.get_data().replace("\n","")
-    def prompt(self):
-        return """You are a helpfull assistant for me and Your name is lalit mahale. understand the below context and give answer for user question.
-        context : {context}\n\nQuestion : {question}\n\nGive proper answer for this questions."""
-    def pipeline(self,query):
-        try:
-            prompt = self.prompt().format(context = self.clean_text(),question = query)
-            return self.llm.invoke(prompt)
-        except Exception as e:
-            print(e)
-if __name__ == "__main__":
-    res = RAG().pipeline("who is lalit mahale")
-    print(res)

+# from langchain_google_genai import GoogleGenerativeAI
+# import requests
+# from bs4 import BeautifulSoup
+# from dotenv import load_dotenv
+# import os
+# load_dotenv()
+# class RAG:
+#     def __init__(self):
+#         self.url = 'https://lalitmahale.github.io'
+#         self.llm = GoogleGenerativeAI(google_api_key=os.getenv("GOOGLE_API"),model="gemini-1.5-pro")
+#     def get_data(self):
+#         try:
+#             res = requests.get(self.url)
+#             soup = BeautifulSoup(res.content, "html.parser")
+#             return soup.get_text()
+#         except Exception as e:
+#             print(e)
+#     def clean_text(self):
+#         return self.get_data().replace("\n","")
+#     def prompt(self):
+#         return """You are a helpfull assistant for me and Your name is lalit mahale. understand the below context and give answer for user question.
+#         context : {context}\n\nQuestion : {question}\n\nGive proper answer for this questions."""
+#     def pipeline(self,query):
+#         try:
+#             prompt = self.prompt().format(context = self.clean_text(),question = query)
+#             return self.llm.invoke(prompt)
+#         except Exception as e:
+#             print(e)
+# if __name__ == "__main__":
+#     res = RAG().pipeline("who is lalit mahale")
+#     print(res)

utils/summary.py ADDED Viewed

	@@ -0,0 +1,39 @@

+import os
+from dotenv import load_dotenv
+# from langchain_google_genai import GoogleGenerativeAI
+from langchain_groq import ChatGroq
+from langchain_community.document_loaders import PyMuPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains.summarize import load_summarize_chain
+load_dotenv()
+class Summary:
+    def __init__(self):
+        self.model =llm = ChatGroq(api_key=os.getenv("GROQ_API"),model=os.getenv("MODEL"))
+         #GoogleGenerativeAI(api_key = os.getenv("API_KEY"),model = os.getenv("MODEL"))
+    def load_doc(self,doc_path:str):
+        try:
+            print("doc-path :",doc_path)
+            doc_loader = PyMuPDFLoader(file_path=doc_path)
+            return doc_loader.load()
+        except Exception as e:
+            print(e)
+    def doc_chunk(self,docs_path:list,CHUNK_SIZE:int= 3000,CHUNK_OVERLAP:int = 100):
+        splitter = RecursiveCharacterTextSplitter(chunk_size = CHUNK_SIZE,chunk_overlap = CHUNK_OVERLAP)
+        chunks = splitter.split_documents(docs_path)
+        return chunks,len(chunks)
+    def get_summary(self,document:list, len_document:int):
+        try:
+            if len_document == 1:
+                chain = load_summarize_chain(chain_type="stuff",llm = self.model)
+                result = chain.invoke(document)
+                return result["output_text"]
+            else:
+                chain = load_summarize_chain(chain_type="map_reduce",llm = self.model)
+                result = chain.invoke(document)
+                return result["output_text"]
+        except Exception as e:
+            print(e)