Spaces:

mishrasahil934
/

Team_skulk

Running

App Files Files Community

mishrasahil934 commited on Jan 8

Commit

9dca518

verified ·

1 Parent(s): 0176e0e

Create app.py

Browse files

Files changed (1) hide show

app.py +20 -18

app.py CHANGED Viewed

@@ -3,25 +3,24 @@ import base64
 from tempfile import NamedTemporaryFile
 import streamlit as st
 from transformers import pipeline
-from langchain.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-# Load model directly
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 tokenizer = AutoTokenizer.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
 base_model = AutoModelForSeq2SeqLM.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
-# File loader and processing
-def file_preprocessing(file):
-    loader = PyPDFLoader(file)
-    pages = loader.load_and_split()
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)
-    texts = text_splitter.split_documents(pages)
-    final_texts = ""
-    for text in texts:
-        final_texts += text.page_content
-    return final_texts
 # LLM pipeline for summarization
 def llm_pipeline(input_text):
@@ -36,16 +35,18 @@ def llm_pipeline(input_text):
     return result[0]['summary_text']
 @st.cache_data
-# Function to display the PDF file
 def displayPDF(file_path):
     with open(file_path, "rb") as f:
         base64_pdf = base64.b64encode(f.read()).decode('utf-8')
     pdf_display = f'<iframe src="data:application/pdf;base64,{base64_pdf}" width="100%" height="600" type="application/pdf"></iframe>'
     st.markdown(pdf_display, unsafe_allow_html=True)
 # Streamlit App
 def main():
-    st.title('Content Summarizer')
     # PDF Upload Section
     uploaded_file = st.file_uploader("Upload your PDF file", type=['pdf'])
@@ -64,9 +65,10 @@ def main():
             with col2:
                 st.info("Summarization")
-                input_text = file_preprocessing(temp_filepath)
-                summary = llm_pipeline(input_text)
-                st.success(summary)
     # Text Input Section
     st.header("Summarize Your Text")

 from tempfile import NamedTemporaryFile
 import streamlit as st
 from transformers import pipeline
+from PyPDF2 import PdfReader
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# Load the summarization model
 tokenizer = AutoTokenizer.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
 base_model = AutoModelForSeq2SeqLM.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
+# Function to extract text from a PDF using PyPDF2
+def extract_text_from_pdf(pdf_path):
+    reader = PdfReader(pdf_path)
+    text = ""
+    for page in reader.pages:
+        text += page.extract_text()  # Extract text from each page
+    if not text.strip():
+        raise ValueError("The PDF file contains no extractable text.")
+    return text
 # LLM pipeline for summarization
 def llm_pipeline(input_text):
     return result[0]['summary_text']
 @st.cache_data
+# Function to display the PDF
 def displayPDF(file_path):
     with open(file_path, "rb") as f:
         base64_pdf = base64.b64encode(f.read()).decode('utf-8')
     pdf_display = f'<iframe src="data:application/pdf;base64,{base64_pdf}" width="100%" height="600" type="application/pdf"></iframe>'
     st.markdown(pdf_display, unsafe_allow_html=True)
 # Streamlit App
 def main():
+    st.title('PDF Content Summarizer')
     # PDF Upload Section
     uploaded_file = st.file_uploader("Upload your PDF file", type=['pdf'])
             with col2:
                 st.info("Summarization")
+                input_text = extract_text_from_pdf(temp_filepath)
+                if input_text:  # Proceed only if text extraction was successful
+                    summary = llm_pipeline(input_text)
+                    st.success(summary)
     # Text Input Section
     st.header("Summarize Your Text")