Spaces:

mishrasahil934
/

Team_skulk

Running

mishrasahil934 commited on Jan 8

Commit

e6a9ac6

verified ·

1 Parent(s): 668f0b8

Create app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,23 +2,22 @@ import os
 import base64
 import tempfile
 import streamlit as st
-from transformers import pipeline
-from PyPDF2 import PdfReader
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # Load the summarization model
 tokenizer = AutoTokenizer.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
 base_model = AutoModelForSeq2SeqLM.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
-# Function to extract text from a PDF using PyPDF2
 def extract_text_from_pdf(pdf_path):
-    reader = PdfReader(pdf_path)
     text = ""
-    for page in reader.pages:
-        page_text = page.extract_text()
-        if page_text:  # Only add page text if it exists
-            text += page_text
     if text.strip():
         return text
     return None
@@ -45,7 +44,7 @@ def displayPDF(file_path):
 # Streamlit App
 def main():
-    st.title('PDF Content Summarizer')
     # PDF Upload Section
     uploaded_file = st.file_uploader("Upload your PDF file", type=['pdf'])

 import base64
 import tempfile
 import streamlit as st
+import fitz  # PyMuPDF
+from transformers import pipeline
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # Load the summarization model
 tokenizer = AutoTokenizer.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
 base_model = AutoModelForSeq2SeqLM.from_pretrained("MBZUAI/LaMini-Flan-T5-248M")
+# Function to extract text from a PDF using PyMuPDF
 def extract_text_from_pdf(pdf_path):
     text = ""
+    doc = fitz.open(pdf_path)
+    for page_num in range(doc.page_count):
+        page = doc.load_page(page_num)  # Get a page
+        text += page.get_text()  # Extract text from the page
     if text.strip():
         return text
     return None
 # Streamlit App
 def main():
+    st.title('Content Summarizer')
     # PDF Upload Section
     uploaded_file = st.file_uploader("Upload your PDF file", type=['pdf'])