Spaces:

Arslan17121
/

NotebookCwithqa

Sleeping

App Files Files Community

Arslan17121 commited on Jan 5

Commit

c42ba0a

verified ·

1 Parent(s): f3a6a80

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -33

app.py CHANGED Viewed

@@ -1,30 +1,18 @@
 import streamlit as st
 import PyPDF2
 from transformers import pipeline
 from gtts import gTTS
-from PIL import Image
-# Function to read the PDF and extract text
 def extract_text_from_pdf(pdf_file):
-    pdf_reader = PyPDF2.PdfReader(pdf_file)
     text = ""
-    for page_num in range(len(pdf_reader.pages)):
-        text += pdf_reader.pages[page_num].extract_text()
     return text
-# Function to answer questions based on document image
-def answer_question_with_docvqa(pdf_file, question):
-    docvqa_pipeline = pipeline(
-        "document-question-answering",
-        model="google/pix2struct-docvqa-large"
-    )
-    answers = []
-    for page_num in range(len(pdf_file.pages)):
-        page = pdf_file.pages[page_num]
-        page_image = page.to_image()  # Convert PDF page to image if possible
-        answers.append(docvqa_pipeline(image=Image.open(page_image), question=question))
-    return answers
 # Function to generate discussion points
 def generate_discussion_points(text):
     summarizer = pipeline('summarization')
@@ -41,28 +29,18 @@ st.title("PDF Analysis and Discussion Generator")
 uploaded_file = st.file_uploader("Upload a PDF file", type=["pdf"])
 if uploaded_file is not None:
-    # Load PDF for processing
-    pdf_reader = PyPDF2.PdfReader(uploaded_file)
-    # Extract and display text content
-    text = extract_text_from_pdf(pdf_reader)
     st.subheader("Extracted Text")
     st.write(text)
-    # Question answering functionality
-    st.subheader("Ask Questions About the Document")
-    user_question = st.text_input("Enter your question:")
-    if user_question:
-        answers = answer_question_with_docvqa(pdf_reader, user_question)
-        st.write("Answer:", answers)
     # Generate and display discussion points
-    discussion_points = generate_discussion_points(text)
     st.subheader("Generated Discussion Points")
     st.write(discussion_points)
-    # Convert discussion points to audio
     text_to_speech(discussion_points)
     audio_file = open("discussion_points.mp3", "rb")
     audio_bytes = audio_file.read()
-    st.audio(audio_bytes, format='audio/mp3')

 import streamlit as st
+import io
 import PyPDF2
 from transformers import pipeline
 from gtts import gTTS
+# Function to extract text from a PDF
 def extract_text_from_pdf(pdf_file):
+    pdf_stream = io.BytesIO(pdf_file.read())
+    pdf_reader = PyPDF2.PdfReader(pdf_stream)
     text = ""
+    for page in pdf_reader.pages:
+        text += page.extract_text() or ""  # Handle None for non-text pages
     return text
 # Function to generate discussion points
 def generate_discussion_points(text):
     summarizer = pipeline('summarization')
 uploaded_file = st.file_uploader("Upload a PDF file", type=["pdf"])
 if uploaded_file is not None:
+    # Extract text from the uploaded PDF
+    text = extract_text_from_pdf(uploaded_file)
     st.subheader("Extracted Text")
     st.write(text)
     # Generate and display discussion points
     st.subheader("Generated Discussion Points")
+    discussion_points = generate_discussion_points(text)
     st.write(discussion_points)
+    # Convert discussion points to audio and play it
     text_to_speech(discussion_points)
     audio_file = open("discussion_points.mp3", "rb")
     audio_bytes = audio_file.read()
+    st.audio(audio_bytes, format="audio/mp3")