MCQGen

Sleeping

App Files Files Community

ValakiJay1706 commited on Jul 9, 2024

Commit

c112dcd

verified ·

1 Parent(s): c0f1b96

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -12

app.py CHANGED Viewed

@@ -34,6 +34,7 @@ import uuid
 import time
 import asyncio
 import aiohttp
 # '-----------------'
 import smtplib
 from email.mime.multipart import MIMEMultipart
@@ -157,25 +158,70 @@ def display_info():
 #         page = doc.load_page(page_num)
 #         text += page.get_text()
 #     return text
-# subprocess.run(["git", "clone", "https://github.com/tesseract-ocr/tesseract.git"])
-def get_pdf_text(pdf_file):
-    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
-    text = ""
-    for page_num in range(doc.page_count):
-        page = doc.load_page(page_num)
-        text += page.get_text()
-        # Extract images from the page
         image_list = page.get_images(full=True)
         for img_index, img in enumerate(image_list):
             xref = img[0]
-            base_image = doc.extract_image(xref)
             image_bytes = base_image["image"]
             image = Image.open(io.BytesIO(image_bytes))
-            text += pytesseract.image_to_string(image)
-    return text
 def save_feedback(question, answer, rating, options, context):
@@ -571,7 +617,13 @@ def main():
         file = st.file_uploader("Upload PDF Files")
         if file is not None:
             try:
-                text = get_pdf_text(file)
             except Exception as e:
                 st.error(f"Error reading PDF file: {str(e)}")
                 text = None

 import time
 import asyncio
 import aiohttp
+import easyocr
 # '-----------------'
 import smtplib
 from email.mime.multipart import MIMEMultipart
 #         page = doc.load_page(page_num)
 #         text += page.get_text()
 #     return text
+# def get_pdf_text(pdf_file):
+#     doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
+#     text = ""
+#     for page_num in range(doc.page_count):
+#         page = doc.load_page(page_num)
+#         text += page.get_text()
+#         # Extract images from the page
+#         image_list = page.get_images(full=True)
+#         for img_index, img in enumerate(image_list):
+#             xref = img[0]
+#             base_image = doc.extract_image(xref)
+#             image_bytes = base_image["image"]
+#             image = Image.open(io.BytesIO(image_bytes))
+#             text += pytesseract.image_to_string(image)
+#     return text
+def extract_images_from_pdf(pdf_path):
+    """Extract images from the given PDF file."""
+    pdf_file = fitz.open(pdf_path)
+    images = []
+    for page_index in range(len(pdf_file)):
+        page = pdf_file.load_page(page_index)
         image_list = page.get_images(full=True)
         for img_index, img in enumerate(image_list):
             xref = img[0]
+            base_image = pdf_file.extract_image(xref)
             image_bytes = base_image["image"]
+            image_ext = base_image["ext"]
             image = Image.open(io.BytesIO(image_bytes))
+            images.append(image)
+    return images
+def recognize_text(image):
+    """Recognize text from a single image."""
+    reader = easyocr.Reader(['en'])
+    result = reader.readtext(image)
+    recognized_text = ""
+    for (bbox, text, prob) in result:
+        if prob > 0.2:
+            recognized_text += f'{text}\n'
+    return recognized_text
+def ocr_text_from_pdf(pdf_path):
+    """Extract text from all images in the PDF."""
+    images = extract_images_from_pdf(pdf_path)
+    all_text = ""
+    for image in images:
+        text = recognize_text(image)
+        all_text += text
+    return all_text
 def save_feedback(question, answer, rating, options, context):
         file = st.file_uploader("Upload PDF Files")
         if file is not None:
             try:
+                # pdf_path = "path/to/your/pdf_file.pdf"
+                # Extract text from the PDF
+                text = ocr_text_from_pdf(file)
+                # print(extracted_text)
+                # text = get_pdf_text(file)
             except Exception as e:
                 st.error(f"Error reading PDF file: {str(e)}")
                 text = None