MCQGen

Sleeping

Jay Valaki commited on Jul 9, 2024

Commit

a14c6cb

verified ·

1 Parent(s): 0003def

app.py

The implementation of Object Character Recognition (OCR).

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,6 +26,10 @@ from spellchecker import SpellChecker
 from transformers import pipeline
 import re
 import pymupdf
 import uuid
 import time
 import asyncio
@@ -146,14 +150,34 @@ def display_info():
     """)
 def get_pdf_text(pdf_file):
-    doc = pymupdf.open(stream=pdf_file.read(), filetype="pdf")
     text = ""
     for page_num in range(doc.page_count):
         page = doc.load_page(page_num)
         text += page.get_text()
     return text
 def save_feedback(question, answer, rating, options, context):
     feedback_file = 'question_feedback.json'
     if os.path.exists(feedback_file):

 from transformers import pipeline
 import re
 import pymupdf
+import fitz  # PyMuPDF
+import pytesseract
+from PIL import Image
+import io
 import uuid
 import time
 import asyncio
     """)
+# def get_pdf_text(pdf_file):
+#     doc = pymupdf.open(stream=pdf_file.read(), filetype="pdf")
+#     text = ""
+#     for page_num in range(doc.page_count):
+#         page = doc.load_page(page_num)
+#         text += page.get_text()
+#     return text
 def get_pdf_text(pdf_file):
+    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
     text = ""
     for page_num in range(doc.page_count):
         page = doc.load_page(page_num)
         text += page.get_text()
+        # Extract images from the page
+        image_list = page.get_images(full=True)
+        for img_index, img in enumerate(image_list):
+            xref = img[0]
+            base_image = doc.extract_image(xref)
+            image_bytes = base_image["image"]
+            image = Image.open(io.BytesIO(image_bytes))
+            text += pytesseract.image_to_string(image)
     return text
 def save_feedback(question, answer, rating, options, context):
     feedback_file = 'question_feedback.json'
     if os.path.exists(feedback_file):