Spaces:

huggingchat
/

pdf-to-markdown

Runtime error

Liam Dyer commited on May 22, 2024

Commit

3bf066d

unverified ·

1 Parent(s): a2dee03

extract metadata before ocr

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,15 @@ import ocrmypdf
 def convert(pdf_file):
     reader = PdfReader(pdf_file)
     # Check if there are any images
     image_count = 0
     for page in reader.pages:
@@ -27,15 +36,6 @@ def convert(pdf_file):
         if len(text) > 0:
             full_text += f"---- Page {idx} ----\n" + page.extract_text() + "\n\n"
-    # Extract metadata
-    metadata = {
-        "author": reader.metadata.author,
-        "creator": reader.metadata.creator,
-        "producer": reader.metadata.producer,
-        "subject": reader.metadata.subject,
-        "title": reader.metadata.title,
-    }
     return full_text.strip(), metadata

 def convert(pdf_file):
     reader = PdfReader(pdf_file)
+    # Extract metadata
+    metadata = {
+        "author": reader.metadata.author,
+        "creator": reader.metadata.creator,
+        "producer": reader.metadata.producer,
+        "subject": reader.metadata.subject,
+        "title": reader.metadata.title,
+    }
     # Check if there are any images
     image_count = 0
     for page in reader.pages:
         if len(text) > 0:
             full_text += f"---- Page {idx} ----\n" + page.extract_text() + "\n\n"
     return full_text.strip(), metadata