Spaces:

zliang
/

chatpaper

Paused

zliang commited on Mar 9, 2024

Commit

0ce080b

verified ·

1 Parent(s): d5da17c

Update pdfextract_fun.py

Files changed (1) hide show

pdfextract_fun.py CHANGED Viewed

@@ -50,17 +50,16 @@ def convert_pdf_to_jpg(pdf_path, output_folder, zoom_factor=2):
         pix.save(output_file)
 # Process JPEG images in a folder
-def process_jpeg_images((output_folder, cfg, batch_size=10):
-    image_paths = [os.path.join(output_folder, f) for f in os.listdir(output_folder) if f.endswith('.jpg')]
-    batches = [image_paths[i:i + batch_size] for i in range(0, len(image_paths), batch_size)]
-    for batch in tqdm(batches, desc="Processing images in batches"):
-        images = [cv2.imread(image_path) for image_path in batch]
-        batch_results = batch_analyze_images(images, cfg)  # This function needs to be implemented to support batch processing
-        for i, (result_image, output, v) in enumerate(batch_results):
-            # Assuming batch_analyze_images returns a list of tuples, each containing the results for one image
-            save_extracted_instances(images[i], output, i, output_folder)
 # Save extracted instances
 def save_extracted_instances(img, output, page_num, dest_folder, confidence_threshold=0.8):

         pix.save(output_file)
 # Process JPEG images in a folder
+def process_jpeg_images(output_folder, cfg):
+    """Process each JPEG image in the output folder."""
+    for page_num in tqdm(range(len(os.listdir(output_folder))), desc="Processing the pdf"):
+        file_path = os.path.join(output_folder, f"page_{page_num}.jpg")
+        img = cv2.imread(file_path)
+        if img is None:
+            print(f"Failed to read {file_path}. Skipping.")
+            continue
+        result_image, output, v = analyze_image(img, cfg)
+        save_extracted_instances(img, output, page_num, output_folder)
 # Save extracted instances
 def save_extracted_instances(img, output, page_num, dest_folder, confidence_threshold=0.8):