MinerU

Paused

App Files Files Community

SkyNait commited on Feb 20

Commit

a00a164

verified ·

1 Parent(s): dbd3d89

fix S3 bucket image upload

Browse files

Files changed (1) hide show

mineru_single.py +10 -4

mineru_single.py CHANGED Viewed

@@ -45,7 +45,7 @@ class Processor:
             endpoint = os.getenv("S3_ENDPOINT", "").rstrip("/")
             bucket = os.getenv("S3_BUCKET_NAME", "")
-            self.prefix = f"/document-extracts/"
             logger.info("Processor initialized successfully")
         except Exception as e:
@@ -92,7 +92,10 @@ class Processor:
             logger.info("doc_analyze complete for key='%s'. Started extracting images...", key)
             # Classify images and remove irrelevant ones
-            image_writer = ImageWriter(self.s3_writer)
             pipe_result = inference.pipe_ocr_mode(image_writer, lang=self.language)
             logger.info("OCR pipeline completed for key='%s'.", key)
@@ -109,8 +112,9 @@ class ImageWriter(DataWriter):
     Receives each extracted image. Classifies it, uploads if relevant, or flags
     it for removal if irrelevant.
     """
-    def __init__(self, s3_writer: S3Writer):
         self.s3_writer = s3_writer
         # self.svm_model = svm_model
         self._redundant_images_paths = []
@@ -118,7 +122,9 @@ class ImageWriter(DataWriter):
         """
         Called for each extracted image. If relevant, upload to S3; otherwise mark for removal.
         """
-        self.s3_writer.write(path, data)
         # label_str = self.svm_model.classify_image(data)
         # if label_str == 1:

             endpoint = os.getenv("S3_ENDPOINT", "").rstrip("/")
             bucket = os.getenv("S3_BUCKET_NAME", "")
+            self.prefix = "/document-extracts/"
             logger.info("Processor initialized successfully")
         except Exception as e:
             logger.info("doc_analyze complete for key='%s'. Started extracting images...", key)
             # Classify images and remove irrelevant ones
+            # image_writer = ImageWriter(self.s3_writer)
+            image_base_path = f"{self.prefix}{key}/"  # Construct base path
+            image_writer = ImageWriter(self.s3_writer, image_base_path)  # Pass base path to ImageWriter
             pipe_result = inference.pipe_ocr_mode(image_writer, lang=self.language)
             logger.info("OCR pipeline completed for key='%s'.", key)
     Receives each extracted image. Classifies it, uploads if relevant, or flags
     it for removal if irrelevant.
     """
+    def __init__(self, s3_writer: S3Writer, base_path: str):
         self.s3_writer = s3_writer
+        self.base_path = base_path
         # self.svm_model = svm_model
         self._redundant_images_paths = []
         """
         Called for each extracted image. If relevant, upload to S3; otherwise mark for removal.
         """
+        # full_path = os.path.join(self.prefix, path)
+        full_path = f"{self.base_path}{path}"
+        self.s3_writer.write(full_path, data)
         # label_str = self.svm_model.classify_image(data)
         # if label_str == 1: