Spaces:

Overglitch
/

document-summarizer

Sleeping

App Files Files Community

Overglitch commited on Dec 14, 2024

Commit

2f2f4c9

verified ·

1 Parent(s): 78bf8ed

Update modules/preprocessing.py

Browse files

Files changed (1) hide show

modules/preprocessing.py +46 -21

modules/preprocessing.py CHANGED Viewed

@@ -97,28 +97,53 @@ class PDFProcessor:
         self.ocr_model = ocr_predictor(pretrained=True)
         self.max_pages = max_pages
-    def pdf_to_text(pdf_path):
-        # 1) Cargar el PDF
-        doc = DocumentFile.from_pdf(pdf_path)
-        # 2) Crear un predictor (modelo OCR); docTR brinda modelos preentrenados
-        predictor = ocr_predictor(pretrained=True)
-        # 3) Aplicar el predictor al documento para obtener el layout
-        ocr_result = predictor(doc)
-        # Ahora sí, las páginas tienen .blocks, .lines, etc.
-        pages = ocr_result.pages
-        # 4) Extraer el texto de cada bloque
-        text_pages = []
-        for page in pages:
-            for block in page.blocks:
-                text_pages.append(block.text)
-        # 5) Unir o procesar a conveniencia
-        return "\n".join(text_pages)
 class FileHandler:

         self.ocr_model = ocr_predictor(pretrained=True)
         self.max_pages = max_pages
+    def pdf_to_text(self, pdf_path):
+        """
+        Convierte un archivo PDF a texto usando OCR.
+        Si el archivo no está en disco, lo guarda temporalmente.
+        """
+        # Asegurarse de que el archivo está disponible temporalmente
+        temp_dir = Path("temp")
+        temp_dir.mkdir(exist_ok=True)
+        # Manejar el archivo temporalmente
+        temp_file_path = temp_dir / Path(pdf_path).name
+        if not temp_file_path.exists():
+            shutil.copy(pdf_path, temp_file_path)
+        try:
+            # 1) Cargar el PDF
+            doc = DocumentFile.from_pdf(temp_file_path)
+            # 2) Limitar el número de páginas si es necesario
+            if len(doc.pages) > self.max_pages:
+                doc.pages = doc.pages[:self.max_pages]
+            # 3) Aplicar el modelo OCR al documento
+            ocr_result = self.ocr_model(doc)
+            # 4) Extraer texto de cada bloque
+            text_pages = []
+            for page in ocr_result.pages:
+                for block in page.blocks:
+                    text_pages.append(block.text)
+            # 5) Unir todo el texto y devolverlo
+            return "\n".join(text_pages)
+        finally:
+            # Limpiar el archivo temporal después del procesamiento
+            if temp_file_path.exists():
+                temp_file_path.unlink()
+    @staticmethod
+    def clear_temp_directory():
+        """Limpia todos los archivos en el directorio temporal."""
+        temp_dir = Path("temp")
+        if temp_dir.exists():
+            for file in temp_dir.iterdir():
+                if file.is_file():
+                    file.unlink()
 class FileHandler: