Spaces:

Overglitch
/

document-summarizer

Sleeping

App Files Files Community

Overglitch commited on Dec 14, 2024

Commit

b6c116a

verified ·

1 Parent(s): 3f6d750

Update modules/preprocessing.py

Browse files

Files changed (1) hide show

modules/preprocessing.py +16 -56

modules/preprocessing.py CHANGED Viewed

@@ -97,66 +97,26 @@ class PDFProcessor:
         self.ocr_model = ocr_predictor(pretrained=True)
         self.max_pages = max_pages
-    def pdf_to_text(self, pdf_path):
         """
         Convierte un archivo PDF a texto usando OCR.
-        Si el archivo no es válido o está corrupto, maneja la excepción.
         """
-        # Asegurarse de que el archivo está disponible temporalmente
-        temp_dir = Path("temp")
-        temp_dir.mkdir(exist_ok=True)
-        # Manejar el archivo temporalmente
-        temp_file_path = temp_dir / Path(pdf_path).name
-        if not temp_file_path.exists():
-            shutil.copy(pdf_path, temp_file_path)
-        try:
-            # 1) Cargar el PDF
-            doc = DocumentFile.from_pdf(temp_file_path)
-            # Verificar si el documento tiene páginas válidas
-            if not hasattr(doc, "pages") or not doc.pages:
-                raise ValueError("El archivo no contiene páginas procesables.")
-            # 2) Limitar el número de páginas si es necesario
-            if len(doc.pages) > self.max_pages:
-                doc.pages = doc.pages[:self.max_pages]
-            # 3) Aplicar el modelo OCR al documento
-            ocr_result = self.ocr_model(doc)
-            # 4) Extraer texto de cada bloque
-            text_pages = []
-            for page in ocr_result.pages:
-                for block in page.blocks:
-                    text_pages.append(block.text)
-            # 5) Unir todo el texto y devolverlo
-            return "\n".join(text_pages)
-        except ValueError as ve:
-            print(f"Error al procesar el archivo PDF: {ve}")
-            return "El archivo PDF no es válido o está corrupto."
-        except Exception as e:
-            print(f"Error inesperado al procesar el PDF: {e}")
-            return "Ocurrió un error inesperado al procesar el archivo."
-        finally:
-            # Limpiar el archivo temporal después del procesamiento
-            if temp_file_path.exists():
-                temp_file_path.unlink()
-    @staticmethod
-    def clear_temp_directory():
-        """Limpia todos los archivos en el directorio temporal."""
-        temp_dir = Path("temp")
-        if temp_dir.exists():
-            for file in temp_dir.iterdir():
-                if file.is_file():
-                    file.unlink()
 class FileHandler:

         self.ocr_model = ocr_predictor(pretrained=True)
         self.max_pages = max_pages
+    def pdf_to_text(self, file_path: str) -> str:
         """
         Convierte un archivo PDF a texto usando OCR.
         """
+        pdf_file = Path(file_path)
+        doc = DocumentFile.from_pdf(pdf_file)
+        # Asegúrate de que `doc` sea un objeto compatible con pages
+        if isinstance(doc, list):
+            pages = doc[:self.max_pages] if len(doc) > self.max_pages else doc
+        elif hasattr(doc, "pages"):
+            pages = doc.pages[:self.max_pages] if len(doc.pages) > self.max_pages else doc.pages
+        else:
+            raise ValueError("Formato inesperado para el documento PDF.")
+        raw_text = "\n".join(
+            [block.text for page in pages for block in page.blocks]
+        )
+        return Preprocessor().preprocess_text(raw_text)
 class FileHandler: