Spaces:

Overglitch
/

document-summarizer

Sleeping

Overglitch commited on Dec 14, 2024

Commit

78bf8ed

verified ·

1 Parent(s): 80e2948

Update modules/preprocessing.py

Files changed (1) hide show

modules/preprocessing.py CHANGED Viewed

@@ -97,25 +97,27 @@ class PDFProcessor:
         self.ocr_model = ocr_predictor(pretrained=True)
         self.max_pages = max_pages
-    def pdf_to_text(self, file_path: str) -> str:
-        """
-        Convierte un archivo PDF a texto usando OCR.
-        """
-        pdf_file = Path(file_path)
-        doc = DocumentFile.from_pdf(pdf_file)
-        # Asegúrate de que `doc` sea un objeto compatible con pages
-        if isinstance(doc, list):
-            pages = doc[:self.max_pages] if len(doc) > self.max_pages else doc
-        elif hasattr(doc, "pages"):
-            pages = doc.pages[:self.max_pages] if len(doc.pages) > self.max_pages else doc.pages
-        else:
-            raise ValueError("Formato inesperado para el documento PDF.")
-        raw_text = "\n".join(
-            [block.text for page in pages for block in page.blocks]
-        )
-        return Preprocessor().preprocess_text(raw_text)

         self.ocr_model = ocr_predictor(pretrained=True)
         self.max_pages = max_pages
+    def pdf_to_text(pdf_path):
+        # 1) Cargar el PDF
+        doc = DocumentFile.from_pdf(pdf_path)
+        # 2) Crear un predictor (modelo OCR); docTR brinda modelos preentrenados
+        predictor = ocr_predictor(pretrained=True)
+        # 3) Aplicar el predictor al documento para obtener el layout
+        ocr_result = predictor(doc)
+        # Ahora sí, las páginas tienen .blocks, .lines, etc.
+        pages = ocr_result.pages
+        # 4) Extraer el texto de cada bloque
+        text_pages = []
+        for page in pages:
+            for block in page.blocks:
+                text_pages.append(block.text)
+        # 5) Unir o procesar a conveniencia
+        return "\n".join(text_pages)