Spaces:

eberhenriquez94
/

PDF__OCR

Sleeping

App Files Files Community

eberhenriquez94 commited on Dec 2, 2024

Commit

eec7f0a

verified ·

1 Parent(s): 44da927

a

Browse files

Files changed (1) hide show

aap.py +91 -0

aap.py ADDED Viewed

	@@ -0,0 +1,91 @@

+import gradio as gr
+import subprocess
+import logging
+import os
+import tempfile
+import shlex
+from gradio_pdf import PDF
+# Configuración de logs
+logger = logging.getLogger(__name__)
+logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
+def ejecutar_comando(comando):
+    """Ejecuta un comando de shell y maneja errores."""
+    try:
+        resultado = subprocess.run(comando, shell=True, check=True, capture_output=True, text=True)
+        logger.info(f"Comando ejecutado: {comando}\nSalida:\n{resultado.stdout}")
+        return resultado.stdout
+    except subprocess.CalledProcessError as e:
+        error_message = f"Error al ejecutar el comando: {comando}\nError: {e}\nSalida de error:\n{e.stderr}"
+        logger.error(error_message)
+        raise RuntimeError(error_message)
+def reparar_pdf(input_pdf, output_pdf):
+    """Repara un PDF usando qpdf."""
+    comando = f"qpdf --linearize {shlex.quote(input_pdf)} {shlex.quote(output_pdf)}"
+    ejecutar_comando(comando)
+def simplificar_pdf(input_pdf, output_pdf):
+    """Simplifica un PDF usando Ghostscript."""
+    comando = f"gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH -sOutputFile={shlex.quote(output_pdf)} {shlex.quote(input_pdf)}"
+    ejecutar_comando(comando)
+def crear_pdf_con_texto_incrustado(pdf_original, archivo_salida, idioma="spa"):
+    """Procesa un PDF con OCR usando OCRmyPDF."""
+    comando = f"ocrmypdf -l {idioma} --force-ocr --deskew --output-type pdf {shlex.quote(pdf_original)} {shlex.quote(archivo_salida)}"
+    ejecutar_comando(comando)
+def flujo_principal(pdf_file, idioma="spa"):
+    """Procesa un PDF subido con reparación, simplificación y OCR."""
+    if not pdf_file:
+        raise gr.Error("No se subió ningún archivo.")
+    reparado_pdf = tempfile.NamedTemporaryFile(delete=False, suffix=".pdf").name
+    simplificado_pdf = tempfile.NamedTemporaryFile(delete=False, suffix=".pdf").name
+    output_pdf = tempfile.NamedTemporaryFile(delete=False, suffix=".pdf").name
+    try:
+        # Reparar el PDF
+        reparar_pdf(pdf_file, reparado_pdf)
+        # Simplificar el PDF
+        simplificar_pdf(reparado_pdf, simplificado_pdf)
+        # Procesar con OCR
+        crear_pdf_con_texto_incrustado(simplificado_pdf, output_pdf, idioma)
+        return output_pdf  # Devolver el PDF final con OCR
+    except Exception as e:
+        logger.error(f"Error durante el procesamiento del PDF: {str(e)}")
+        raise gr.Error(f"Error al procesar el PDF: {str(e)}")
+# Interfaz Gradio
+with gr.Blocks() as interfaz:
+    gr.Markdown("## Procesador de PDFs con OCR")
+    with gr.Row():
+        archivo_pdf = PDF(label="Sube tu archivo PDF")  # Entrada usando PDF
+        idioma_ocr = gr.Dropdown(["spa", "eng", "fra", "deu"], label="Idioma OCR", value="spa")
+        boton_procesar = gr.Button("Procesar OCR")
+    with gr.Row():
+        pdf_vista = PDF(label="Visor PDF procesado", interactive=False)  # Salida usando PDF para visualización
+        boton_procesar.click(
+            fn=flujo_principal,
+            inputs=[archivo_pdf, idioma_ocr],
+            outputs=[pdf_vista],
+        )
+    with gr.Row():
+        gr.Markdown("### Descargar PDF procesado con OCR")
+        pdf_descarga = gr.File(label="Descargar PDF con OCR", interactive=False)
+        boton_procesar.click(
+            fn=lambda x: x,
+            inputs=[pdf_vista],
+            outputs=[pdf_descarga]
+        )
+if __name__ == "__main__":
+    interfaz.launch()