Spaces:

eberhenriquez94
/

OCR

Sleeping

App Files Files Community

eberhenriquez94 commited on Dec 2, 2024

Commit

15611f3

verified ·

1 Parent(s): 49fb99d

A

Browse files

Files changed (1) hide show

app.py +10 -34

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ from PyPDF2 import PdfReader
 import tempfile
 import os
 import shlex
-from gradio_pdf import PDF  # Importamos el componente PDF específico de gradio_pdf
 # Configuración de logs
 logger = logging.getLogger(__name__)
@@ -30,22 +30,8 @@ def crear_pdf_con_texto_incrustado(pdf_original, archivo_salida, idioma="spa"):
     except RuntimeError as e:
         raise gr.Error(f"Error al procesar el archivo con OCR: {e}")
-def leer_pdf(pdf_path):
-    """Extrae texto de un archivo PDF."""
-    try:
-        reader = PdfReader(pdf_path)
-        texto = ""
-        for pagina in reader.pages:
-            text = pagina.extract_text()
-            if text:
-                texto += text + "\n"
-        return texto.strip() or "No se pudo extraer texto del PDF."
-    except Exception as e:
-        logger.error(f"Error al leer el PDF: {e}")
-        return f"Error al leer el PDF: {e}"
 def flujo_principal(pdf_file, idioma="spa"):
-    """Procesa un PDF subido, realiza OCR y extrae texto."""
     if not pdf_file:
         raise gr.Error("No se subió ningún archivo.")
@@ -56,45 +42,35 @@ def flujo_principal(pdf_file, idioma="spa"):
     with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_output:
         output_pdf = temp_output.name
-    texto_original = leer_pdf(input_pdf)
     try:
         # Procesar con OCR
         crear_pdf_con_texto_incrustado(input_pdf, output_pdf, idioma)
-        texto_ocr = leer_pdf(output_pdf)
-        return pdf_file, texto_original, output_pdf, texto_ocr
     except gr.Error as e:
         logger.error("Error durante el procesamiento del PDF.")
         raise e
     finally:
-        # Limpiar archivos temporales
         if os.path.exists(output_pdf):
             os.remove(output_pdf)
-# Interfaz Gradio usando el componente PDF
 with gr.Blocks() as interfaz:
-    gr.Markdown("## Procesador OCR para PDFs en Hugging Face")
-    # Carga de archivo y selección de idioma
     with gr.Row():
-        archivo_pdf = PDF(label="Sube tu archivo PDF")  # Usamos PDF en lugar de gr.File
         idioma_ocr = gr.Dropdown(["spa", "eng", "fra", "deu"], label="Idioma OCR", value="spa")
         boton_procesar = gr.Button("Procesar OCR")
-    # Resultados del procesamiento
-    with gr.Row():
-        texto_original = gr.Textbox(label="Texto Original", lines=10, interactive=False)
-        texto_ocr = gr.Textbox(label="Texto con OCR", lines=10, interactive=False)
     with gr.Row():
-        pdf_original_vista = PDF(label="Vista del PDF Original", interactive=False)
-        pdf_ocr_vista = PDF(label="Vista del PDF con OCR", interactive=False)
-    # Conectar la lógica con la interfaz
     boton_procesar.click(
         fn=flujo_principal,
         inputs=[archivo_pdf, idioma_ocr],
-        outputs=[pdf_original_vista, texto_original, pdf_ocr_vista, texto_ocr]
     )
 if __name__ == "__main__":

 import tempfile
 import os
 import shlex
+from gradio_pdf import PDF
 # Configuración de logs
 logger = logging.getLogger(__name__)
     except RuntimeError as e:
         raise gr.Error(f"Error al procesar el archivo con OCR: {e}")
 def flujo_principal(pdf_file, idioma="spa"):
+    """Procesa un PDF subido y realiza OCR."""
     if not pdf_file:
         raise gr.Error("No se subió ningún archivo.")
     with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_output:
         output_pdf = temp_output.name
     try:
         # Procesar con OCR
         crear_pdf_con_texto_incrustado(input_pdf, output_pdf, idioma)
+        return input_pdf, output_pdf
     except gr.Error as e:
         logger.error("Error durante el procesamiento del PDF.")
         raise e
     finally:
+        # Limpiar archivos temporales si es necesario
         if os.path.exists(output_pdf):
             os.remove(output_pdf)
+# Interfaz Gradio mejorada
 with gr.Blocks() as interfaz:
+    gr.Markdown("## Visualizador de PDFs con OCR")
     with gr.Row():
+        archivo_pdf = PDF(label="Sube tu archivo PDF")
         idioma_ocr = gr.Dropdown(["spa", "eng", "fra", "deu"], label="Idioma OCR", value="spa")
         boton_procesar = gr.Button("Procesar OCR")
     with gr.Row():
+        pdf_original_vista = PDF(label="PDF Original", interactive=False)
+        pdf_ocr_vista = PDF(label="PDF con OCR", interactive=False)
     boton_procesar.click(
         fn=flujo_principal,
         inputs=[archivo_pdf, idioma_ocr],
+        outputs=[pdf_original_vista, pdf_ocr_vista]
     )
 if __name__ == "__main__":