import gradio as gr from PIL import Image import pytesseract from pdf2image import convert_from_path import os # Asegúrate de que el ejecutable de Tesseract esté en tu PATH # o especifica la ruta completa # pytesseract.pytesseract.tesseract_cmd = r'' def ocr_pdf(file): # Convertir PDF a imágenes images = convert_from_path(file.name) text = "" for image in images: # Extraer texto de cada imagen text += pytesseract.image_to_string(image) + "\n" return text # Crea la interfaz de Gradio iface = gr.Interface( fn=ocr_pdf, # Función que procesa el PDF inputs=gr.File(label="Sube tu archivo PDF"), # Tipo de entrada: archivo outputs=gr.Textbox(label="Texto extraído"), # Tipo de salida: texto title="OCR con Python Tesseract para PDF", description="Sube un archivo PDF para extraer el texto usando Tesseract OCR." ) # Ejecuta la interfaz iface.launch()