File size: 945 Bytes
bf6343f 64fe5a9 b16b8c7 66baacc 990b2f4 64fe5a9 bf6343f 66baacc 64fe5a9 bf6343f 66baacc 64fe5a9 66baacc bf6343f 990b2f4 64fe5a9 bf6343f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
import gradio as gr
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
import os
# Asegúrate de que el ejecutable de Tesseract esté en tu PATH
# o especifica la ruta completa
# pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'
def ocr_pdf(file):
# Convertir PDF a imágenes
images = convert_from_path(file.name)
text = ""
for image in images:
# Extraer texto de cada imagen
text += pytesseract.image_to_string(image) + "\n"
return text
# Crea la interfaz de Gradio
iface = gr.Interface(
fn=ocr_pdf, # Función que procesa el PDF
inputs=gr.File(label="Sube tu archivo PDF"), # Tipo de entrada: archivo
outputs=gr.Textbox(label="Texto extraído"), # Tipo de salida: texto
title="OCR con Python Tesseract para PDF",
description="Sube un archivo PDF para extraer el texto usando Tesseract OCR."
)
# Ejecuta la interfaz
iface.launch() |