Spaces:

GAS17
/

ocr

Running

ocr

File size: 945 Bytes

bf6343f
64fe5a9
b16b8c7
66baacc
 
990b2f4
64fe5a9
 
 
bf6343f
66baacc
 
 
 
 
 
 
64fe5a9
 
 
bf6343f
66baacc
 
64fe5a9
66baacc
 
bf6343f
990b2f4
64fe5a9
bf6343f

import gradio as gr
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
import os

# Asegúrate de que el ejecutable de Tesseract esté en tu PATH
# o especifica la ruta completa
# pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'

def ocr_pdf(file):
    # Convertir PDF a imágenes
    images = convert_from_path(file.name)
    text = ""
    for image in images:
        # Extraer texto de cada imagen
        text += pytesseract.image_to_string(image) + "\n"
    return text

# Crea la interfaz de Gradio
iface = gr.Interface(
    fn=ocr_pdf,  # Función que procesa el PDF
    inputs=gr.File(label="Sube tu archivo PDF"),  # Tipo de entrada: archivo
    outputs=gr.Textbox(label="Texto extraído"),  # Tipo de salida: texto
    title="OCR con Python Tesseract para PDF",
    description="Sube un archivo PDF para extraer el texto usando Tesseract OCR."
)

# Ejecuta la interfaz
iface.launch()