File size: 945 Bytes
bf6343f
64fe5a9
b16b8c7
66baacc
 
990b2f4
64fe5a9
 
 
bf6343f
66baacc
 
 
 
 
 
 
64fe5a9
 
 
bf6343f
66baacc
 
64fe5a9
66baacc
 
bf6343f
990b2f4
64fe5a9
bf6343f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import gradio as gr
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
import os

# Asegúrate de que el ejecutable de Tesseract esté en tu PATH
# o especifica la ruta completa
# pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'

def ocr_pdf(file):
    # Convertir PDF a imágenes
    images = convert_from_path(file.name)
    text = ""
    for image in images:
        # Extraer texto de cada imagen
        text += pytesseract.image_to_string(image) + "\n"
    return text

# Crea la interfaz de Gradio
iface = gr.Interface(
    fn=ocr_pdf,  # Función que procesa el PDF
    inputs=gr.File(label="Sube tu archivo PDF"),  # Tipo de entrada: archivo
    outputs=gr.Textbox(label="Texto extraído"),  # Tipo de salida: texto
    title="OCR con Python Tesseract para PDF",
    description="Sube un archivo PDF para extraer el texto usando Tesseract OCR."
)

# Ejecuta la interfaz
iface.launch()