File size: 717 Bytes
bf6343f b16b8c7 990b2f4 bf6343f 990b2f4 bf6343f b16b8c7 bf6343f b16b8c7 bf6343f 990b2f4 bf6343f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
import gradio as gr
import pytesseract
from pdf2image import convert_from_path
def extract_text_from_pdf(pdf_file):
# Convertir el archivo PDF a imágenes
pages = convert_from_path(pdf_file.name, 600)
# Extraer texto de cada página
text_data = ''
for page in pages:
text = pytesseract.image_to_string(page)
text_data += text + '\n'
return text_data
# Crear la interfaz de Gradio
iface = gr.Interface(
fn=extract_text_from_pdf,
inputs=gr.inputs.File(label="Sube tu archivo PDF"),
outputs="text",
title="Extractor de Texto de PDF",
description="Sube un archivo PDF escaneado y extrae el texto usando OCR."
)
# Ejecutar la interfaz
iface.launch() |