File size: 717 Bytes
bf6343f
b16b8c7
 
990b2f4
bf6343f
 
 
990b2f4
bf6343f
 
b16b8c7
bf6343f
 
b16b8c7
bf6343f
 
 
 
 
 
 
 
 
 
990b2f4
bf6343f
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import gradio as gr
import pytesseract
from pdf2image import convert_from_path

def extract_text_from_pdf(pdf_file):
    # Convertir el archivo PDF a imágenes
    pages = convert_from_path(pdf_file.name, 600)
    
    # Extraer texto de cada página
    text_data = ''
    for page in pages:
        text = pytesseract.image_to_string(page)
        text_data += text + '\n'
    
    return text_data

# Crear la interfaz de Gradio
iface = gr.Interface(
    fn=extract_text_from_pdf,
    inputs=gr.inputs.File(label="Sube tu archivo PDF"),
    outputs="text",
    title="Extractor de Texto de PDF",
    description="Sube un archivo PDF escaneado y extrae el texto usando OCR."
)

# Ejecutar la interfaz
iface.launch()