Spaces:

GAS17
/

ocr

Running

ocr / app.py

Update app.py

66baacc verified 7 months ago

945 Bytes

	import gradio as gr
	from PIL import Image
	import pytesseract
	from pdf2image import convert_from_path
	import os

	# Asegúrate de que el ejecutable de Tesseract esté en tu PATH
	# o especifica la ruta completa
	# pytesseract.pytesseract.tesseract_cmd = r'<ruta_completa_a_tesseract>'

	def ocr_pdf(file):
	# Convertir PDF a imágenes
	images = convert_from_path(file.name)
	text = ""
	for image in images:
	# Extraer texto de cada imagen
	text += pytesseract.image_to_string(image) + "\n"
	return text

	# Crea la interfaz de Gradio
	iface = gr.Interface(
	fn=ocr_pdf, # Función que procesa el PDF
	inputs=gr.File(label="Sube tu archivo PDF"), # Tipo de entrada: archivo
	outputs=gr.Textbox(label="Texto extraído"), # Tipo de salida: texto
	title="OCR con Python Tesseract para PDF",
	description="Sube un archivo PDF para extraer el texto usando Tesseract OCR."
	)

	# Ejecuta la interfaz
	iface.launch()