Spaces:
Sleeping
Sleeping
Update README.md
Browse files
README.md
CHANGED
@@ -10,8 +10,44 @@ pinned: false
|
|
10 |
short_description: Comment on an image in writing and through audio.
|
11 |
---
|
12 |
|
13 |
-
#
|
14 |
|
15 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
16 |
|
17 |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
|
|
|
10 |
short_description: Comment on an image in writing and through audio.
|
11 |
---
|
12 |
|
13 |
+
# Descripción del Proyecto
|
14 |
|
15 |
+
## **Generación Automática de Comentarios en Texto y Audio a partir de Imágenes**
|
16 |
+
|
17 |
+
Este proyecto utiliza modelos avanzados de inteligencia artificial para generar descripciones automáticas de imágenes y luego convertir esas descripciones en audio. A través de una interfaz interactiva desarrollada con **Gradio**, los usuarios pueden cargar una fotografía y recibir una respuesta en dos formatos:
|
18 |
+
|
19 |
+
1. **Texto**: El modelo de IA genera una descripción detallada de la imagen cargada.
|
20 |
+
2. **Audio**: A partir de la descripción generada en texto, se utiliza un modelo de **síntesis de voz** para convertir el texto en una locución de alta calidad.
|
21 |
+
|
22 |
+
## **Flujo de Trabajo**
|
23 |
+
|
24 |
+
1. **Entrada de la Imagen**: El usuario carga una fotografía en la aplicación.
|
25 |
+
2. **Generación de Descripción en Texto**: Usamos el modelo `Salesforce/blip-image-captioning-large`, un modelo preentrenado de tipo **image-to-text**, para analizar la imagen y generar una descripción detallada en texto.
|
26 |
+
3. **Generación de Audio**: La descripción generada en texto se usa como entrada para el modelo `microsoft/speecht5_tts`, que convierte el texto en una salida de voz en formato de audio.
|
27 |
+
|
28 |
+
## **Modelos Utilizados**
|
29 |
+
|
30 |
+
- **Salesforce/blip-image-captioning-large**:
|
31 |
+
- Tipo: **Image-to-Text**.
|
32 |
+
- Este modelo es responsable de generar descripciones detalladas y coherentes a partir de imágenes. Es ideal para tareas de captioning (generación de texto a partir de imágenes) y proporciona una representación precisa del contenido visual.
|
33 |
+
|
34 |
+
- **microsoft/speecht5_tts**:
|
35 |
+
- Tipo: **Text-to-Speech**.
|
36 |
+
- Este modelo convierte el texto generado por `blip-image-captioning-large` en una locución fluida y natural, utilizando tecnologías avanzadas de síntesis de voz (TTS). El modelo puede leer el texto en voz alta de manera clara, adecuada para aplicaciones de accesibilidad o experiencias interactivas.
|
37 |
+
|
38 |
+
## **Características Principales**
|
39 |
+
|
40 |
+
- **Interfaz Gradio**: La interfaz está construida con **Gradio**, proporcionando una experiencia simple y directa donde los usuarios pueden cargar imágenes y escuchar o leer la descripción generada.
|
41 |
+
- **Generación de Texto y Audio**: Dos tipos de salida se generan para cada imagen: texto descriptivo y voz sintética, lo que lo convierte en una herramienta accesible tanto para usuarios visuales como auditivos.
|
42 |
+
- **Aplicaciones Potenciales**:
|
43 |
+
- **Accesibilidad**: Ayuda a personas con discapacidades visuales a comprender el contenido de las imágenes.
|
44 |
+
- **Educación**: Puede utilizarse en entornos educativos para mejorar la interacción con contenidos visuales.
|
45 |
+
- **Automatización**: Útil en sistemas automatizados que requieren análisis y descripción de imágenes en tiempo real.
|
46 |
+
|
47 |
+
## **Instrucciones de Uso**
|
48 |
+
|
49 |
+
1. **Sube una imagen**: Haz clic en el área de carga para elegir una fotografía desde tu dispositivo.
|
50 |
+
2. **Obtén la descripción**: La aplicación generará automáticamente una descripción de la imagen en formato de texto.
|
51 |
+
3. **Escucha la descripción**: El texto generado se convierte en una locución, que puedes escuchar a través de la aplicación.
|
52 |
|
53 |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
|