DGutierrez81 commited on
Commit
e120916
·
verified ·
1 Parent(s): 605860b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +38 -2
README.md CHANGED
@@ -10,8 +10,44 @@ pinned: false
10
  short_description: Comment on an image in writing and through audio.
11
  ---
12
 
13
- # Nombre del Proyecto
14
 
15
- ¡Bienvenido a mi Space en Hugging Face! 🚀
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16
 
17
  Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
10
  short_description: Comment on an image in writing and through audio.
11
  ---
12
 
13
+ # Descripción del Proyecto
14
 
15
+ ## **Generación Automática de Comentarios en Texto y Audio a partir de Imágenes**
16
+
17
+ Este proyecto utiliza modelos avanzados de inteligencia artificial para generar descripciones automáticas de imágenes y luego convertir esas descripciones en audio. A través de una interfaz interactiva desarrollada con **Gradio**, los usuarios pueden cargar una fotografía y recibir una respuesta en dos formatos:
18
+
19
+ 1. **Texto**: El modelo de IA genera una descripción detallada de la imagen cargada.
20
+ 2. **Audio**: A partir de la descripción generada en texto, se utiliza un modelo de **síntesis de voz** para convertir el texto en una locución de alta calidad.
21
+
22
+ ## **Flujo de Trabajo**
23
+
24
+ 1. **Entrada de la Imagen**: El usuario carga una fotografía en la aplicación.
25
+ 2. **Generación de Descripción en Texto**: Usamos el modelo `Salesforce/blip-image-captioning-large`, un modelo preentrenado de tipo **image-to-text**, para analizar la imagen y generar una descripción detallada en texto.
26
+ 3. **Generación de Audio**: La descripción generada en texto se usa como entrada para el modelo `microsoft/speecht5_tts`, que convierte el texto en una salida de voz en formato de audio.
27
+
28
+ ## **Modelos Utilizados**
29
+
30
+ - **Salesforce/blip-image-captioning-large**:
31
+ - Tipo: **Image-to-Text**.
32
+ - Este modelo es responsable de generar descripciones detalladas y coherentes a partir de imágenes. Es ideal para tareas de captioning (generación de texto a partir de imágenes) y proporciona una representación precisa del contenido visual.
33
+
34
+ - **microsoft/speecht5_tts**:
35
+ - Tipo: **Text-to-Speech**.
36
+ - Este modelo convierte el texto generado por `blip-image-captioning-large` en una locución fluida y natural, utilizando tecnologías avanzadas de síntesis de voz (TTS). El modelo puede leer el texto en voz alta de manera clara, adecuada para aplicaciones de accesibilidad o experiencias interactivas.
37
+
38
+ ## **Características Principales**
39
+
40
+ - **Interfaz Gradio**: La interfaz está construida con **Gradio**, proporcionando una experiencia simple y directa donde los usuarios pueden cargar imágenes y escuchar o leer la descripción generada.
41
+ - **Generación de Texto y Audio**: Dos tipos de salida se generan para cada imagen: texto descriptivo y voz sintética, lo que lo convierte en una herramienta accesible tanto para usuarios visuales como auditivos.
42
+ - **Aplicaciones Potenciales**:
43
+ - **Accesibilidad**: Ayuda a personas con discapacidades visuales a comprender el contenido de las imágenes.
44
+ - **Educación**: Puede utilizarse en entornos educativos para mejorar la interacción con contenidos visuales.
45
+ - **Automatización**: Útil en sistemas automatizados que requieren análisis y descripción de imágenes en tiempo real.
46
+
47
+ ## **Instrucciones de Uso**
48
+
49
+ 1. **Sube una imagen**: Haz clic en el área de carga para elegir una fotografía desde tu dispositivo.
50
+ 2. **Obtén la descripción**: La aplicación generará automáticamente una descripción de la imagen en formato de texto.
51
+ 3. **Escucha la descripción**: El texto generado se convierte en una locución, que puedes escuchar a través de la aplicación.
52
 
53
  Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference