---
title: VideoAvatar
emoji: 🧑‍🎤
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.32.1
app_file: app.py
pinned: true
license: mit
---

# 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado

Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO.

## 🧠 Flujo de trabajo:

1. Grabación de voz desde el navegador.
2. Transcripción automática usando `openai/whisper-large`.
3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`).
4. Conversión texto → voz (`gTTS`).
5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO).

## 🗂 Estructura

- `app.py`: punto de entrada para Spaces.
- `src/`: módulos de procesamiento.
- `assets/`: contiene videos y audios.
- `results/`: salidas del sistema (audio TTS, video final, transcripción).

## ✅ Requisitos

Declarados en `requirements.txt`. Incluye:
- `gradio`
- `transformers`
- `torch`
- `librosa`
- `soundfile`
- `gtts`
- `openvino`
- `opencv-python-headless`
- `python-dotenv`

## 🚧 Notas

> Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`.

---

¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente?