--- title: VideoAvatar emoji: 🧑‍🎤 colorFrom: blue colorTo: red sdk: gradio sdk_version: 5.32.1 app_file: app.py pinned: true license: mit --- # 🎥 VideoAvatar - IA de Sincronización Labial con Audio Personalizado Este proyecto permite grabar audio directamente desde el navegador, transcribirlo con modelos `Whisper`, generar una respuesta con `OpenAI GPT-4`, sintetizar voz con `gTTS` y generar un video sincronizado usando `Wav2Lip` en su versión optimizada con OpenVINO. ## 🧠 Flujo de trabajo: 1. Grabación de voz desde el navegador. 2. Transcripción automática usando `openai/whisper-large`. 3. Generación de respuesta con GPT-4 (`langchain` + `OpenAI API`). 4. Conversión texto → voz (`gTTS`). 5. Procesamiento final de video con sincronización labial (`Wav2Lip` + OpenVINO). ## 🗂 Estructura - `app.py`: punto de entrada para Spaces. - `src/`: módulos de procesamiento. - `assets/`: contiene videos y audios. - `results/`: salidas del sistema (audio TTS, video final, transcripción). ## ✅ Requisitos Declarados en `requirements.txt`. Incluye: - `gradio` - `transformers` - `torch` - `librosa` - `soundfile` - `gtts` - `openvino` - `opencv-python-headless` - `python-dotenv` ## 🚧 Notas > Este proyecto requiere que los modelos `.xml` de OpenVINO estén preconvertidos y accesibles. Si se ejecuta fuera de Hugging Face, asegúrate de usar `convert_models.py` y tener los modelos en `models/`. --- ¿Deseas que lo genere automáticamente en un archivo para que lo agregues al repo (`README.md`) o prefieres copiarlo tú manualmente?