Pedro_Lab_XTTS_demo

Paused

App Files Files

Blakus commited on Sep 18, 2024

Commit

293a3de

verified ·

1 Parent(s): aa65645

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -8

app.py CHANGED Viewed

@@ -2,12 +2,28 @@ import gradio as gr
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
-# Cargar el modelo XTTS (asumiendo que ya está descargado y configurado)
 config = XttsConfig()
-config.load_json("ruta/al/config.json")
 model = Xtts.init_from_config(config)
-model.load_checkpoint(config, checkpoint_path="ruta/al/modelo.pth")
 def sintetizar_voz(texto, idioma, audio_referencia, usar_microfono, audio_microfono):
     if usar_microfono:
@@ -15,11 +31,22 @@ def sintetizar_voz(texto, idioma, audio_referencia, usar_microfono, audio_microf
     else:
         audio_entrada = audio_referencia
-    # Aquí iría la lógica de síntesis de voz usando el modelo XTTS
-    # Por simplicidad, este es un placeholder
-    audio_salida = model.tts(texto, speaker_wav=audio_entrada, language=idioma)
-    return audio_salida, "Métricas de síntesis irían aquí"
 with gr.Blocks(theme=gr.themes.Base()) as demo:
     gr.Markdown("# Sintetizador de Voz XTTS")
@@ -27,7 +54,7 @@ with gr.Blocks(theme=gr.themes.Base()) as demo:
     with gr.Row():
         with gr.Column():
             texto_entrada = gr.Textbox(label="Texto a sintetizar", placeholder="Escribe aquí el texto que quieres convertir a voz...")
-            idioma = gr.Dropdown(label="Idioma", choices=["es", "en", "fr", "de", "it"], value="es")
             audio_referencia = gr.Audio(label="Audio de referencia", type="filepath")
             usar_microfono = gr.Checkbox(label="Usar micrófono")
             audio_microfono = gr.Audio(label="Grabar con micrófono", source="microphone", type="filepath", visible=False)

 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
+from TTS.utils.generic_utils import get_user_data_dir
+import os
+from huggingface_hub import hf_hub_download
+# Configuración de rutas y descarga del modelo
+repo_id = "Blakus/Pedro_Lab_XTTS"
+local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
+os.makedirs(local_dir, exist_ok=True)
+files_to_download = ["config.json", "model.pth", "vocab.json"]
+for file_name in files_to_download:
+    hf_hub_download(repo_id=repo_id, filename=file_name, local_dir=local_dir)
+config_path = os.path.join(local_dir, "config.json")
+checkpoint_path = os.path.join(local_dir, "model.pth")
+vocab_path = os.path.join(local_dir, "vocab.json")
+# Cargar el modelo XTTS
 config = XttsConfig()
+config.load_json(config_path)
 model = Xtts.init_from_config(config)
+model.load_checkpoint(config, checkpoint_path=checkpoint_path, vocab_path=vocab_path, eval=True, use_deepspeed=False)
 def sintetizar_voz(texto, idioma, audio_referencia, usar_microfono, audio_microfono):
     if usar_microfono:
     else:
         audio_entrada = audio_referencia
+    # Lógica de síntesis de voz usando el modelo XTTS
+    gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=audio_entrada, gpt_cond_len=30, gpt_cond_chunk_len=4, max_ref_length=60)
+    out = model.inference(
+        texto,
+        language=idioma,
+        gpt_cond_latent=gpt_cond_latent,
+        speaker_embedding=speaker_embedding,
+        repetition_penalty=5.0,
+        temperature=0.75,
+    )
+    # Guardar el audio generado
+    output_path = "output.wav"
+    model.save_wav(wav=out["wav"], path=output_path)
+    return output_path, f"Tiempo de generación: {out['inference_time']:.2f} segundos"
 with gr.Blocks(theme=gr.themes.Base()) as demo:
     gr.Markdown("# Sintetizador de Voz XTTS")
     with gr.Row():
         with gr.Column():
             texto_entrada = gr.Textbox(label="Texto a sintetizar", placeholder="Escribe aquí el texto que quieres convertir a voz...")
+            idioma = gr.Dropdown(label="Idioma", choices=config.languages, value="es")
             audio_referencia = gr.Audio(label="Audio de referencia", type="filepath")
             usar_microfono = gr.Checkbox(label="Usar micrófono")
             audio_microfono = gr.Audio(label="Grabar con micrófono", source="microphone", type="filepath", visible=False)