import gradio as gr from TTS.api import TTS model_id = "tts_models/multilingual/multi-dataset/xtts_v1" device = "cuda" tts = TTS(model_id) tts.to(device) def predict(prompt, audio_file_pth): tts.tts_to_file( text=prompt, file_path="output.wav", speaker_wav=audio_file_pth, language="es" ) return ( gr.make_waveform( audio="output.wav", ), "output.wav", ) title = "Coqui 🐸 XTTS - Spanish Demo" description = """ XTTS es un modelo de generación de voz que te permite clonar voces en diferentes idiomas usando solo un clip de audio rápido de 3 segundos.
Construido sobre Tortoise, XTTS ha sufrido cambios importantes en el modelo que facilitan la clonación de voz entre idiomas y la generación de voz multilingüe.
Este es el mismo modelo que alimenta Coqui Studio y Coqui API, sin embargo, aplicamos algunos trucos para hacerlo más rápido y soportar inferencia en streaming.

""" article = """

By using this demo you agree to the terms of the Coqui Public Model License at https://coqui.ai/cpml

""" gr.Interface( fn=predict, inputs=[ gr.Textbox( label="Texto", info="Una o dos frases es suficiente-", value="Clibrain es una empresa que desarrolla soluciones basadas en inteligencia artificial en español.", ), gr.Audio( label="Audio de referencia", info="Haz clic en el botón ✎ para subir tu propio audio o del hablante objetivo", type="filepath", value="examples/female_es.wav", ), ], outputs=[ gr.Video(label="Waveform Visual"), gr.Audio(label="Synthesised Audio"), ], title=title, description=description, article=article, #examples=examples, ).queue().launch(debug=True)