Spaces:

Segizu
/

CLONE_VOICE

Running

App Files Files Community

Segizu commited on Feb 16

Commit

52937bd

1 Parent(s): 798b2e1

clonar voz

Browse files

Files changed (4) hide show

__pycache__/utils.cpython-39.pyc +0 -0
app.py +54 -0
requirements.txt +5 -0
utils.py +32 -0

__pycache__/utils.cpython-39.pyc ADDED Viewed

Binary file (1.46 kB). View file

app.py ADDED Viewed

	@@ -0,0 +1,54 @@

+# app.py
+import streamlit as st
+import tempfile
+from utils import VoiceCloner
+def main():
+    st.title("Clonación de Voz en Español")
+    st.write("""
+    Esta aplicación de ejemplo utiliza **Coqui TTS** (YourTTS) para
+    realizar clonación de voz en español mediante zero-shot.
+    """)
+    # Creamos una instancia del clonador de voz
+    voice_cloner = VoiceCloner()
+    # Entrada de texto
+    text_input = st.text_area("Ingresa el texto a reproducir:", "")
+    # Carga de archivo de audio (WAV o MP3)
+    uploaded_audio = st.file_uploader("Sube una nota de voz o audio de referencia", type=["wav", "mp3"])
+    # Botón para generar la voz clonada
+    if st.button("Generar voz clonada"):
+        # Validaciones básicas
+        if not text_input:
+            st.warning("Por favor, ingresa un texto.")
+        elif not uploaded_audio:
+            st.warning("Por favor, sube un archivo de audio de referencia.")
+        else:
+            # Guardamos temporalmente el audio subido
+            with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
+                tmp.write(uploaded_audio.read())
+                reference_audio_path = tmp.name
+            # Definimos un archivo de salida
+            output_path = "cloned_voice.wav"
+            # Llamamos a la función que clona la voz
+            result_audio_path = voice_cloner.clone_voice(
+                text=text_input,
+                reference_audio_path=reference_audio_path,
+                output_path=output_path
+            )
+            st.success("¡Voz clonada generada con éxito!")
+            # Leemos el audio generado y lo reproducimos
+            with open(result_audio_path, "rb") as audio_file:
+                audio_bytes = audio_file.read()
+                st.audio(audio_bytes, format="audio/wav")
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit
+TTS
+torch
+torchaudio
+numpy

utils.py ADDED Viewed

	@@ -0,0 +1,32 @@

+# utils.py
+import os
+from TTS.api import TTS
+class VoiceCloner:
+    def __init__(self, model_name: str = "tts_models/multilingual/multi-dataset/your_tts"):
+        """
+        Inicializa el clonador de voz cargando el modelo de TTS.
+        :param model_name: Nombre del modelo preentrenado para TTS.
+        """
+        self.model_name = model_name
+        self.model = TTS(model_name)
+    def clone_voice(self, text: str, reference_audio_path: str, output_path: str = "output.wav") -> str:
+        """
+        Genera un archivo de audio con la voz clonada a partir de un audio de referencia.
+        :param text: El texto que se desea sintetizar.
+        :param reference_audio_path: Path del archivo de audio que servirá como referencia de voz.
+        :param output_path: Path de salida para el archivo de audio resultante.
+        :return: Path del archivo de audio generado.
+        """
+        # 'YourTTS' permite zero-shot voice cloning siempre que se provea speaker_wav con el audio de referencia
+        # Si quieres forzar el idioma a español, puedes usar el parámetro language="es"
+        self.model.tts_to_file(
+            text=text,
+            speaker_wav=reference_audio_path,
+            language="es",
+            file_path=output_path
+        )
+        return output_path