mainmainminavoiceclone

Running

App Files Files Community

Uniaff commited on Nov 18, 2024

Commit

5967f17

verified ·

1 Parent(s): 6cd8aed

Update app.py

Browse files

Files changed (1) hide show

app.py +154 -69

app.py CHANGED Viewed

@@ -10,6 +10,8 @@ import numpy as np
 import torch
 import torchaudio
 from resemble_enhance.enhancer.inference import denoise
 # Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
@@ -17,6 +19,17 @@ os.environ["COQUI_TOS_AGREED"] = "1"
 # Определение устройства (CUDA или CPU)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
@@ -63,23 +76,52 @@ def check_audio_length(audio_path, max_duration=120):
         print(f"Error while checking audio length: {e}")
         return False
-def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
-    # Синтез речи с помощью TTS
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
-    # Преобразование wav_data из списка в NumPy массив с типом float32
     wav_data_np = np.array(wav_data, dtype=np.float32)
-    # Нормализация данных, если необходимо
-    max_val = np.max(np.abs(wav_data_np))
-    if max_val > 1.0:
-        wav_data_np = wav_data_np / max_val
-    # Масштабирование до int16 для записи в WAV файл
     wav_data_int16 = np.int16(wav_data_np * 32767)
-    # Сохранение синтезированного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
         write(temp_tts_wav_path, 22050, wav_data_int16)
@@ -87,41 +129,69 @@ def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
     # Загрузка синтезированного аудио
     wav_tensor, sample_rate = torchaudio.load(temp_tts_wav_path)
-    # Преобразование в моно, если аудио стерео
-    if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
-    # Применение денойзинга (не перемещаем wav_tensor на устройство)
-    denoised_wav_tensor, denoised_sample_rate = denoise(wav_tensor.squeeze(), sample_rate, device)
     # Сохранение денойзенного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_wav_file:
         temp_denoised_wav_path = temp_denoised_wav_file.name
-        torchaudio.save(temp_denoised_wav_path, denoised_wav_tensor.unsqueeze(0).cpu(), denoised_sample_rate)
-    # Преобразование голоса с использованием денойзенного аудио
-    tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
-    # Подготовка временного выходного файла
-    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
-        temp_output_wav_path = temp_output_wav_file.name
-    # Преобразование голоса
-    tts_conversion.voice_conversion_to_file(temp_denoised_wav_path, target_wav=voice_audio_path,
-                                            file_path=temp_output_wav_path)
-    # Чтение преобразованного аудио
-    output_sample_rate, output_audio_data = read(temp_output_wav_path)
-    # Удаление временных файлов
-    os.remove(temp_tts_wav_path)
-    os.remove(temp_denoised_wav_path)
-    os.remove(temp_output_wav_path)
-    return (output_sample_rate, output_audio_data)
-def synthesize_speech(text, speaker_wav_path, language_iso, speed):
     # Загрузка аудио говорящего
     speaker_wav_tensor, speaker_sample_rate = torchaudio.load(speaker_wav_path)
@@ -161,38 +231,37 @@ def synthesize_speech(text, speaker_wav_path, language_iso, speed):
     if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
-    # Сохранение сгенерированного аудио во временный файл для voice cloning
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_vc_input_file:
         temp_vc_input_path = temp_vc_input_file.name
         torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
-    # Инициализация модели voice conversion
-    tts_conversion = TTS(
-        model_name="voice_conversion_models/multilingual/vctk/freevc24",
-        progress_bar=False
     )
-    # Подготовка временного выходного файла
-    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
-        temp_output_wav_path = temp_output_wav_file.name
-    # Преобразование голоса
-    tts_conversion.voice_conversion_to_file(
-        temp_vc_input_path,
-        target_wav=temp_denoised_speaker_path,
-        file_path=temp_output_wav_path
-    )
-    # Чтение преобразованного аудио
-    output_sample_rate, output_audio_data = read(temp_output_wav_path)
     # Удаление временных файлов
     os.remove(temp_denoised_speaker_path)
     os.remove(temp_tts_output_path)
     os.remove(temp_vc_input_path)
-    os.remove(temp_output_wav_path)
-    return (output_sample_rate, output_audio_data)
 def get_language_code(selected_language):
     if selected_language in language_options:
@@ -203,30 +272,46 @@ def get_language_code(selected_language):
         return None
 def process_speech(text, speaker_wav_path, selected_language, speed):
     language_code = get_language_code(selected_language)
     if language_code is None:
         raise ValueError("Выбранный язык не поддерживается.")
     if speaker_wav_path is None:
-        error_message = "Пожалуйста, загрузите аудио файл говорящего."
-        error = gr.Error(error_message, duration=5)
-        raise error
     # Проверка длины аудио
-    audio = AudioSegment.from_file(speaker_wav_path)
-    duration = audio.duration_seconds
-    if duration > 120:
-        error_message = "Длина аудио превышает допустимый лимит в 2 минуты."
-        error = gr.Error(error_message, duration=5)
-        raise error
-    if selected_language in other_language:
-        output_audio_data = synthesize_and_convert_voice(text, language_code, speaker_wav_path, speed)
-    else:
-        output_audio_data = synthesize_speech(text, speaker_wav_path, language_code, speed)
-    return output_audio_data
 def restart_program():
     python = sys.executable
@@ -363,4 +448,4 @@ with gr.Blocks() as app:
         )
 if __name__ == "__main__":
-    launch_gradio()

 import torch
 import torchaudio
 from resemble_enhance.enhancer.inference import denoise
+from seedvc import voice_conversion
 # Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Определение устройства (CUDA или CPU)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+def normalize_audio(wave):
+    """
+    Нормализует аудиосигнал так, чтобы максимальное абсолютное значение было <= 1.0
+    """
+    max_val = np.max(np.abs(wave))
+    if max_val > 1.0:
+        wave = wave / max_val
+    return wave
 # Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
         print(f"Error while checking audio length: {e}")
         return False
+def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed, device='cpu'):
+    """
+    Синтезирует речь на основе текста, выполняет денойзинг для клонируемого аудио и преобразование голоса.
+    Параметры:
+    - text (str): Текст для синтеза речи.
+    - language_iso (str): ISO-код языка для TTS.
+    - voice_audio_path (str): Путь к аудио-файлу для клонирования голоса.
+    - speed (float): Скорость синтеза речи.
+    - device (str): Устройство для обработки (например, 'cpu' или 'cuda').
+    Возвращает:
+    - tuple: (частота дискретизации, numpy массив аудио данных)
+    """
+    # Загрузка аудио для клонирования
+    voice_wav_tensor, voice_sample_rate = torchaudio.load(voice_audio_path)
+    # Преобразование в моно, если аудио стерео
+    if voice_wav_tensor.dim() > 1:
+        voice_wav_tensor = voice_wav_tensor.mean(dim=0, keepdim=True)
+    # Применение денойзинга к аудио для клонирования
+    denoised_voice_wav_tensor, denoised_voice_sample_rate = denoise(
+        voice_wav_tensor.squeeze(), voice_sample_rate, device=device
+    )
+    # Сохранение денойзенного аудио во временный файл
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_voice_file:
+        temp_denoised_voice_path = temp_denoised_voice_file.name
+        torchaudio.save(
+            temp_denoised_voice_path,
+            denoised_voice_wav_tensor.unsqueeze(0).cpu(),
+            denoised_voice_sample_rate
+        )
+    # Синтез речи с использованием TTS
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
+    # Преобразование в NumPy массив и нормализация
     wav_data_np = np.array(wav_data, dtype=np.float32)
+    wav_data_np = wav_data_np / max(1.0, np.max(np.abs(wav_data_np)))
+    # Масштабирование до int16 и временное сохранение
     wav_data_int16 = np.int16(wav_data_np * 32767)
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
         write(temp_tts_wav_path, 22050, wav_data_int16)
     # Загрузка синтезированного аудио
     wav_tensor, sample_rate = torchaudio.load(temp_tts_wav_path)
+    # Преобразование в моно, если требуется
+    if wav_tensor.dim() > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
+    # Применение денойзинга
+    denoised_wav_tensor, denoised_sample_rate = denoise(wav_tensor.squeeze(), sample_rate, device=device)
+    # Преобразование денойзенного тензора в NumPy массив
+    denoised_wav_np = denoised_wav_tensor.cpu().numpy()
+    # Масштабирование денойзенного аудио до int16
+    denoised_wav_int16 = np.int16(denoised_wav_np * 32767)
     # Сохранение денойзенного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_wav_file:
         temp_denoised_wav_path = temp_denoised_wav_file.name
+        write(temp_denoised_wav_path, denoised_sample_rate, denoised_wav_int16)
+    # Параметры для voice_conversion
+    diffusion_steps = 30
+    length_adjust = 1.0
+    inference_cfg_rate = 0.6
+    f0_condition = True
+    auto_f0_adjust = True
+    pitch_shift = 0
+    # Вызов функции voice_conversion
+    output_sample_rate, output_audio_data = voice_conversion(
+        source=temp_denoised_wav_path,
+        target=temp_denoised_voice_path,
+        diffusion_steps=diffusion_steps,
+        length_adjust=length_adjust,
+        inference_cfg_rate=inference_cfg_rate,
+        f0_condition=f0_condition,
+        auto_f0_adjust=auto_f0_adjust,
+        pitch_shift=pitch_shift
+    )
+    # Очистка временных файлов
+    os.remove(temp_denoised_voice_path)
+    os.remove(temp_tts_wav_path)
+    os.remove(temp_denoised_wav_path)
+    return output_sample_rate, output_audio_data
+def synthesize_speech(text, speaker_wav_path, language_iso, speed, device='cpu'):
+    """
+    Синтезирует речь на основе текста, предварительно очищая входящее аудио от шумов
+    и выполняя преобразование голоса с помощью функции voice_conversion.
+    Параметры:
+    - text (str): Текст для синтеза речи.
+    - speaker_wav_path (str): Путь к аудио говорящего для клонирования голоса.
+    - language_iso (str): ISO-код языка для TTS.
+    - speed (float): Скорость синтеза речи.
+    - device (str): Устройство для обработки (например, 'cpu' или 'cuda').
+    Возвращает:
+    - tuple: (частота дискретизации, numpy массив аудио данных)
+    """
     # Загрузка аудио говорящего
     speaker_wav_tensor, speaker_sample_rate = torchaudio.load(speaker_wav_path)
     if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
+    # Сохранение сгенерированного аудио во временный файл для voice_conversion
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_vc_input_file:
         temp_vc_input_path = temp_vc_input_file.name
         torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
+    # Параметры для voice_conversion
+    diffusion_steps = 30
+    length_adjust = 1.0
+    inference_cfg_rate = 0.6
+    f0_condition = True
+    auto_f0_adjust = True
+    pitch_shift = 0
+    # Вызов функции voice_conversion
+    output_sample_rate, output_audio_data = voice_conversion(
+        source=temp_vc_input_path,
+        target=temp_denoised_speaker_path,
+        diffusion_steps=diffusion_steps,
+        length_adjust=length_adjust,
+        inference_cfg_rate=inference_cfg_rate,
+        f0_condition=f0_condition,
+        auto_f0_adjust=auto_f0_adjust,
+        pitch_shift=pitch_shift
     )
     # Удаление временных файлов
     os.remove(temp_denoised_speaker_path)
     os.remove(temp_tts_output_path)
     os.remove(temp_vc_input_path)
+    return output_sample_rate, output_audio_data
 def get_language_code(selected_language):
     if selected_language in language_options:
         return None
 def process_speech(text, speaker_wav_path, selected_language, speed):
+    """
+    Обрабатывает текст, выполняет синтез речи и голосовое клонирование,
+    а также возвращает путь к сгенерированному аудио-файлу.
+    """
     language_code = get_language_code(selected_language)
     if language_code is None:
         raise ValueError("Выбранный язык не поддерживается.")
     if speaker_wav_path is None:
+        raise ValueError("Пожалуйста, загрузите аудио файл говорящего.")
     # Проверка длины аудио
+    try:
+        audio = AudioSegment.from_file(speaker_wav_path)
+        duration = audio.duration_seconds
+        if duration > 120:
+            raise ValueError("Длина аудио превышает допустимый лимит в 2 минуты.")
+    except Exception as e:
+        raise ValueError(f"Ошибка при проверке аудио: {e}")
+    try:
+        if selected_language in other_language:
+            output_sample_rate, output_audio_data = synthesize_and_convert_voice(
+                text, language_code, speaker_wav_path, speed
+            )
+        else:
+            output_sample_rate, output_audio_data = synthesize_speech(
+                text, speaker_wav_path, language_code, speed
+            )
+        # Сохранение результата в файл для вывода
+        with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_file:
+            temp_output_path = temp_output_file.name
+            write(temp_output_path, output_sample_rate, output_audio_data)
+        return temp_output_path  # Возвращаем путь к сгенерированному аудио
+    except Exception as e:
+        raise ValueError(f"Ошибка при обработке речи: {e}")
 def restart_program():
     python = sys.executable
         )
 if __name__ == "__main__":
+    launch_gradio()