mainmainminavoiceclone

Running

App Files Files Community

Uniaff commited on Nov 2, 2024

Commit

77e9d69

verified ·

1 Parent(s): 473beda

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -14

app.py CHANGED Viewed

@@ -7,8 +7,9 @@ from pydub import AudioSegment
 import tempfile
 from scipy.io.wavfile import write, read
 from TTS.api import TTS
-# # Set environment variables to accept license terms
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Глобальные переменные и настройки
@@ -59,49 +60,63 @@ def check_audio_length(audio_path, max_duration=120):
 def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
-    # Write wav_data to temporary file
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
-        write(temp_tts_wav_path, 22050, wav_data)
-    # Prepare output temporary file
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
     tts_conversion.voice_conversion_to_file(temp_tts_wav_path, target_wav=voice_audio_path,
                                             file_path=temp_output_wav_path)
-    # Read converted audio from temp_output_wav_path
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
-    # Remove temporary files
     os.remove(temp_tts_wav_path)
     os.remove(temp_output_wav_path)
     return (output_sample_rate, output_audio_data)
 def synthesize_speech(text, speaker_wav_path, language_iso, speed):
-    # Generate speech using tts and save to temporary file
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_output:
         temp_tts_output_path = temp_tts_output.name
         tts.tts_to_file(text=text, file_path=temp_tts_output_path, speed=speed,
-                        speaker_wav=speaker_wav_path, language=language_iso)
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
-    # Prepare output temporary file
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
     tts_conversion.voice_conversion_to_file(temp_tts_output_path, target_wav=speaker_wav_path,
-                                            file_path=temp_output_wav_path)
-    # Read converted audio from temp_output_wav_path
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
-    # Remove temporary files
     os.remove(temp_tts_output_path)
     os.remove(temp_output_wav_path)
@@ -126,7 +141,7 @@ def process_speech(text, speaker_wav_path, selected_language, speed):
         error = gr.Error(error_message, duration=5)
         raise error
-    # Check audio length
     audio = AudioSegment.from_file(speaker_wav_path)
     duration = audio.duration_seconds
     if duration > 120:
@@ -273,7 +288,7 @@ with gr.Blocks() as app:
     def launch_gradio():
         app.launch(
         )
 if __name__ == "__main__":

 import tempfile
 from scipy.io.wavfile import write, read
 from TTS.api import TTS
+import numpy as np  # Добавлен импорт NumPy
+# Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Глобальные переменные и настройки
 def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
+    # Преобразование wav_data из списка в NumPy массив с типом float32
+    wav_data_np = np.array(wav_data, dtype=np.float32)
+    # Нормализация данных, если необходимо
+    max_val = np.max(np.abs(wav_data_np))
+    if max_val > 1.0:
+        wav_data_np = wav_data_np / max_val
+    # Масштабирование до int16 для записи в WAV файл
+    wav_data_int16 = np.int16(wav_data_np * 32767)
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
+    # Запись wav_data_int16 во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
+        write(temp_tts_wav_path, 22050, wav_data_int16)  # Используем массив int16
+    # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
+    # Преобразование голоса
     tts_conversion.voice_conversion_to_file(temp_tts_wav_path, target_wav=voice_audio_path,
                                             file_path=temp_output_wav_path)
+    # Чтение преобразованного аудио из temp_output_wav_path
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
+    # Удаление временных файлов
     os.remove(temp_tts_wav_path)
     os.remove(temp_output_wav_path)
     return (output_sample_rate, output_audio_data)
 def synthesize_speech(text, speaker_wav_path, language_iso, speed):
+    # Генерация речи с помощью tts и сохранение во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_output:
         temp_tts_output_path = temp_tts_output.name
         tts.tts_to_file(text=text, file_path=temp_tts_output_path, speed=speed,
+                       speaker_wav=speaker_wav_path, language=language_iso)
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
+    # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
+    # Преобразование голоса
     tts_conversion.voice_conversion_to_file(temp_tts_output_path, target_wav=speaker_wav_path,
+                                           file_path=temp_output_wav_path)
+    # Чтение преобразованного аудио из temp_output_wav_path
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
+    # Удаление временных файлов
     os.remove(temp_tts_output_path)
     os.remove(temp_output_wav_path)
         error = gr.Error(error_message, duration=5)
         raise error
+    # Проверка длины аудио
     audio = AudioSegment.from_file(speaker_wav_path)
     duration = audio.duration_seconds
     if duration > 120:
     def launch_gradio():
         app.launch(
+            # Вы можете добавить параметры запуска здесь, если необходимо
         )
 if __name__ == "__main__":