Cloning_Box

Build error

App Files Files Community

Kremon96 commited on 6 days ago

Commit

12cef9b

verified ·

1 Parent(s): 102d284

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -75

app.py CHANGED Viewed

@@ -1,85 +1,55 @@
-import torch
 import numpy as np
-import soundfile as sf
 import gradio as gr
-from pathlib import Path
-from encoder import inference as encoder
-from synthesizer.inference import Synthesizer
-from vocoder import inference as vocoder
-import librosa
-# Определение устройства
-device = "cuda" if torch.cuda.is_available() else "cpu"
-print(f"Используется устройство: {device}")
 # Инициализация моделей
-def init_models():
-    # Пути к весам
-    encoder_path = Path("model_weights/encoder.pt")
-    syn_path = Path("model_weights/synthesizer.pt")
-    vocoder_path = Path("model_weights/vocoder.pt")
-    # Загрузка моделей с явным указанием устройства
-    encoder.load_model(encoder_path, device=device)
-    synthesizer = Synthesizer(syn_path)
-    # Исправление для вокодера
-    vocoder.load_model(vocoder_path)
-    if device == "cuda":
-        vocoder.set_device(torch.device("cuda"))
-    return synthesizer
-synthesizer = init_models()
-def clone_voice(reference_audio_path, text, output_sample_rate=22050):
-    try:
-        # Препроцессинг референсного аудио
-        preprocessed_wav = encoder.preprocess_wav(reference_audio_path)
-        # Извлечение эмбеддинга голоса (важное исправление!)
-        embed = encoder.embed_utterance(preprocessed_wav)
-        # Синтез спектрограммы (передаем numpy array напрямую)
-        specs = synthesizer.synthesize_spectrograms([text], [embed])
-        spec = specs[0]
-        # Синтез аудио с помощью WaveNet
-        generated_wav = vocoder.infer_waveform(spec)
-        # Постобработка аудио
-        generated_wav = np.pad(generated_wav, (0, synthesizer.sample_rate), mode="constant")
-        generated_wav = encoder.preprocess_wav(generated_wav)
-        # Сохранение файла
-        output_file = "output.wav"
-        sf.write(output_file, generated_wav, output_sample_rate)
-        return output_file
-    except Exception as e:
-        print(f"Ошибка при синтезе: {str(e)}")
-        raise gr.Error(f"Ошибка синтеза: {str(e)}")
-def gradio_interface(input_audio, input_text):
-    if input_audio is None or not input_text.strip():
-        raise gr.Error("Загрузите аудио и введите текст")
-    return clone_voice(input_audio, input_text)
 # Интерфейс Gradio
-inputs = [
-    gr.Audio(sources=["upload", "microphone"], type="filepath", label="Референсное аудио (10-60 сек)"),
-    gr.Textbox(label="Текст для синтеза", placeholder="Введите текст здесь...")
-]
-outputs = gr.Audio(label="Синтезированный голос", type="filepath")
-interface = gr.Interface(
-    fn=gradio_interface,
-    inputs=inputs,
-    outputs=outputs,
-    title="Клонирование голоса",
-    description="Загрузите образец голоса и введите текст для синтеза"
-)
 if __name__ == "__main__":
-    interface.launch(server_port=7860, share=True)

+import os
 import numpy as np
 import gradio as gr
+from rvc_infer import RVCModel
+from tts import TortoiseTTS
+import tempfile
 # Инициализация моделей
+tts = TortoiseTTS(device='cuda' if torch.cuda.is_available() else 'cpu')
+rvc_models = {
+    'russian': RVCModel(
+        'models/rvc_models/russian_voice/model.pth',
+        'models/rvc_models/russian_voice/model.index'
+    ),
+    'multilingual': RVCModel(
+        'models/rvc_models/multilingual_voice/model.pth',
+        'models/rvc_models/multilingual_voice/model.index'
+    )
+}
+def clone_voice(text, voice_type):
+    # Генерация речи с помощью Tortoise
+    wav, sr = tts.text_to_speech(text, speaker=voice_type)
+    # Конвертация с помощью RVC
+    converted_audio = rvc_models[voice_type].infer(wav)
+    # Сохранение во временный файл
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as fp:
+        wavfile.write(fp.name, 16000, converted_audio)
+        return fp.name
 # Интерфейс Gradio
+with gr.Blocks(title="Voice Clone") as app:
+    gr.Markdown("# 🎤 Голосовое клонирование RVC v2 + Tortoise TTS")
+    with gr.Row():
+        text_input = gr.Textbox(label="Введите текст", lines=3)
+        voice_selector = gr.Dropdown(
+            choices=['russian', 'multilingual'],
+            label="Голос",
+            value='russian'
+        )
+    submit_btn = gr.Button("Сгенерировать")
+    audio_output = gr.Audio(label="Результат", type="filepath")
+    submit_btn.click(
+        fn=clone_voice,
+        inputs=[text_input, voice_selector],
+        outputs=audio_output
+    )
 if __name__ == "__main__":
+    app.launch(server_name="0.0.0.0", server_port=7860)