File size: 2,471 Bytes
6e584e5
 
3e23daa
 
 
 
 
 
 
 
 
 
 
6e584e5
3e23daa
 
 
 
 
 
5571daf
 
3e23daa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55889e2
3e23daa
 
 
55889e2
 
3e23daa
 
 
55889e2
3e23daa
5571daf
55889e2
 
3e23daa
6e584e5
3e23daa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
from inference import STTS2
import gradio as gr
from huggingface_hub import snapshot_download
import numpy as np

def synthesise(text, progress=gr.Progress()):
    if text.strip() == "":
        raise gr.Error("Please enter some text.")
        
    if len(text) > 300:
        raise gr.Error("Please enter text less than 300 characters.")

    audio = stts2.inference(text, ref_s, alpha=0.9, beta=0.9, diffusion_steps=16, embedding_scale=1)

    audio = (audio * 32767).astype(np.int16)
    
    return 24000, audio
    
if __name__ == '__main__':
    snapshot_download(repo_id="Scralius/StyleTTS2_SIWIS_French", local_dir="Models/SIWIS")
    stts2 = STTS2(config_path='Models/SIWIS/config.yml', model_folder='Models/SIWIS')
    ref_s = stts2.compute_style('Models/SIWIS/reference_audio.wav')
    
    demo = gr.Interface(
        fn=synthesise,
        inputs=[
            gr.Textbox(label='Enter Text:', lines=5, max_lines=10, placeholder="Type your text here..."),
        ],
        outputs=[
            gr.Audio(
                label="Generated Audio:",
                autoplay=False,
                streaming=False,
                type="numpy",
            ),
        ],
        allow_flagging='never',
        title="<div style='text-align: center;'>French StyleTTS2 demo</div>",
        description=(
            "This application uses a Text-to-Speech (TTS) model trained from scratch using StyleTTS2 on the SIWIS dataset. "
            "Enter some text in the input box below and let the model read it out loud with a natural and expressive voice. "
            "The model is capable of generating high-quality speech. "
            "this demo run on CPU, so it may take a while to generate the audio, if you want fast inference, you can run the model on a GPU."
        ),
        theme="origin",
        examples=[
            ["Voici une démonstration de synthèse vocale. Ce modèle est capable de lire du texte avec une voix naturelle. Essayez d'entrer votre propre texte pour voir ses capacités."],
            ["La technologie de synthèse vocale a beaucoup évolué ces dernières années. Elle est maintenant utilisée dans de nombreux domaines, y compris les assistants virtuels, les livres audio et les systèmes de navigation."],
            ["Le modèle que nous utilisons ici a été entraîné sur le dataset SIWIS, qui contient des enregistrements de voix en français."]
        ],
        cache_examples=False
    )

    demo.launch()