styletts2_Japanese

Running

App Files Files Community

Respair commited on Mar 28, 2024

Commit

d41c3ed

verified ·

1 Parent(s): 45f825b

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -11

app.py CHANGED Viewed

@@ -39,7 +39,7 @@ theme = gr.themes.Base(
 from Modules.diffusion.sampler import DiffusionSampler, ADPM2Sampler, KarrasSchedule
-voicelist = ['VO_JA_Kamisato_Ayaka_About_Kujou_Sara','hontonokimochi','gaen_original']
 voices = {}
 # import phonemizer
 # global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True,  with_stress=True)
@@ -73,7 +73,7 @@ def synthesize(text, voice, lngsteps, password, progress=gr.Progress()):
     audios = []
     for t in progress.tqdm(texts):
         print(t)
-        audios.append(styletts2importable.inference(t, voices[v], alpha=0.3, beta=0.7, diffusion_steps=lngsteps, embedding_scale=1))
     return (24000, np.concatenate(audios))
 # def longsynthesize(text, voice, lngsteps, password, progress=gr.Progress()):
 #     if password == os.environ['ACCESS_CODE']:
@@ -165,19 +165,35 @@ def ljsynthesize(text, steps,embscale, progress=gr.Progress()):
     return (24000, np.concatenate(audios))
 with gr.Blocks() as vctk:
     with gr.Row():
         with gr.Column(scale=1):
-            clinp = gr.Textbox(label="Text", info="Enter the text | テキストを入れてください、短すぎるとひどくなります",value="あなたがいないと、世界は色褪せて見えます。あなたの笑顔が私の日々を明るく照らしています。あなたがいない日は、まるで冬のように寒く、暗いです.", interactive=True)
-            voice = gr.Dropdown(voicelist, label="Voice", info="Select a default voice.", interactive=True)
-            vcsteps = gr.Slider(minimum=3, maximum=20, value=5, step=1, label="Diffusion Steps", info="You'll get more variation in the results if you increase it, doesn't necessarily improve anything.| これを上げたらもっとエモーショナルな音声になります（下げたらその逆）、増やしすぎるとだめになるので、ご注意ください", interactive=True)
-            embscale = gr.Slider(minimum=1, maximum=10, value=1.8, step=0.1, label="Embedding Scale (READ WARNING BELOW)", info="これを上げたらもっとエモーショナルな音声になります（下げたらその逆）、増やしすぎるとだめになるので、ご注意ください", interactive=True)
-            alpha = gr.Slider(minimum=0, maximum=1, value=0.3, step=0.1, label="Alpha", interactive=True)
-            beta = gr.Slider(minimum=0, maximum=1, value=0.4, step=0.1, label="Beta", interactive=True)
         with gr.Column(scale=1):
-            clbtn = gr.Button("Synthesize", variant="primary")
-            claudio = gr.Audio(interactive=False, label="Synthesized Audio", waveform_options={'waveform_progress_color': '#3C82F6'})
-            clbtn.click(clsynthesize, inputs=[clinp, voice, vcsteps, embscale, alpha, beta], outputs=[claudio], concurrency_limit=4)
 # with gr.Blocks() as clone:
 #     with gr.Row():
 #         with gr.Column(scale=1):

 from Modules.diffusion.sampler import DiffusionSampler, ADPM2Sampler, KarrasSchedule
+voicelist = ['1','2','3']
 voices = {}
 # import phonemizer
 # global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True,  with_stress=True)
     audios = []
     for t in progress.tqdm(texts):
         print(t)
+        audios.append(styletts2importable.inference(t, voices[v], alpha=0.3, beta=0.4, diffusion_steps=lngsteps, embedding_scale=1.5))
     return (24000, np.concatenate(audios))
 # def longsynthesize(text, voice, lngsteps, password, progress=gr.Progress()):
 #     if password == os.environ['ACCESS_CODE']:
     return (24000, np.concatenate(audios))
+# with gr.Blocks() as vctk:
+#     with gr.Row():
+#         with gr.Column(scale=1):
+#             clinp = gr.Textbox(label="Text", info="Enter the text | テキストを入れてください、短すぎるとひどくなります",value="あなたがいないと、世界は色褪せて見えます。あなたの笑顔が私の日々を明るく照らしています。あなたがいない日は、まるで冬のように寒く、暗いです.", interactive=True)
+#             voice = gr.Dropdown(voicelist, label="Voice", info="Select a default voice.", interactive=True)
+#             vcsteps = gr.Slider(minimum=3, maximum=20, value=5, step=1, label="Diffusion Steps", info="You'll get more variation in the results if you increase it, doesn't necessarily improve anything.| これを上げたらもっとエモーショナルな音声になります（下げたらその逆）、増やしすぎるとだめになるので、ご注意ください", interactive=True)
+#             embscale = gr.Slider(minimum=1, maximum=10, value=1.8, step=0.1, label="Embedding Scale (READ WARNING BELOW)", info="これを上げたらもっとエモーショナルな音声になります（下げたらその逆）、増やしすぎるとだめになるので、ご注意ください", interactive=True)
+#             alpha = gr.Slider(minimum=0, maximum=1, value=0.3, step=0.1, label="Alpha", interactive=True)
+#             beta = gr.Slider(minimum=0, maximum=1, value=0.4, step=0.1, label="Beta", interactive=True)
+#         with gr.Column(scale=1):
+#             clbtn = gr.Button("Synthesize", variant="primary")
+#             claudio = gr.Audio(interactive=False, label="Synthesized Audio", waveform_options={'waveform_progress_color': '#3C82F6'})
+#             clbtn.click(clsynthesize, inputs=[clinp, voice, vcsteps, embscale, alpha, beta], outputs=[claudio], concurrency_limit=4)
 with gr.Blocks() as vctk:
     with gr.Row():
         with gr.Column(scale=1):
+            inp = gr.Textbox(label="Text", info="Enter the text | テキストを入れてください、短すぎるとひどくなります.", value="あなたがいないと、世界は色褪せて見えます。あなたの笑顔が私の日々を明るく照らしています。あなたがいない日は、まるで冬のように寒く、暗いです.",  interactive=True)
+            voice = gr.Dropdown(voicelist, label="Voice", info="Select a default voice.", value='m-us-2', interactive=True)
+            multispeakersteps = gr.Slider(minimum=3, maximum=15, value=3, step=1, label="Diffusion Steps", interactive=True)
+            # use_gruut = gr.Checkbox(label="Use alternate phonemizer (Gruut) - Experimental")
         with gr.Column(scale=1):
+            btn = gr.Button("Synthesize", variant="primary")
+            audio = gr.Audio(interactive=False, label="Synthesized Audio", waveform_options={'waveform_progress_color': '#3C82F6'})
+            btn.click(synthesize, inputs=[inp, voice, multispeakersteps], outputs=[audio], concurrency_limit=4)
 # with gr.Blocks() as clone:
 #     with gr.Row():
 #         with gr.Column(scale=1):