Spaces:

Pipe1213
/

VITS_Walloon_Phonemes

Running

Pipe1213 commited on Jul 23, 2024

Commit

5cf39a1

verified ·

1 Parent(s): d3b5ad0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,7 +25,7 @@ def get_text(text, hps):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
-hps = utils.get_hparams_from_file("./configs/vctk_base.json")
 net_g = SynthesizerTrn(
     len(symbols),
@@ -35,5 +35,34 @@ net_g = SynthesizerTrn(
     **hps.model)
 _ = net_g.eval()
-_ = utils.load_checkpoint("./fr_wa_finetuned_pho/G_125000.pth", net_g, None)

     text_norm = torch.LongTensor(text_norm)
     return text_norm
+hps = utils.get_hparams_from_file("configs/vctk_base.json")
 net_g = SynthesizerTrn(
     len(symbols),
     **hps.model)
 _ = net_g.eval()
+_ = utils.load_checkpoint("fr_wa_finetuned_pho/G_125000.pth", net_g, None)
+def tts(text):
+    if len(text) > 150:
+        return "Error: Text is too long", None
+    sid = torch.LongTensor([1])  # speaker identity
+    stn_tst = get_text(text, hps_ms)
+    with torch.no_grad():
+        x_tst = stn_tst.unsqueeze(0)
+        x_tst_lengths = torch.LongTensor([stn_tst.size(0)])
+        # print(stn_tst.size())
+        audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][
+            0, 0].data.float().numpy()
+    return "Success", (hps.data.sampling_rate, audio)
+app = gr.Blocks()
+with app:
+    with gr.Tabs():
+        with gr.TabItem("Basic"):
+            tts_input1 = gr.TextArea(label="Text in Japanese (150 words limitation)", value="こんにちは。")
+            # tts_input2 = gr.Dropdown(label="Speaker", choices=hps.speakers, type="index", value=hps.speakers[0])
+            tts_submit = gr.Button("Generate", variant="primary")
+            tts_output1 = gr.Textbox(label="Message")
+            tts_output2 = gr.Audio(label="Output")
+            tts_submit.click(tts, [tts_input1], [tts_output1, tts_output2])
+    app.launch()