Spaces:

RUSH-miaomi
/

bert-vits2-maolei

Runtime error

App Files Files Community

RUSH-miaomi commited on Oct 24, 2023

Commit

b4a5b14

1 Parent(s): 05fa709

Update app.py

Browse files

Files changed (1) hide show

app.py +107 -27

app.py CHANGED Viewed

@@ -28,6 +28,12 @@ import webbrowser
 net_g = None
 def get_text(text, language_str, hps):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
@@ -40,53 +46,128 @@ def get_text(text, language_str, hps):
         for i in range(len(word2ph)):
             word2ph[i] = word2ph[i] * 2
         word2ph[0] += 1
-    bert = get_bert(norm_text, word2ph, language_str)
     del word2ph
-    assert bert.shape[-1] == len(phone)
     phone = torch.LongTensor(phone)
     tone = torch.LongTensor(tone)
     language = torch.LongTensor(language)
-    return bert, phone, tone, language
-def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid):
     global net_g
-    bert, phones, tones, lang_ids = get_text(text, "ZH", hps)
     with torch.no_grad():
-        x_tst=phones.to(device).unsqueeze(0)
-        tones=tones.to(device).unsqueeze(0)
-        lang_ids=lang_ids.to(device).unsqueeze(0)
         bert = bert.to(device).unsqueeze(0)
         x_tst_lengths = torch.LongTensor([phones.size(0)]).to(device)
         del phones
         speakers = torch.LongTensor([hps.data.spk2id[sid]]).to(device)
-        audio = net_g.infer(x_tst, x_tst_lengths, speakers, tones, lang_ids, bert, sdp_ratio=sdp_ratio
-                           , noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale)[0][0,0].data.cpu().float().numpy()
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers
         return audio
-def tts_fn(text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale):
     with torch.no_grad():
-        audio = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker)
-    return "Success", (hps.data.sampling_rate, audio)
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
-    parser.add_argument("--model_dir", default="./logs/maolei/G_4800.pth", help="path of your model")
-    parser.add_argument("--config_dir", default="./configs/config.json", help="path of your config file")
-    parser.add_argument("--share", default=False, help="make link public")
-    parser.add_argument("-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log")
     args = parser.parse_args()
     if args.debug:
         logger.info("Enable DEBUG-LEVEL log")
         logging.basicConfig(level=logging.DEBUG)
-    hps = utils.get_hparams_from_file(args.config_dir)
-    device = "cuda:0" if torch.cuda.is_available() else "cpu"
-    '''
     device = (
         "cuda:0"
         if torch.cuda.is_available()
@@ -96,16 +177,16 @@ if __name__ == "__main__":
             else "cpu"
         )
     )
-    '''
     net_g = SynthesizerTrn(
         len(symbols),
         hps.data.filter_length // 2 + 1,
         hps.train.segment_size // hps.data.hop_length,
         n_speakers=hps.data.n_speakers,
-        **hps.model).to(device)
     _ = net_g.eval()
-    _ = utils.load_checkpoint(args.model_dir, net_g, None, skip_optimizer=True)
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
@@ -141,7 +222,6 @@ if __name__ == "__main__":
             outputs=[text_output, audio_output],
         )
-#    webbrowser.open("http://127.0.0.1:6006")
-#    app.launch(server_port=6006, show_error=True)
     app.launch(show_error=True)

 net_g = None
+if sys.platform == "darwin" and torch.backends.mps.is_available():
+    device = "mps"
+    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
+else:
+    device = "cuda"
 def get_text(text, language_str, hps):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
         for i in range(len(word2ph)):
             word2ph[i] = word2ph[i] * 2
         word2ph[0] += 1
+    bert = get_bert(norm_text, word2ph, language_str, device)
     del word2ph
+    assert bert.shape[-1] == len(phone), phone
+    if language_str == "ZH":
+        bert = bert
+        ja_bert = torch.zeros(768, len(phone))
+    elif language_str == "JP":
+        ja_bert = bert
+        bert = torch.zeros(1024, len(phone))
+    else:
+        bert = torch.zeros(1024, len(phone))
+        ja_bert = torch.zeros(768, len(phone))
+    assert bert.shape[-1] == len(
+        phone
+    ), f"Bert seq len {bert.shape[-1]} != {len(phone)}"
     phone = torch.LongTensor(phone)
     tone = torch.LongTensor(tone)
     language = torch.LongTensor(language)
+    return bert, ja_bert, phone, tone, language
+def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid, language):
     global net_g
+    bert, ja_bert, phones, tones, lang_ids = get_text(text, language, hps)
     with torch.no_grad():
+        x_tst = phones.to(device).unsqueeze(0)
+        tones = tones.to(device).unsqueeze(0)
+        lang_ids = lang_ids.to(device).unsqueeze(0)
         bert = bert.to(device).unsqueeze(0)
+        ja_bert = ja_bert.to(device).unsqueeze(0)
         x_tst_lengths = torch.LongTensor([phones.size(0)]).to(device)
         del phones
         speakers = torch.LongTensor([hps.data.spk2id[sid]]).to(device)
+        audio = (
+            net_g.infer(
+                x_tst,
+                x_tst_lengths,
+                speakers,
+                tones,
+                lang_ids,
+                bert,
+                ja_bert,
+                sdp_ratio=sdp_ratio,
+                noise_scale=noise_scale,
+                noise_scale_w=noise_scale_w,
+                length_scale=length_scale,
+            )[0][0, 0]
+            .data.cpu()
+            .float()
+            .numpy()
+        )
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers
+        torch.cuda.empty_cache()
         return audio
+def generate_audio(slices, sdp_ratio, noise_scale, noise_scale_w, length_scale, speaker, language):
+    audio_list = []
+    silence = np.zeros(hps.data.sampling_rate // 2)
     with torch.no_grad():
+        for piece in slices:
+            audio = infer(
+                piece,
+                sdp_ratio=sdp_ratio,
+                noise_scale=noise_scale,
+                noise_scale_w=noise_scale_w,
+                length_scale=length_scale,
+                sid=speaker,
+                language=language,
+            )
+            audio_list.append(audio)
+            audio_list.append(silence)  # 将静音添加到列表中
+    return audio_list
+def tts_fn(text: str, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, language):
+    audio_list = []
+    if language == "mix":
+        bool_valid, str_valid = re_matching.validate_text(text)
+        if not bool_valid:
+            return str_valid, (hps.data.sampling_rate, np.concatenate([np.zeros(hps.data.sampling_rate // 2)]))
+        result = re_matching.text_matching(text)
+        for one in result:
+            _speaker = one.pop()
+            for lang, content in one:
+                audio_list.extend(
+                    generate_audio(content.split("|"), sdp_ratio, noise_scale,
+                                   noise_scale_w, length_scale, _speaker+'_'+lang.lower(), lang)
+                )
+    else:
+        audio_list.extend(
+            generate_audio(text.split("|"), sdp_ratio, noise_scale, noise_scale_w, length_scale, speaker, language)
+        )
+    audio_concat = np.concatenate(audio_list)
+    return "Success", (hps.data.sampling_rate, audio_concat)
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "-m", "--model", default="./logs/maolei/G_4800.pth", help="path of your model"
+    )
+    parser.add_argument(
+        "-c",
+        "--config",
+        default="./configs/config.json",
+        help="path of your config file",
+    )
+    parser.add_argument(
+        "--share", default=False, help="make link public", action="store_true"
+    )
+    parser.add_argument(
+        "-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log"
+    )
     args = parser.parse_args()
     if args.debug:
         logger.info("Enable DEBUG-LEVEL log")
         logging.basicConfig(level=logging.DEBUG)
+    hps = utils.get_hparams_from_file(args.config)
     device = (
         "cuda:0"
         if torch.cuda.is_available()
             else "cpu"
         )
     )
     net_g = SynthesizerTrn(
         len(symbols),
         hps.data.filter_length // 2 + 1,
         hps.train.segment_size // hps.data.hop_length,
         n_speakers=hps.data.n_speakers,
+        **hps.model,
+    ).to(device)
     _ = net_g.eval()
+    _ = utils.load_checkpoint(args.model, net_g, None, skip_optimizer=True)
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
             outputs=[text_output, audio_output],
         )
     app.launch(show_error=True)