GPT-SoVITS-ProPlus

Running on Zero

lj1995 commited on Jul 10

Commit

254c0f5

verified ·

1 Parent(s): d0aac67

librosa.load->torchaudio.load

Files changed (1) hide show

inference_webui.py CHANGED Viewed

@@ -479,17 +479,21 @@ def get_tts_wav(
     )
     if not ref_free:
         with torch.no_grad():
-            wav16k, sr = librosa.load(ref_wav_path, sr=16000)
             if wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000:
                 gr.Warning(i18n("参考音频在3~10秒范围外，请更换！"))
                 raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
-            wav16k = torch.from_numpy(wav16k)
             zero_wav_torch = torch.from_numpy(zero_wav)
             if is_half == True:
-                wav16k = wav16k.half().to(device)
                 zero_wav_torch = zero_wav_torch.half().to(device)
             else:
-                wav16k = wav16k.to(device)
                 zero_wav_torch = zero_wav_torch.to(device)
             wav16k = torch.cat([wav16k, zero_wav_torch])
             ssl_content = ssl_model.model(wav16k.unsqueeze(0))["last_hidden_state"].transpose(1, 2)  # .float()

     )
     if not ref_free:
         with torch.no_grad():
+             wav16k, sr = torchaudio.load(url_ref_wav)
+            wav16k=wav16k.to(device)
+            if wav16k.shape[0] == 2:
+                wav16k = wav16k.mean(0).unsqueeze(0)
+            if sr!=16000:
+                wav16k=resample(wav16k, sr, 16000, device)
+            wav16k=wav16k[0]
             if wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000:
                 gr.Warning(i18n("参考音频在3~10秒范围外，请更换！"))
                 raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
             zero_wav_torch = torch.from_numpy(zero_wav)
             if is_half == True:
+                wav16k = wav16k.half()
                 zero_wav_torch = zero_wav_torch.half().to(device)
             else:
                 zero_wav_torch = zero_wav_torch.to(device)
             wav16k = torch.cat([wav16k, zero_wav_torch])
             ssl_content = ssl_model.model(wav16k.unsqueeze(0))["last_hidden_state"].transpose(1, 2)  # .float()