Spaces:

GroveStreet
/

GTA_SOVITS

Running

App Files Files Community

Katock commited on Jul 28, 2023

Commit

cf90f08

1 Parent(s): f8edc9e

Update infer_tool.py

Browse files

Files changed (1) hide show

inference/infer_tool.py +5 -36

inference/infer_tool.py CHANGED Viewed

@@ -245,42 +245,11 @@ class Svc(object):
         with torch.no_grad():
             start = time.time()
             vol = None
-            if not self.only_diffusion:
-                vol = self.volume_extractor.extract(torch.FloatTensor(wav).to(self.dev)[None,:])[None,:].to(self.dev) if self.vol_embedding else None
-                audio,f0 = self.net_g_ms.infer(c, f0=f0, g=sid, uv=uv, predict_f0=auto_predict_f0, noice_scale=noice_scale,vol=vol)
-                audio = audio[0,0].data.float()
-                audio_mel = self.vocoder.extract(audio[None,:],self.target_sample) if self.shallow_diffusion else None
-            else:
-                audio = torch.FloatTensor(wav).to(self.dev)
-                audio_mel = None
-            if self.only_diffusion or self.shallow_diffusion:
-                vol = self.volume_extractor.extract(audio[None,:])[None,:,None].to(self.dev) if vol==None else vol[:,:,None]
-                if self.shallow_diffusion and second_encoding:
-                    audio16k = librosa.resample(audio.detach().cpu().numpy(), orig_sr=self.target_sample, target_sr=16000)
-                    audio16k = torch.from_numpy(audio16k).to(self.dev)
-                    c = self.hubert_model.encoder(audio16k)
-                    c = utils.repeat_expand_2d(c.squeeze(0), f0.shape[1])
-                f0 = f0[:,:,None]
-                c = c.transpose(-1,-2)
-                audio_mel = self.diffusion_model(
-                c,
-                f0,
-                vol,
-                spk_id = sid,
-                spk_mix_dict = None,
-                gt_spec=audio_mel,
-                infer=True,
-                infer_speedup=self.diffusion_args.infer.speedup,
-                method=self.diffusion_args.infer.method,
-                k_step=k_step)
-                audio = self.vocoder.infer(audio_mel, f0).squeeze()
-            if self.nsf_hifigan_enhance:
-                audio, _ = self.enhancer.enhance(
-                                    audio[None,:],
-                                    self.target_sample,
-                                    f0[:,:,None],
-                                    self.hps_ms.data.hop_length,
-                                    adaptive_key = enhancer_adaptive_key)
             if loudness_envelope_adjustment != 1:
                 audio = utils.change_rms(wav,self.target_sample,audio,self.target_sample,loudness_envelope_adjustment)
             use_time = time.time() - start

         with torch.no_grad():
             start = time.time()
             vol = None
+            vol = self.volume_extractor.extract(torch.FloatTensor(wav).to(self.dev)[None,:])[None,:].to(self.dev) if self.vol_embedding else None
+            audio,f0 = self.net_g_ms.infer(c, f0=f0, g=sid, uv=uv, predict_f0=auto_predict_f0, noice_scale=noice_scale,vol=vol)
+            audio = audio[0,0].data.float()
+            audio_mel = self.vocoder.extract(audio[None,:],self.target_sample) if self.shallow_diffusion else None
             if loudness_envelope_adjustment != 1:
                 audio = utils.change_rms(wav,self.target_sample,audio,self.target_sample,loudness_envelope_adjustment)
             use_time = time.time() - start