Spaces:

GroveStreet
/

GTA_SOVITS

Running

App Files Files Community

Katock commited on Jul 29, 2023

Commit

53a560c

1 Parent(s): 6ead1f4

debug

Browse files

Files changed (2) hide show

app.py +11 -19
inference/infer_tool.py +4 -4

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import argparse
 import logging
 import os
@@ -6,6 +7,7 @@ import gradio as gr
 import gradio.processing_utils as gr_processing_utils
 import librosa
 import numpy as np
 from inference.infer_tool import Svc
@@ -16,6 +18,7 @@ logging.getLogger('matplotlib').setLevel(logging.WARNING)
 limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingface spaces
 # audio_postprocess_ori = gr.Audio.postprocess
@@ -37,31 +40,20 @@ def create_vc_fn(model, spk):
         duration = audio.shape[0] / sampling_rate
         if duration > 20 and limitation:
             return "请上传小于20秒的音频，或点击右上角裁剪", None
-        print("audio1: ", audio)
         audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
         if len(audio.shape) > 1:
             audio = librosa.to_mono(audio.transpose(1, 0))
         if sampling_rate != 16000:
             audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
-        print("audio2: ", audio)
-        input_audio = sampling_rate, audio
-        # raw_path = io.BytesIO()
-        # soundfile.write(raw_path, audio, sampling_rate, format="wav")
-        # raw_path.seek(0)
-        # raw_audio_path = "tmp.wav",
-        # soundfile.write(raw_audio_path, audio, sampling_rate, format="wav")
-        # out_audio, out_sr, _ = model.infer(spk, vc_transform, raw_path,
-        #                                    auto_predict_f0=auto_f0,
-        #                                    )
-        out_audio = model.slice_inference(input_audio=input_audio,
-                                          spk=spk,
-                                          tran=vc_transform,
-                                          slice_db=-40,
-                                          f0_predictor=f0p,
-                                          cluster_infer_ratio=0,
-                                          auto_predict_f0=auto_f0,
-                                          noice_scale=0.4)
         return "Success", (44100, out_audio.cpu().numpy())
     return vc_fn

 import argparse
+import io
 import logging
 import os
 import gradio.processing_utils as gr_processing_utils
 import librosa
 import numpy as np
+import soundfile
 from inference.infer_tool import Svc
 limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingface spaces
 # audio_postprocess_ori = gr.Audio.postprocess
         duration = audio.shape[0] / sampling_rate
         if duration > 20 and limitation:
             return "请上传小于20秒的音频，或点击右上角裁剪", None
         audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
         if len(audio.shape) > 1:
             audio = librosa.to_mono(audio.transpose(1, 0))
         if sampling_rate != 16000:
             audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
+        raw_audio_path = io.BytesIO()
+        soundfile.write(raw_audio_path, audio, sampling_rate, format="wav")
+        raw_audio_path.seek(0)
+        out_audio, _, _ = model.infer(raw_path=raw_audio_path,
+                                      speaker=spk,
+                                      tran=vc_transform,
+                                      f0_predictor=f0p,
+                                      auto_predict_f0=auto_f0)
         return "Success", (44100, out_audio.cpu().numpy())
     return vc_fn

inference/infer_tool.py CHANGED Viewed

@@ -359,7 +359,7 @@ class Svc(object):
         gc.collect()
     def slice_inference(self,
-                        input_audio,
                         spk,
                         tran,
                         slice_db,
@@ -382,9 +382,9 @@ class Svc(object):
             if len(self.spk2id) == 1:
                 spk = self.spk2id.keys()[0]
                 use_spk_mix = False
-        # wav_path = Path(raw_audio_path).with_suffix('.wav')
-        chunks = slicer.cut(input_audio, db_thresh=slice_db)
-        audio_data, audio_sr = slicer.chunks2audio(input_audio, chunks)
         per_size = int(clip_seconds * audio_sr)
         lg_size = int(lg_num * audio_sr)
         lg_size_r = int(lg_size * lgr_num)

         gc.collect()
     def slice_inference(self,
+                        raw_audio_path,
                         spk,
                         tran,
                         slice_db,
             if len(self.spk2id) == 1:
                 spk = self.spk2id.keys()[0]
                 use_spk_mix = False
+        wav_path = Path(raw_audio_path).with_suffix('.wav')
+        chunks = slicer.cut(wav_path, db_thresh=slice_db)
+        audio_data, audio_sr = slicer.chunks2audio(wav_path, chunks)
         per_size = int(clip_seconds * audio_sr)
         lg_size = int(lg_num * audio_sr)
         lg_size_r = int(lg_size * lgr_num)