Spaces:

GroveStreet
/

GTA_SOVITS

Running

App Files Files Community

Katock commited on Aug 9, 2023

Commit

8c35828

1 Parent(s): dc6504c

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -34

app.py CHANGED Viewed

@@ -20,16 +20,8 @@ limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingfac
 def create_fn(model, spk):
-    def svc_fn(input_audio, vc_transform, auto_f0, f0p):
-        if input_audio is None:
-            return "请先上传音频", None
-        sampling_rate, audio = input_audio
-        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
-        if len(audio.shape) > 1:
-            audio = librosa.to_mono(audio.transpose(1, 0))
-        temp_path = "temp.wav"
-        soundfile.write(temp_path, audio, sampling_rate, format="wav")
-        out_audio = model.slice_inference(raw_audio_path=temp_path,
                                           spk=spk,
                                           slice_db=-40,
                                           cluster_infer_ratio=0,
@@ -38,36 +30,35 @@ def create_fn(model, spk):
                                           tran=vc_transform,
                                           f0_predictor=f0p,
                                           auto_predict_f0=auto_f0)
-        os.remove(temp_path)
         return 44100, out_audio
     def tts_fn(input_text, gender, tts_rate, vc_transform, auto_f0, f0p):
         voice = "zh-CN-XiaoyiNeural" if gender == '女' else "zh-CN-YunxiNeural"
-        output_file = "temp.wav"
-        if tts_rate >= 0:
-            ratestr = "+{:.0%}".format(tts_rate)
-        elif tts_rate < 0:
-            ratestr = "{:.0%}".format(tts_rate)  # 减号自带
         p = subprocess.Popen("edge-tts " +
                              " --text " + input_text +
-                             " --write-media " + output_file +
                              " --voice " + voice +
                              " --rate=" + ratestr, shell=True,
                              stdout=subprocess.PIPE,
                              stdin=subprocess.PIPE)
         p.wait()
-        out_audio = model.slice_inference(raw_audio_path=output_file,
-                                          spk=spk,
-                                          slice_db=-40,
-                                          cluster_infer_ratio=0,
-                                          noice_scale=0.4,
-                                          clip_seconds=20,
-                                          tran=vc_transform,
-                                          f0_predictor=f0p,
-                                          auto_predict_f0=auto_f0)
-        os.remove(output_file)
-        return 44100, out_audio
     return svc_fn, tts_fn
@@ -104,10 +95,11 @@ if __name__ == '__main__':
                                     auto_f0 = gr.Checkbox(label="自动音高预测 (正常说话可选)", value=False)
                                 f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                         choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
-                                vc_submit = gr.Button("生成", variant="primary")
                             else:
-                                text_input = gr.Textbox(label='说话内容', value='',
-                                                        placeholder='请输入说话内容，(已支持无限长内容，处理时间约为说完原内容时间的5倍)')
                                 with gr.Row():
                                     gender = gr.Radio(label='说话人性别', value='男', choices=['男', '女'])
                                     tts_rate = gr.Number(label='语速 (正负百分比)', value=0)
@@ -117,6 +109,9 @@ if __name__ == '__main__':
                                 f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                         choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
                                 tts_submit = gr.Button("生成", variant="primary")
                         with gr.Column():
                             gr.Markdown(
@@ -125,6 +120,5 @@ if __name__ == '__main__':
                                                                                                            '</div>'
                             )
                             vc_output = gr.Audio(label="输出音频")
-                vc_submit.click(svc_fn, [svc_input, vc_transform, auto_f0, f0_predictor], vc_output)
-                tts_submit.click(tts_fn, [text_input, gender, tts_rate, vc_transform, auto_f0, f0_predictor], vc_output)
         app.queue(concurrency_count=1, api_open=args.api).launch(share=args.share)

 def create_fn(model, spk):
+    def svc_infer(audio_path, vc_transform, f0p, auto_f0):
+        out_audio = model.slice_inference(raw_audio_path=audio_path,
                                           spk=spk,
                                           slice_db=-40,
                                           cluster_infer_ratio=0,
                                           tran=vc_transform,
                                           f0_predictor=f0p,
                                           auto_predict_f0=auto_f0)
+        os.remove(audio_path)
         return 44100, out_audio
+    def svc_fn(input_audio, vc_transform, auto_f0, f0p):
+        if input_audio is None:
+            return 0, None
+        sampling_rate, audio = input_audio
+        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
+        if len(audio.shape) > 1:
+            audio = librosa.to_mono(audio.transpose(1, 0))
+        temp_path = "temp.wav"
+        soundfile.write(temp_path, audio, sampling_rate, format="wav")
+        return svc_infer(temp_path, vc_transform, auto_f0, f0p)
     def tts_fn(input_text, gender, tts_rate, vc_transform, auto_f0, f0p):
+        if input_text == '':
+            return 0, None
         voice = "zh-CN-XiaoyiNeural" if gender == '女' else "zh-CN-YunxiNeural"
+        ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
+        temp_path = "temp.wav"
         p = subprocess.Popen("edge-tts " +
                              " --text " + input_text +
+                             " --write-media " + temp_path +
                              " --voice " + voice +
                              " --rate=" + ratestr, shell=True,
                              stdout=subprocess.PIPE,
                              stdin=subprocess.PIPE)
         p.wait()
+        return svc_infer(temp_path, vc_transform, auto_f0, f0p)
     return svc_fn, tts_fn
                                     auto_f0 = gr.Checkbox(label="自动音高预测 (正常说话可选)", value=False)
                                 f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                         choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
+                                svc_submit = gr.Button("生成", variant="primary")
+                                svc_submit.click(svc_fn, [svc_input, vc_transform, auto_f0, f0_predictor], vc_output)
                             else:
+                                tts_input = gr.Textbox(label='说话内容', value='',
+                                                       placeholder='请输入说话内容，(已支持无限长内容，处理时间约为说完原内容时间的5倍)')
                                 with gr.Row():
                                     gender = gr.Radio(label='说话人性别', value='男', choices=['男', '女'])
                                     tts_rate = gr.Number(label='语速 (正负百分比)', value=0)
                                 f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                         choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
                                 tts_submit = gr.Button("生成", variant="primary")
+                                tts_submit.click(tts_fn,
+                                                 [tts_input, gender, tts_rate, vc_transform, auto_f0, f0_predictor],
+                                                 vc_output)
                         with gr.Column():
                             gr.Markdown(
                                                                                                            '</div>'
                             )
                             vc_output = gr.Audio(label="输出音频")
         app.queue(concurrency_count=1, api_open=args.api).launch(share=args.share)