Spaces:

GroveStreet
/

GTA_SOVITS

Running

App Files Files Community

Katock commited on Nov 18, 2023

Commit

88d3449

1 Parent(s): a9ef482

英文语调与VC入口

Browse files

Files changed (1) hide show

app.py +13 -5

app.py CHANGED Viewed

@@ -19,6 +19,13 @@ logging.getLogger('matplotlib').setLevel(logging.WARNING)
 sampling_rate = 44100
 def create_fn(model, spk):
     def svc_fn(input_audio, vc_transform, auto_f0, f0p):
@@ -47,7 +54,7 @@ def create_fn(model, spk):
         if input_text == '':
             return 0, None
         input_text = re.sub(r"[\n\,\(\) ]", "", input_text)
-        voice = "zh-CN-XiaoyiNeural" if gender == '女' else "zh-CN-YunxiNeural"
         ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
         temp_path = "temp.wav"
         p = subprocess.Popen("edge-tts " +
@@ -86,7 +93,8 @@ if __name__ == '__main__':
         gr.Markdown(
             "# <center> 游戏角色语音生成\n"
             "## <center> 模型作者：B站[Cyber蝈蝈总](https://space.bilibili.com/37706580)\n"
-            "<center> 使用此处资源创作的作品，请显著标明出处，CJ有两个模型，carl1更清晰，carl2音域广\n"
         )
         with gr.Tabs():
             for (name, cover, (svc_fn, tts_fn)) in models:
@@ -95,9 +103,9 @@ if __name__ == '__main__':
                         with gr.Column():
                             with gr.Row():
                                 vc_transform = gr.Number(label="音高调整 (正负半音，12为1个八度)", value=0)
-                                f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                         choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
-                            auto_f0 = gr.Checkbox(label="自动音高预测 (文本转语音或正常说话可选,会导致唱歌跑调)",
                                                   value=False)
                             with gr.Tabs():
                                 with gr.TabItem('语音转语音'):
@@ -110,7 +118,7 @@ if __name__ == '__main__':
                                                            placeholder='已支持无限长内容，处理时间约为说完原内容时间的5倍')
                                     with gr.Row():
                                         gender = gr.Radio(label='说话人性别 (男音调低，女音调高)', value='男',
-                                                          choices=['男', '女'])
                                         tts_rate = gr.Number(label='语速 (正负, 单位百分比)', value=0)
                                     tts_submit = gr.Button("生成", variant="primary")

 sampling_rate = 44100
+tts_voice = {
+    "中文_男": "zh-CN-YunxiNeural",
+    "中文_女": "zh-CN-XiaoyiNeural",
+    "英文_男": "en-US-GuyNeural",
+    "英文_女": "en-US-AnaNeural"
+}
 def create_fn(model, spk):
     def svc_fn(input_audio, vc_transform, auto_f0, f0p):
         if input_text == '':
             return 0, None
         input_text = re.sub(r"[\n\,\(\) ]", "", input_text)
+        voice = tts_voice[gender]
         ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
         temp_path = "temp.wav"
         p = subprocess.Popen("edge-tts " +
         gr.Markdown(
             "# <center> 游戏角色语音生成\n"
             "## <center> 模型作者：B站[Cyber蝈蝈总](https://space.bilibili.com/37706580)\n"
+            "<center> 罪恶都市人物AI语音请移步[GTAVC_SOVITS](https://huggingface.co/spaces/GroveStreet/GTAVC_SOVITS)\n"
+            "<center> 使用此资源创作的作品请标明出处，CJ有两个模型，carl1更清晰，carl2音域广\n"
         )
         with gr.Tabs():
             for (name, cover, (svc_fn, tts_fn)) in models:
                         with gr.Column():
                             with gr.Row():
                                 vc_transform = gr.Number(label="音高调整 (正负半音，12为1个八度)", value=0)
+                                f0_predictor = gr.Radio(label="f0预测器 (harvest适合讲话，crepe适合唱歌)",
                                                         choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
+                            auto_f0 = gr.Checkbox(label="自动音高预测 (文本转语音或讲话可选,会导致唱歌跑调)",
                                                   value=False)
                             with gr.Tabs():
                                 with gr.TabItem('语音转语音'):
                                                            placeholder='已支持无限长内容，处理时间约为说完原内容时间的5倍')
                                     with gr.Row():
                                         gender = gr.Radio(label='说话人性别 (男音调低，女音调高)', value='男',
+                                                          choices=['中文_男', '中文_女', '英文_男', '英文_女'])
                                         tts_rate = gr.Number(label='语速 (正负, 单位百分比)', value=0)
                                     tts_submit = gr.Button("生成", variant="primary")