Spaces:

RUSH-miaomi
/

bert-vits2-maolei

Runtime error

App Files Files Community

RUSH-miaomi commited on Oct 24, 2023

Commit

6e5173a

1 Parent(s): b4a5b14

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -21

app.py CHANGED Viewed

@@ -1,16 +1,16 @@
 import sys, os
-if sys.platform == "darwin":
-    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 import logging
 logging.getLogger("numba").setLevel(logging.WARNING)
 logging.getLogger("markdown_it").setLevel(logging.WARNING)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
 logging.getLogger("matplotlib").setLevel(logging.WARNING)
-logging.basicConfig(level=logging.INFO, format="| %(name)s | %(levelname)s | %(message)s")
 logger = logging.getLogger(__name__)
@@ -24,7 +24,7 @@ from text import cleaned_text_to_sequence, get_bert
 from text.cleaner import clean_text
 import gradio as gr
 import webbrowser
 net_g = None
@@ -69,6 +69,7 @@ def get_text(text, language_str, hps):
     language = torch.LongTensor(language)
     return bert, ja_bert, phone, tone, language
 def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid, language):
     global net_g
     bert, ja_bert, phones, tones, lang_ids = get_text(text, language, hps)
@@ -103,6 +104,7 @@ def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid, langua
         torch.cuda.empty_cache()
         return audio
 def generate_audio(slices, sdp_ratio, noise_scale, noise_scale_w, length_scale, speaker, language):
     audio_list = []
     silence = np.zeros(hps.data.sampling_rate // 2)
@@ -121,6 +123,7 @@ def generate_audio(slices, sdp_ratio, noise_scale, noise_scale_w, length_scale,
             audio_list.append(silence)  # 将静音添加到列表中
     return audio_list
 def tts_fn(text: str, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, language):
     audio_list = []
     if language == "mix":
@@ -147,7 +150,7 @@ def tts_fn(text: str, speaker, sdp_ratio, noise_scale, noise_scale_w, length_sca
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument(
-        "-m", "--model", default="./logs/maolei/G_4800.pth", help="path of your model"
     )
     parser.add_argument(
         "-c",
@@ -194,20 +197,53 @@ if __name__ == "__main__":
     with gr.Blocks() as app:
         with gr.Row():
             with gr.Column():
-                text = gr.TextArea(label="Text", placeholder="Input Text Here",
-                                      value="猫雷最强！")
-                speaker = gr.Dropdown(choices=speakers, value=speakers[0], label='Speaker')
-                sdp_ratio = gr.Slider(minimum=0.1, maximum=1, value=0.2, step=0.01, label='SDP/DP混合比')
-                noise_scale = gr.Slider(minimum=0.1, maximum=1, value=0.5, step=0.01, label='感情调节')
-                noise_scale_w = gr.Slider(minimum=0.1, maximum=1, value=0.9, step=0.01, label='音素长度')
-                length_scale = gr.Slider(minimum=0.1, maximum=2, value=1, step=0.01, label='生成长度')
-                language = gr.Dropdown(choices=languages, value=languages[0], label="选择语言(该模型mix有问题先别选)" )
-                btn = gr.Button("点击生成", variant="primary")
             with gr.Column():
-                text_output = gr.Textbox(label="Message")
-                audio_output = gr.Audio(label="Output Audio")
         btn.click(
             tts_fn,
             inputs=[
@@ -221,6 +257,7 @@ if __name__ == "__main__":
             ],
             outputs=[text_output, audio_output],
         )

+# flake8: noqa: E402
+import re
 import sys, os
 import logging
+import re_matching
 logging.getLogger("numba").setLevel(logging.WARNING)
 logging.getLogger("markdown_it").setLevel(logging.WARNING)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
 logging.getLogger("matplotlib").setLevel(logging.WARNING)
+logging.basicConfig(
+    level=logging.INFO, format="| %(name)s | %(levelname)s | %(message)s"
+)
 logger = logging.getLogger(__name__)
 from text.cleaner import clean_text
 import gradio as gr
 import webbrowser
+import numpy as np
 net_g = None
     language = torch.LongTensor(language)
     return bert, ja_bert, phone, tone, language
 def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid, language):
     global net_g
     bert, ja_bert, phones, tones, lang_ids = get_text(text, language, hps)
         torch.cuda.empty_cache()
         return audio
 def generate_audio(slices, sdp_ratio, noise_scale, noise_scale_w, length_scale, speaker, language):
     audio_list = []
     silence = np.zeros(hps.data.sampling_rate // 2)
             audio_list.append(silence)  # 将静音添加到列表中
     return audio_list
 def tts_fn(text: str, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, language):
     audio_list = []
     if language == "mix":
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument(
+        "-m", "--model", default="./logs/as/G_8000.pth", help="path of your model"
     )
     parser.add_argument(
         "-c",
     with gr.Blocks() as app:
         with gr.Row():
             with gr.Column():
+                gr.Markdown(value="""
+                bert-vits-v1.1.1整合包作者：@spicysama\n
+                整合包b站链接：https://www.bilibili.com/video/BV1hu4y1W7dW\n
+                声音归属：@猫雷NyaRu_Official\n
+                Bert-VITS2项目：https://github.com/Stardust-minus/Bert-VITS2\n
+                猫雷的B站账号:https://space.bilibili.com/697091119
+                发布二创作品请标注本项目作者及链接、作品使用Bert-VITS2 AI生成！\n
+                """)
+                text = gr.TextArea(
+                    label="输入文本内容",
+                    placeholder="""
+                    如果你选择语言为\'mix\'，必须按照格式输入，否则报错:
+                        格式举例(zh是中文，jp是日语，不区分大小写；说话人举例:gongzi):
+                         [说话人1]<zh>你好，こんにちは！ <jp>こんにちは，世界。
+                         [说话人2]<zh>你好吗？<jp>元気ですか？
+                         [说话人3]<zh>谢谢。<jp>どういたしまして。
+                         ...
+                    另外，所有的语言选项都可以用'|'分割长段实现分句生成。
+                    """
+                )
+                speaker = gr.Dropdown(
+                    choices=speakers, value=speakers[0], label="选择说话人"
+                )
+                sdp_ratio = gr.Slider(
+                    minimum=0, maximum=1, value=0.2, step=0.1, label="SDP/DP混合比"
+                )
+                noise_scale = gr.Slider(
+                    minimum=0.1, maximum=2, value=0.2, step=0.1, label="感情"
+                )
+                noise_scale_w = gr.Slider(
+                    minimum=0.1, maximum=2, value=0.9, step=0.1, label="音素长度"
+                )
+                length_scale = gr.Slider(
+                    minimum=0.1, maximum=2, value=0.8, step=0.1, label="语速"
+                )
+                language = gr.Dropdown(
+                    choices=languages, value=languages[0], label="选择语言(该模型mix混合效果不好，先别用)"
+                )
+                btn = gr.Button("生成音频！", variant="primary")
             with gr.Column():
+                text_output = gr.Textbox(label="状态信息")
+                audio_output = gr.Audio(label="输出音频")
+                explain_image = gr.Image(label="参数解释信息",
+                                         show_label=True,
+                                         show_share_button=False,
+                                         show_download_button=False,
+                                         value=os.path.abspath("./img/参数说明.png"))
         btn.click(
             tts_fn,
             inputs=[
             ],
             outputs=[text_output, audio_output],
         )