BangDream-Bert-VITS2

Running

App Files Files Community

Mahiruoshi commited on Jan 29, 2024

Commit

dea6e28

verified ·

1 Parent(s): 8eaa3cc

Update app.py

Browse files

Files changed (1) hide show

app.py +81 -12

app.py CHANGED Viewed

@@ -44,6 +44,41 @@ import sys
 import re
 from tools.translate import translate
 net_g = None
 device = (
@@ -134,7 +169,10 @@ def infer(
     style_text=None,
     style_weight=0.7,
     language = "Auto",
 ):
     if language == "Auto":
         language= 'JP' if is_japanese(text) else 'ZH'
     bert, ja_bert, en_bert, phones, tones, lang_ids = get_text(
@@ -200,7 +238,7 @@ def loadmodel(model):
     _ = utils.load_checkpoint(model, net_g, None, skip_optimizer=True)
     return "success"
-def generate_audio_and_srt_for_group(group, outputPath, group_index, sampling_rate, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime):
     audio_fin = []
     ass_entries = []
     start_time = 0
@@ -231,7 +269,17 @@ Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
                 if FakeSpeaker == i.split("|")[1]:
                     speaker = i.split("|")[0]
             if sentence != '\n':
-                audio = infer_simple((remove_annotations(sentence.split("|")[-1]).replace(" ","")+"。").replace("，。","。").replace("。。","。"), sdp_ratio, noise_scale, noise_scale_w, length_scale,speaker)
                 silence_frames = int(silenceTime * 44010) if is_chinese(sentence) else int(silenceTime * 44010)
                 silence_data = np.zeros((silence_frames,), dtype=audio.dtype)
                 audio_fin.append(audio)
@@ -253,7 +301,7 @@ Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
         f.write(ass_header + '\n'.join(ass_entries))
     return (hps.data.sampling_rate, np.concatenate(audio_fin))
-def audiobook(inputFile, groupsize, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime,filepath,raw_text):
     directory_path = filepath if torch.cuda.is_available() else "books"
     if os.path.exists(directory_path):
@@ -264,13 +312,17 @@ def audiobook(inputFile, groupsize, speaker, sdp_ratio, noise_scale, noise_scale
         text = extract_text_from_file(inputFile.name)
     else:
         text = raw_text
-    sentences = extrac(extract_and_convert(text))
     GROUP_SIZE = groupsize
     for i in range(0, len(sentences), GROUP_SIZE):
         group = sentences[i:i+GROUP_SIZE]
         if spealerList == "":
             spealerList = "无"
-        result = generate_audio_and_srt_for_group(group,directory_path, i//GROUP_SIZE + 1, 44100, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime)
         if not torch.cuda.is_available():
             return result
     return result
@@ -282,9 +334,17 @@ def infer_simple(
     noise_scale_w,
     length_scale,
     sid,
-    style_text=None,
-    style_weight=0.7,
 ):
     if is_chinese(text) or is_japanese(text):
         if len(text) > 1:
             language= 'JP' if is_japanese(text) else 'ZH'
@@ -341,6 +401,7 @@ def infer_simple(
                 return audio
 if __name__ == "__main__":
     languages = [ "Auto", "ZH", "JP"]
     modelPaths = []
     for dirpath, dirnames, filenames in os.walk('Data/BangDream/models/'):
@@ -383,6 +444,7 @@ if __name__ == "__main__":
                                 language = gr.Dropdown(
                                         choices=languages, value="Auto", label="语言"
                                     )
                                 with gr.Accordion(label="参数设定", open=True):
                                     sdp_ratio = gr.Slider(
                                     minimum=0, maximum=1, value=0.5, step=0.01, label="SDP/DP混合比"
@@ -439,6 +501,7 @@ if __name__ == "__main__":
                             style_text,
                             style_weight,
                             language,
                         ],
                         outputs=[audio_output],
                     )
@@ -458,8 +521,12 @@ if __name__ == "__main__":
                     raw_text = gr.TextArea(
                                         label="文本输入",
                                         info="输入纯日语或者中文",
-                                        value="つくし|我是来结束这个乐队的。",
                     )
                     groupSize = gr.Slider(
                     minimum=10, maximum=1000 if  torch.cuda.is_available() else 50,value = 50, step=1, label="单个音频文件包含的最大字数"
                     )
@@ -472,14 +539,14 @@ if __name__ == "__main__":
                     )
                     spealerList = gr.TextArea(
                                         label="角色对应表,左边是你想要在每一句话合成中用到的speaker(见角色清单)右边是你上传文本时分隔符左边设置的说话人:{ChoseSpeakerFromConfigList}|{SeakerInUploadText}",
-                                        placeholder = "ましろ|真白\n七深|七深\n透子|透子\nつくし|筑紫\n瑠唯|瑠唯\nそよ|素世\n祥子|祥子",
                     )
                     speaker = gr.Dropdown(
                         choices=speakers, value = "ましろ", label="选择默认说话人"
                     )
                 with gr.Column():
                     sdp_ratio = gr.Slider(
-                    minimum=0, maximum=1, value=0.2, step=0.01, label="SDP/DP混合比"
                     )
                     noise_scale = gr.Slider(
                         minimum=0.1, maximum=2, value=0.6, step=0.01, label="感情调节"
@@ -505,9 +572,11 @@ if __name__ == "__main__":
                         spealerList,
                         silenceTime,
                         filepath,
-                        raw_text
                     ],
                     outputs=[LastAudioOutput],
                 )
     print("推理页面已开启!")
-    app.launch(share=True)

 import re
 from tools.translate import translate
+from fugashi import Tagger
+import jaconv
+import unidic
+import subprocess
+def download_unidic():
+    try:
+        Tagger()
+        print("Tagger launch successfully.")
+    except Exception as e:
+        print("UNIDIC dictionary not found, downloading...")
+        subprocess.run([sys.executable, "-m", "unidic", "download"])
+        print("Download completed.")
+def kanji_to_hiragana(text):
+    tagger = Tagger()
+    output = ""
+    # 更新正则表达式以更准确地区分文本和标点符号
+    segments = re.findall(r'[一-龥ぁ-んァ-ン\w]+|[^\一-龥ぁ-んァ-ン\w\s]', text, re.UNICODE)
+    for segment in segments:
+        if re.match(r'[一-龥ぁ-んァ-ン\w]+', segment):
+            # 如果是单词或汉字，转换为平假名
+            for word in tagger(segment):
+                kana = word.feature.kana or word.surface
+                hiragana = jaconv.kata2hira(kana)  # 将片假名转换为平假名
+                output += hiragana
+        else:
+            # 如果是标点符号，保持不变
+            output += segment
+    return output
 net_g = None
 device = (
     style_text=None,
     style_weight=0.7,
     language = "Auto",
+    fugashi = True
 ):
+    if fugashi:
+        text = kanji_to_hiragana(text) if is_japanese(text) else text
     if language == "Auto":
         language= 'JP' if is_japanese(text) else 'ZH'
     bert, ja_bert, en_bert, phones, tones, lang_ids = get_text(
     _ = utils.load_checkpoint(model, net_g, None, skip_optimizer=True)
     return "success"
+def generate_audio_and_srt_for_group(group, outputPath, group_index, sampling_rate, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime,language_force,fugashi = True):
     audio_fin = []
     ass_entries = []
     start_time = 0
                 if FakeSpeaker == i.split("|")[1]:
                     speaker = i.split("|")[0]
             if sentence != '\n':
+                text = (remove_annotations(sentence.split("|")[-1]).replace(" ","")+"。").replace("，。","。")
+                audio = infer_simple(
+                    text,
+                    sdp_ratio,
+                    noise_scale,
+                    noise_scale_w,
+                    length_scale,
+                    speaker,
+                    language_force,
+                    fugashi
+                )
                 silence_frames = int(silenceTime * 44010) if is_chinese(sentence) else int(silenceTime * 44010)
                 silence_data = np.zeros((silence_frames,), dtype=audio.dtype)
                 audio_fin.append(audio)
         f.write(ass_header + '\n'.join(ass_entries))
     return (hps.data.sampling_rate, np.concatenate(audio_fin))
+def audiobook(inputFile, groupsize, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime,filepath,raw_text,language_force,fugashi):
     directory_path = filepath if torch.cuda.is_available() else "books"
     if os.path.exists(directory_path):
         text = extract_text_from_file(inputFile.name)
     else:
         text = raw_text
+    if language_force == 'None':
+        sentences = extrac(extract_and_convert(text))
+    else:
+        sentences = extrac(text)
     GROUP_SIZE = groupsize
     for i in range(0, len(sentences), GROUP_SIZE):
         group = sentences[i:i+GROUP_SIZE]
         if spealerList == "":
             spealerList = "无"
+        result = generate_audio_and_srt_for_group(group,directory_path, i//GROUP_SIZE + 1, 44100, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime,language_force,fugashi)
         if not torch.cuda.is_available():
             return result
     return result
     noise_scale_w,
     length_scale,
     sid,
+    language_force = "None",
+    fugashi = True
 ):
+    if language_force == "JP":
+        text = translate(text,"jp")
+    if language_force == "ZH":
+        text = translate(text,"zh")
+    if fugashi:
+        text = kanji_to_hiragana(text) if is_japanese(text) else text
+    print(text)
     if is_chinese(text) or is_japanese(text):
         if len(text) > 1:
             language= 'JP' if is_japanese(text) else 'ZH'
                 return audio
 if __name__ == "__main__":
+    download_unidic()
     languages = [ "Auto", "ZH", "JP"]
     modelPaths = []
     for dirpath, dirnames, filenames in os.walk('Data/BangDream/models/'):
                                 language = gr.Dropdown(
                                         choices=languages, value="Auto", label="语言"
                                     )
+                                fugashi = gr.Checkbox(label="转化为片假名")
                                 with gr.Accordion(label="参数设定", open=True):
                                     sdp_ratio = gr.Slider(
                                     minimum=0, maximum=1, value=0.5, step=0.01, label="SDP/DP混合比"
                             style_text,
                             style_weight,
                             language,
+                            fugashi
                         ],
                         outputs=[audio_output],
                     )
                     raw_text = gr.TextArea(
                                         label="文本输入",
                                         info="输入纯日语或者中文",
+                                        value="筑紫|我是来结束这个乐队的。",
+                    )
+                    language_force = gr.Dropdown(
+                                        choices=[ "None", "ZH", "JP"], value="None", label="将文本翻译为目标语言"
                     )
+                    fugashi = gr.Checkbox(label="转化为片假名")
                     groupSize = gr.Slider(
                     minimum=10, maximum=1000 if  torch.cuda.is_available() else 50,value = 50, step=1, label="单个音频文件包含的最大字数"
                     )
                     )
                     spealerList = gr.TextArea(
                                         label="角色对应表,左边是你想要在每一句话合成中用到的speaker(见角色清单)右边是你上传文本时分隔符左边设置的说话人:{ChoseSpeakerFromConfigList}|{SeakerInUploadText}",
+                                        value = "ましろ|真白\n七深|七深\n透子|透子\nつくし|筑紫\n瑠唯|瑠唯\nそよ|素世\n祥子|祥子",
                     )
                     speaker = gr.Dropdown(
                         choices=speakers, value = "ましろ", label="选择默认说话人"
                     )
                 with gr.Column():
                     sdp_ratio = gr.Slider(
+                    minimum=0, maximum=1, value=0.5, step=0.01, label="SDP/DP混合比"
                     )
                     noise_scale = gr.Slider(
                         minimum=0.1, maximum=2, value=0.6, step=0.01, label="感情调节"
                         spealerList,
                         silenceTime,
                         filepath,
+                        raw_text,
+                        language_force,
+                        fugashi
                     ],
                     outputs=[LastAudioOutput],
                 )
     print("推理页面已开启!")
+    app.launch()