Spaces:

GroveStreet
/

GTA_SOVITS

Running

App Files Files Community

Katock commited on Aug 9, 2023

Commit

77ab97d

1 Parent(s): c0c81a2

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -20

app.py CHANGED Viewed

@@ -1,13 +1,14 @@
 import argparse
-import io
 import logging
 import os
 import subprocess
 import gradio as gr
-import gradio.processing_utils as gr_processing_utils
 import librosa
 import numpy as np
 import soundfile
 from inference.infer_tool import Svc
@@ -17,11 +18,20 @@ logging.getLogger('urllib3').setLevel(logging.WARNING)
 logging.getLogger('matplotlib').setLevel(logging.WARNING)
 limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingface spaces
 def create_fn(model, spk):
-    def svc_infer(audio_path, vc_transform, f0p, auto_f0):
-        out_audio = model.slice_inference(raw_audio_path=audio_path,
                                           spk=spk,
                                           slice_db=-40,
                                           cluster_infer_ratio=0,
@@ -30,23 +40,14 @@ def create_fn(model, spk):
                                           tran=vc_transform,
                                           f0_predictor=f0p,
                                           auto_predict_f0=auto_f0)
-        os.remove(audio_path)
-        return 44100, out_audio
-    def svc_fn(input_audio, vc_transform, auto_f0, f0p):
-        if input_audio is None:
-            return 0, None
-        sampling_rate, audio = input_audio
-        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
-        if len(audio.shape) > 1:
-            audio = librosa.to_mono(audio.transpose(1, 0))
-        temp_path = "temp.wav"
-        soundfile.write(temp_path, audio, sampling_rate, format="wav")
-        return svc_infer(temp_path, vc_transform, auto_f0, f0p)
     def tts_fn(input_text, gender, tts_rate, vc_transform, auto_f0, f0p):
         if input_text == '':
             return 0, None
         voice = "zh-CN-XiaoyiNeural" if gender == '女' else "zh-CN-YunxiNeural"
         ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
         temp_path = "temp.wav"
@@ -58,7 +59,15 @@ def create_fn(model, spk):
                              stdout=subprocess.PIPE,
                              stdin=subprocess.PIPE)
         p.wait()
-        return svc_infer(temp_path, vc_transform, auto_f0, f0p)
     return svc_fn, tts_fn
@@ -88,7 +97,7 @@ if __name__ == '__main__':
                         with gr.Column():
                             with gr.Row():
                                 vc_transform = gr.Number(label="音高调整 (正负半音，12为一个八度)", value=0)
-                                auto_f0 = gr.Checkbox(label="自动音高预测 (正常说话可选)", value=False)
                             f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                     choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
                             with gr.Tabs():
@@ -108,7 +117,7 @@ if __name__ == '__main__':
                         with gr.Column():
                             gr.Markdown(
                                 '<div align="center">'
-                                f'<img style="width:auto;height:300px;" src="file/{cover}">' if cover else ""
                                                                                                            '</div>'
                             )
                             vc_output = gr.Audio(label="输出音频")

 import argparse
 import logging
 import os
+import re
 import subprocess
+import gradio.processing_utils as gr_pu
 import gradio as gr
 import librosa
 import numpy as np
 import soundfile
+from scipy.io import wavfile
 from inference.infer_tool import Svc
 logging.getLogger('matplotlib').setLevel(logging.WARNING)
 limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingface spaces
+sampling_rate = 44100
 def create_fn(model, spk):
+    def svc_fn(input_audio, vc_transform, auto_f0, f0p):
+        if input_audio is None:
+            return 0, None
+        sr, audio = input_audio
+        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
+        if len(audio.shape) > 1:
+            audio = librosa.to_mono(audio.transpose(1, 0))
+        temp_path = "temp.wav"
+        soundfile.write(temp_path, audio, sr, format="wav")
+        out_audio = model.slice_inference(raw_audio_path=temp_path,
                                           spk=spk,
                                           slice_db=-40,
                                           cluster_infer_ratio=0,
                                           tran=vc_transform,
                                           f0_predictor=f0p,
                                           auto_predict_f0=auto_f0)
+        os.remove(temp_path)
+        return sr, out_audio
     def tts_fn(input_text, gender, tts_rate, vc_transform, auto_f0, f0p):
         if input_text == '':
             return 0, None
+        input_text = re.sub(r"[\n\,\(\) ]", "", input_text)
         voice = "zh-CN-XiaoyiNeural" if gender == '女' else "zh-CN-YunxiNeural"
         ratestr = "+{:.0%}".format(tts_rate) if tts_rate >= 0 else "{:.0%}".format(tts_rate)
         temp_path = "temp.wav"
                              stdout=subprocess.PIPE,
                              stdin=subprocess.PIPE)
         p.wait()
+        audio, sr = librosa.load(temp_path)
+        audio = librosa.resample(audio, orig_sr=sr, target_sr=sampling_rate)
+        os.remove(temp_path)
+        temp_path = "temp.wav"
+        wavfile.write(temp_path, sampling_rate, (audio * np.iinfo(np.int16).max).astype(np.int16))
+        sr, audio = gr_pu.audio_from_file(temp_path)
+        input_audio = (sr, audio)
+        return svc_fn(input_audio, vc_transform, auto_f0, f0p)
     return svc_fn, tts_fn
                         with gr.Column():
                             with gr.Row():
                                 vc_transform = gr.Number(label="音高调整 (正负半音，12为一个八度)", value=0)
+                                auto_f0 = gr.Checkbox(label="自动音高预测 (文本转语音可选)", value=False)
                             f0_predictor = gr.Radio(label="f0预测器 (对电音有影响)",
                                                     choices=['crepe', 'harvest', 'dio', 'pm'], value='crepe')
                             with gr.Tabs():
                         with gr.Column():
                             gr.Markdown(
                                 '<div align="center">'
+                                f'<img style="width:auto;height:400px;" src="file/{cover}">' if cover else ""
                                                                                                            '</div>'
                             )
                             vc_output = gr.Audio(label="输出音频")