Spaces:

waysolong
/

text_to_speech

Sleeping

waysolong commited on Mar 13, 2024

Commit

77efc8b

1 Parent(s): a4d821b

opt time

Files changed (2) hide show

app.py CHANGED Viewed

@@ -20,13 +20,14 @@
 # https://gradio.app/docs/#dropdown
 import logging
-import os
 import time
 import gradio as gr
 import yaml
 from model import get_pretrained_model, language_to_models
 title = "# Text-to-speech (TTS)"
 description = """
@@ -74,16 +75,9 @@ def process(language: str, repo_id: str, text: str, sid: str, speed: float):
     logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
     sid = int(sid)
-    config = "examples/biaobei/config.yaml"
-    checkpoint = "checkpoints/checkpoint_140000.pth.tar"
-    if os.path.exists(config):
-        print("file cunzai ")
-    else:
-        print("12")
-    with open(config) as f:
-        config = yaml.safe_load(f)
     start = time.time()
-    dst_file, duration = get_pretrained_model(text,config,checkpoint)
     end = time.time()
@@ -102,10 +96,30 @@ def process(language: str, repo_id: str, text: str, sid: str, speed: float):
     return dst_file, build_html_output(info)
 demo = gr.Blocks(css=css)
 with demo:
     gr.Markdown(title)
     language_choices = list(language_to_models.keys())

 # https://gradio.app/docs/#dropdown
 import logging
+import os,torch
 import time
 import gradio as gr
 import yaml
 from model import get_pretrained_model, language_to_models
+from mtts.text import TextProcessor
+from mtts.models.fs2_model import FastSpeech2
 title = "# Text-to-speech (TTS)"
 description = """
     logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
     sid = int(sid)
     start = time.time()
+    dst_file, duration = get_pretrained_model(model,text,config,text_processor,vocoder)
     end = time.time()
     return dst_file, build_html_output(info)
+def __build_vocoder(config):
+    vocoder_name = config['vocoder']['type']
+    VocoderClass = eval(vocoder_name)
+    model = VocoderClass(config=config['vocoder'][vocoder_name])
+    return model
 demo = gr.Blocks(css=css)
+config = "examples/biaobei/config.yaml"
+checkpoint = "checkpoints/checkpoint_140000.pth.tar"
+if os.path.exists(config):
+    print("file cunzai ")
+else:
+    print("12")
+with open(config) as f:
+    config = yaml.safe_load(f)
+vocoder = __build_vocoder(config)
+text_processor = TextProcessor(config)
+model = FastSpeech2(config)
+if checkpoint != '':
+    print("loading model")
+    sd = torch.load(checkpoint, map_location="cpu")
+    if 'model' in sd.keys():
+        sd = sd['model']
+model.load_state_dict(sd)
+model = model.to("cpu")
 with demo:
     gr.Markdown(title)
     language_choices = list(language_to_models.keys())

model.py CHANGED Viewed

@@ -1,8 +1,7 @@
 import torch,json,os
 from mtts.models.vocoder import *
 from scipy.io import wavfile
-from mtts.text import TextProcessor
-from mtts.models.fs2_model import FastSpeech2
 import numpy as np
 with open("dict_han_pinyin.json","r",encoding="utf-8") as f:
     print("loading")
@@ -32,27 +31,10 @@ def to_int16(wav):
     wav = np.clamp(wav, -32767, 32768)
     return wav.astype('int16')
-def __build_vocoder(config):
-    vocoder_name = config['vocoder']['type']
-    VocoderClass = eval(vocoder_name)
-    model = VocoderClass(config=config['vocoder'][vocoder_name])
-    return model
-def get_pretrained_model(line,config,checkpoint):
     sr = config['fbank']['sample_rate']
-    vocoder = __build_vocoder(config)
-    text_processor = TextProcessor(config)
-    model = FastSpeech2(config)
-    if checkpoint != '':
-        sd = torch.load(checkpoint, map_location="cpu")
-        if 'model' in sd.keys():
-            sd = sd['model']
-    model.load_state_dict(sd)
-    model = model.to("cpu")
-    torch.set_grad_enabled(False)
     pinyin = ""
     hanzi = ""
     for i in line:

 import torch,json,os
 from mtts.models.vocoder import *
 from scipy.io import wavfile
 import numpy as np
 with open("dict_han_pinyin.json","r",encoding="utf-8") as f:
     print("loading")
     wav = np.clamp(wav, -32767, 32768)
     return wav.astype('int16')
+def get_pretrained_model(model,line,config,text_processor,vocoder):
     sr = config['fbank']['sample_rate']
     pinyin = ""
     hanzi = ""
     for i in line: