Spaces:

Staticaliza
/

Voice

Running

App Files Files Community

Staticaliza commited on Feb 2

Commit

dfe5a3d

verified ·

1 Parent(s): 9487e3f

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -8

app.py CHANGED Viewed

@@ -2,7 +2,7 @@
 import gradio as gr
 import spaces
 import torch
 from kokoro import KModel, KPipeline
 # Pre-Initialize
@@ -15,7 +15,6 @@ torch.set_num_threads(4)
 # Variables
 CHAR_LIMIT = 2000
 DEFAULT_INPUT = ""
 DEFAULT_VOICE = "af_heart"
@@ -59,8 +58,13 @@ for v in CHOICES.values():
     VOICE_PACKS[v] = PIPELINES[v[0]].load_voice(v)
 model_instance = KModel().to(DEVICE).eval()
-MODEL = torch.jit.script(model_instance)
 css = '''
 .gradio-container{max-width: 560px !important}
 h1{text-align:center}
@@ -69,16 +73,26 @@ footer {
 }
 '''
 # Functions
 def generate(text=DEFAULT_INPUT, voice=DEFAULT_VOICE, speed=1):
     text = text.strip()[:CHAR_LIMIT] + "."
     pipeline = PIPELINES[voice[0]]
     pack = VOICE_PACKS[voice]
     for _, ps, _ in pipeline(text, voice, speed):
         ref_s = pack[len(ps) - 1]
         audio = MODEL(ps, ref_s, speed)
-        return (24000, audio.numpy())
 def cloud():
     print("[CLOUD] | Space maintained.")
@@ -93,13 +107,10 @@ with gr.Blocks(css=css) as main:
         input = gr.Textbox(lines=1, value=DEFAULT_INPUT, label="Input")
         voice_input = gr.Dropdown(list(CHOICES.items()), value=DEFAULT_VOICE, label="Voice")
         speed_input = gr.Slider(minimum=0.5, maximum=2, value=1, step=0.1, label="Speed")
         submit = gr.Button("▶")
         maintain = gr.Button("☁️")
     with gr.Column():
         output = gr.Audio(label="Output")
     submit.click(fn=generate, inputs=[input, voice_input, speed_input], outputs=output)
     maintain.click(cloud, inputs=[], outputs=[], queue=False)

 import gradio as gr
 import spaces
 import torch
+import numpy as np
 from kokoro import KModel, KPipeline
 # Pre-Initialize
 # Variables
 CHAR_LIMIT = 2000
 DEFAULT_INPUT = ""
 DEFAULT_VOICE = "af_heart"
     VOICE_PACKS[v] = PIPELINES[v[0]].load_voice(v)
 model_instance = KModel().to(DEVICE).eval()
+try:
+    MODEL = torch.jit.script(model_instance)
+except Exception as e:
+    print("torch.jit.script failed, using original model:", e)
+    MODEL = model_instance
 css = '''
 .gradio-container{max-width: 560px !important}
 h1{text-align:center}
 }
 '''
+def trim_silence(audio, threshold=0.001):
+    abs_audio = np.abs(audio)
+    indices = np.where(abs_audio > threshold)[0]
+    if len(indices) == 0:
+        return audio
+    start = indices[0]
+    end = indices[-1] + 1
+    return audio[start:end]
 # Functions
 def generate(text=DEFAULT_INPUT, voice=DEFAULT_VOICE, speed=1):
     text = text.strip()[:CHAR_LIMIT] + "."
     pipeline = PIPELINES[voice[0]]
     pack = VOICE_PACKS[voice]
     for _, ps, _ in pipeline(text, voice, speed):
         ref_s = pack[len(ps) - 1]
         audio = MODEL(ps, ref_s, speed)
+        audio_np = audio.numpy()
+        trimmed_audio = trim_silence(audio_np)
+        return (24000, trimmed_audio)
 def cloud():
     print("[CLOUD] | Space maintained.")
         input = gr.Textbox(lines=1, value=DEFAULT_INPUT, label="Input")
         voice_input = gr.Dropdown(list(CHOICES.items()), value=DEFAULT_VOICE, label="Voice")
         speed_input = gr.Slider(minimum=0.5, maximum=2, value=1, step=0.1, label="Speed")
         submit = gr.Button("▶")
         maintain = gr.Button("☁️")
     with gr.Column():
         output = gr.Audio(label="Output")
     submit.click(fn=generate, inputs=[input, voice_input, speed_input], outputs=output)
     maintain.click(cloud, inputs=[], outputs=[], queue=False)