Spaces:

M4xjunior
/

locseed

Running

App Files Files Community

M4xjunior commited on Dec 1, 2024

Commit

d4320d1

verified ·

1 Parent(s): 035bd50

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -2

app.py CHANGED Viewed

@@ -57,14 +57,14 @@ def load_f5tts():
     ckpt_path = hf_hub_download(repo_id=repo_id, filename=filename, use_auth_token=token)
     F5TTS_model_cfg = dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)
-    return load_model(DiT, F5TTS_model_cfg, ckpt_path)
 # Carregar modelo F5TTS
 F5TTS_ema_model = load_f5tts()
 @gpu_decorator
 def infer(
-    ref_audio_orig, ref_text, gen_text, remove_silence, cross_fade_duration=0.15, speed=1, show_info=gr.Info
 ):
     ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text, show_info=show_info)
     ema_model = F5TTS_ema_model
@@ -75,6 +75,7 @@ def infer(
         ema_model,
         vocoder,
         cross_fade_duration=cross_fade_duration,
         speed=speed,
         show_info=show_info,
         progress=gr.Progress(),
@@ -140,6 +141,14 @@ with gr.Blocks(css=custom_css) as app:
                     step=0.1,
                     info="Ajuste a velocidade do áudio.",
                 )
                 cross_fade_duration_slider = gr.Slider(
                     label="Duração do Cross-fade (s)",
                     minimum=0.0,
@@ -170,6 +179,7 @@ with gr.Blocks(css=custom_css) as app:
                 remove_silence,
                 cross_fade_duration_slider,
                 speed_slider,
                 chunk_size_slider,
             ):
                 # Dividir o texto em sentenças
@@ -191,6 +201,7 @@ with gr.Blocks(css=custom_css) as app:
                         remove_silence,
                         cross_fade_duration_slider,
                         speed_slider,
                     )
                     sr, audio_data = audio_out
                     audio_segments.append(audio_data)

     ckpt_path = hf_hub_download(repo_id=repo_id, filename=filename, use_auth_token=token)
     F5TTS_model_cfg = dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)
+    return load_model(DiT, F5TTS_model_cfg, ckpt_path, use_ema=True)
 # Carregar modelo F5TTS
 F5TTS_ema_model = load_f5tts()
 @gpu_decorator
 def infer(
+    ref_audio_orig, ref_text, gen_text, remove_silence, cross_fade_duration=0.15, speed=1, nfe=32, show_info=gr.Info
 ):
     ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text, show_info=show_info)
     ema_model = F5TTS_ema_model
         ema_model,
         vocoder,
         cross_fade_duration=cross_fade_duration,
+        nfe_step=nfe,
         speed=speed,
         show_info=show_info,
         progress=gr.Progress(),
                     step=0.1,
                     info="Ajuste a velocidade do áudio.",
                 )
+                nfe_slider = gr.Slider(
+                    label="NFE Step",
+                    minimum=16,
+                    maximum=64,
+                    value=32,
+                    step=1,
+                    info="Ajuste a velocidade do áudio.",
+                )
                 cross_fade_duration_slider = gr.Slider(
                     label="Duração do Cross-fade (s)",
                     minimum=0.0,
                 remove_silence,
                 cross_fade_duration_slider,
                 speed_slider,
+                nfe_slider,
                 chunk_size_slider,
             ):
                 # Dividir o texto em sentenças
                         remove_silence,
                         cross_fade_duration_slider,
                         speed_slider,
+                        nfe_slider,
                     )
                     sr, audio_data = audio_out
                     audio_segments.append(audio_data)