Spaces:

hilamanor
/

audioEditing

Running on Zero

linoyts HF Staff commited on Mar 4, 2024

Commit

d648652

verified ·

1 Parent(s): a7153c1

limit input length (#2)

Files changed (2) hide show

app.py CHANGED Viewed

@@ -71,15 +71,6 @@ def sample(ldm_stable, zs, wts, steps, prompt_tar, tstart, cfg_scale_tar):  # ,
     return f.name
-# def change_tstart_range(t_start, steps):
-#     maximum = int(0.8 * steps)
-#     minimum = int(0.15 * steps)
-#     if t_start > maximum:
-#         t_start = maximum
-#     elif t_start < minimum:
-#         t_start = minimum
-#     return t_start
 def edit(input_audio,
          model_id: str,
@@ -93,13 +84,6 @@ def edit(input_audio,
          t_start=45,
          randomize_seed=True):
-    # global ldm_stable, current_loaded_model
-    # print(f'current loaded model: {ldm_stable.model_id}')
-    # if model_id != current_loaded_model:
-    #     print(f'Changing model to {model_id}...')
-    #     current_loaded_model = model_id
-    #     ldm_stable = None
-    #     ldm_stable = load_model(model_id, device)
     print(model_id)
     if model_id == LDM2:
         ldm_stable = ldm2
@@ -219,7 +203,7 @@ with gr.Blocks(css='style.css') as demo:
     do_inversion = gr.State(value=True)  # To save some runtime when editing the same thing over and over
     with gr.Row():
-        input_audio = gr.Audio(sources=["upload", "microphone"], max_length=15, type="filepath", label="Input Audio",
                                interactive=True, scale=1)
         output_audio = gr.Audio(label="Edited Audio", interactive=False, scale=1)

     return f.name
 def edit(input_audio,
          model_id: str,
          t_start=45,
          randomize_seed=True):
     print(model_id)
     if model_id == LDM2:
         ldm_stable = ldm2
     do_inversion = gr.State(value=True)  # To save some runtime when editing the same thing over and over
     with gr.Row():
+        input_audio = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Input Audio",
                                interactive=True, scale=1)
         output_audio = gr.Audio(label="Edited Audio", interactive=False, scale=1)

utils.py CHANGED Viewed

@@ -16,7 +16,7 @@ def load_audio(audio_path: Union[str, np.array], fn_STFT, left: int = 0, right:
         import audioldm
         import audioldm.audio
-        duration = audioldm.utils.get_duration(audio_path)
         mel, _, _ = audioldm.audio.wav_to_fbank(audio_path, target_length=int(duration * 102.4), fn_STFT=fn_STFT)
         mel = mel.unsqueeze(0)

         import audioldm
         import audioldm.audio
+        duration = min(audioldm.utils.get_duration(audio_path), 15)
         mel, _, _ = audioldm.audio.wav_to_fbank(audio_path, target_length=int(duration * 102.4), fn_STFT=fn_STFT)
         mel = mel.unsqueeze(0)