Spaces:

balthou
/

audio-separation

Building

App Files Files Community

balthou commited on Oct 13, 2024

Commit

769db2b

1 Parent(s): 5d8001d

support proper cache, fix inplace issue with legend in plot

Browse files

Files changed (3) hide show

app.py +5 -2
requirements.txt +1 -1
src/gyraudio/audio_separation/visualization/interactive_audio.py +12 -7

app.py CHANGED Viewed

@@ -3,6 +3,9 @@ import os
 src_path = os.path.abspath(os.path.join(os.path.dirname(__file__), 'src'))
 os.sys.path.append(src_path)
 from gyraudio.audio_separation.visualization.interactive_audio import main as interactive_audio_main
 if __name__ == "__main__":
-    # interactive_audio_main(sys.argv[1:])
-    interactive_audio_main(["-i", "__data_source_separation/source_separation/test/000*"])

 src_path = os.path.abspath(os.path.join(os.path.dirname(__file__), 'src'))
 os.sys.path.append(src_path)
 from gyraudio.audio_separation.visualization.interactive_audio import main as interactive_audio_main
 if __name__ == "__main__":
+    if len(sys.argv[1:]) ==0:
+        interactive_audio_main(["-i", "__data_source_separation/source_separation/test/000*"])
+    else:
+        interactive_audio_main(sys.argv[1:])

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 batch_processing
-interactive-pipe>=0.7.2
 torch>=2.0.0
 torchaudio
 scipy

 batch_processing
+interactive-pipe>=0.8.2
 torch>=2.0.0
 torchaudio
 scipy

src/gyraudio/audio_separation/visualization/interactive_audio.py CHANGED Viewed

@@ -52,7 +52,8 @@ def augment(signals, mixed, std_dev=0., amplify=1.):
 # @interactive(
-#     device=("cuda", ["cpu", "cuda"]) if default_device == "cuda" else ("cpu", ["cpu"])
 # )
 def select_device(device=default_device, global_params={}):
     global_params["device"] = device
@@ -76,6 +77,8 @@ def audio_sep_inference(mixed, models, configs, model: int = 0, global_params={}
     config = configs[model % len(models)]
     short_name = config.get(SHORT_NAME, "")
     annotations = config.get(ANNOTATIONS, "")
     device = global_params.get("device", "cpu")
     with torch.no_grad():
         selected_model.eval()
@@ -83,8 +86,7 @@ def audio_sep_inference(mixed, models, configs, model: int = 0, global_params={}
         predicted_signal, predicted_noise = selected_model(
             mixed.to(device).unsqueeze(0))
         predicted_signal = predicted_signal.squeeze(0)
-    pred_curve = SingleCurve(y=predicted_signal[0, :].detach().cpu().numpy(),
-                             style="g-", label=f"predicted_{short_name} {annotations}")
     return predicted_signal, pred_curve
@@ -125,14 +127,19 @@ def zin(sig, zoom, center, num_samples=300):
     # zoomy=KeyboardControl(
     #     value_default=0., value_range=[-15., 15.], step=1, keyup="up", keydown="down")
 )
-def visualize_audio(signal: dict, mixed_signal, pred, zoom=1, zoomy=0., center=0.5, global_params={}):
     """Create curves
     """
     zval = 1.5**zoom
     start_idx, end_idx, _skip_factor = get_trim(
         signal[BUFFERS][CLEAN][0, :], zval, center)
     global_params["trim"] = dict(start=start_idx, end=end_idx)
     selected = global_params.get("selected_audio", MIXED)
     clean = SingleCurve(y=zin(signal[BUFFERS][CLEAN][0, :], zval, center),
                         alpha=1.,
                         style="k-",
@@ -150,10 +157,8 @@ def visualize_audio(signal: dict, mixed_signal, pred, zoom=1, zoomy=0., center=0
                         label=("*" if selected == MIXED else " ") + "mixed")
     # true_mixed = SingleCurve(y=zin(signal[BUFFERS][MIXED][0, :], zval, center),
     #                          alpha=0.3, style="b-", linewidth=1, label="true mixed")
-    pred.y = zin(pred.y, zval, center)
-    pred.label = ("*" if selected == PREDICTED else " ") + pred.label
     curves = [noisy, mixed, pred, clean]
-    title = f"SNR  in {global_params['snr']:.1f} dB"
     if "selected_info" in global_params:
         title += f" | {global_params['selected_info']}"
     title += "\n"

 # @interactive(
+#     device=("cuda", ["cpu", "cuda"]
+#             ) if default_device == "cuda" else ("cpu", ["cpu"])
 # )
 def select_device(device=default_device, global_params={}):
     global_params["device"] = device
     config = configs[model % len(models)]
     short_name = config.get(SHORT_NAME, "")
     annotations = config.get(ANNOTATIONS, "")
+    global_params[SHORT_NAME] = short_name
+    global_params[ANNOTATIONS] = annotations
     device = global_params.get("device", "cpu")
     with torch.no_grad():
         selected_model.eval()
         predicted_signal, predicted_noise = selected_model(
             mixed.to(device).unsqueeze(0))
         predicted_signal = predicted_signal.squeeze(0)
+        pred_curve = predicted_signal.detach().cpu().numpy()
     return predicted_signal, pred_curve
     # zoomy=KeyboardControl(
     #     value_default=0., value_range=[-15., 15.], step=1, keyup="up", keydown="down")
 )
+def visualize_audio(signal: dict, mixed_signal, predicted_signal, zoom=1, zoomy=0., center=0.5, global_params={}):
     """Create curves
     """
+    selected = global_params.get("selected_audio", MIXED)
+    short_name = global_params.get(SHORT_NAME, "")
+    annotations = global_params.get(ANNOTATIONS, "")
     zval = 1.5**zoom
     start_idx, end_idx, _skip_factor = get_trim(
         signal[BUFFERS][CLEAN][0, :], zval, center)
     global_params["trim"] = dict(start=start_idx, end=end_idx)
     selected = global_params.get("selected_audio", MIXED)
+    pred = SingleCurve(y=zin(predicted_signal[0, :], zval, center),
+                       style="g-", label=("*" if selected == PREDICTED else " ")+f"predicted_{short_name} {annotations}")
     clean = SingleCurve(y=zin(signal[BUFFERS][CLEAN][0, :], zval, center),
                         alpha=1.,
                         style="k-",
                         label=("*" if selected == MIXED else " ") + "mixed")
     # true_mixed = SingleCurve(y=zin(signal[BUFFERS][MIXED][0, :], zval, center),
     #                          alpha=0.3, style="b-", linewidth=1, label="true mixed")
     curves = [noisy, mixed, pred, clean]
+    title = f"SNR  in {global_params.get('snr', np.NaN):.1f} dB"
     if "selected_info" in global_params:
         title += f" | {global_params['selected_info']}"
     title += "\n"