Spaces:

balthou
/

audio-separation

Building

App Files Files Community

balthou commited on Oct 2, 2024

Commit

53c936d

1 Parent(s): fd22fde

update interface

Browse files

Files changed (1) hide show

src/gyraudio/audio_separation/visualization/interactive_audio.py +21 -23

src/gyraudio/audio_separation/visualization/interactive_audio.py CHANGED Viewed

@@ -21,8 +21,7 @@ import numpy as np
 import logging
 from interactive_pipe.data_objects.curves import Curve, SingleCurve
 from interactive_pipe import interactive, KeyboardControl, Control
-from interactive_pipe.headless.pipeline import HeadlessPipeline
-from interactive_pipe.graphical.gradio_gui import InteractivePipeGradio
 from gyraudio.audio_separation.visualization.audio_player import audio_selector, audio_trim, audio_player
@@ -30,7 +29,6 @@ default_device = "cuda" if torch.cuda.is_available() else "cpu"
 LEARNT_SAMPLING_RATE = 8000
 @interactive(
     snr=(0., [-10., 10.], "SNR [dB]")
 )
@@ -43,7 +41,6 @@ def remix(signals, snr=0., global_params={}):
     return mixed_signal
 @interactive(std_dev=Control(0., value_range=[0., 0.1], name="extra noise std", step=0.0001),
              amplify=(1., [0., 10.], "amplification of everything"))
 def augment(signals, mixed, std_dev=0., amplify=1.):
@@ -65,7 +62,16 @@ def select_device(device=default_device, global_params={}):
 #     model=KeyboardControl(value_default=0, value_range=[
 #                           0, 99], keyup="pagedown", keydown="pageup")
 # )
 def audio_sep_inference(mixed, models, configs, model: int = 0, global_params={}):
     selected_model = models[model % len(models)]
     config = configs[model % len(models)]
     short_name = config.get(SHORT_NAME, "")
@@ -114,7 +120,7 @@ def zin(sig, zoom, center, num_samples=300):
 @interactive(
     center=KeyboardControl(value_default=0.5, value_range=[
                            0., 1.], step=0.01, keyup="6", keydown="4", name="Trim (center)"),
-    zoom=KeyboardControl(value_default=3., value_range=[
                          0., 15.], step=1, keyup="+", keydown="-", name="Trim (zoom)"),
     # zoomy=KeyboardControl(
     #     value_default=0., value_range=[-15., 15.], step=1, keyup="up", keydown="down")
@@ -161,7 +167,8 @@ def visualize_audio(signal: dict, mixed_signal, pred, zoom=1, zoomy=0., center=0
 @interactive(
-    idx=("Voice 1", ["Voice 1", "Voice 2", "Voice 3", "Voice 4"], "Clean signal"),
     # idx=KeyboardControl(value_default=0, value_range=[
     #                     0, 1000], modulo=True, keyup="8", keydown="2", name="clean signal index"),
     # idn=KeyboardControl(value_default=0, value_range=[
@@ -230,23 +237,14 @@ def interactive_audio_separation_visualization(
         all_signals: List[dict],
         model_list: List[torch.nn.Module],
         config_list: List[dict],
-        gui="qt"
 ):
-    pip = HeadlessPipeline.from_function(
-        interactive_audio_separation_processing, cache=True)
-    if gui == "gradio":
-        app = InteractivePipeGradio(
-            pipeline=pip, name="audio separation", audio=True)
-    elif gui == "qt":
-        from interactive_pipe.graphical.qt_gui import InteractivePipeQT
-        app = InteractivePipeQT(
-            pipeline=pip, name="audio separation", size=(1000, 1000), audio=True)
-    else:
-        from interactive_pipe.graphical.mpl_gui import InteractivePipeMatplotlib
-        logging.warning("No support for audio player with Matplotlib")
-        app = InteractivePipeMatplotlib(
-            pipeline=pip, name="audio separation", size=None, audio=False)
-    app(all_signals, model_list, config_list)
 def visualization(
@@ -285,7 +283,7 @@ def parse_command_line_gradio(parser: Batch = None, gradio_demo=True) -> argpars
         parser = parse_command_line_audio_load()
     default_device = "cuda" if torch.cuda.is_available() else "cpu"
     iparse = parser.add_argument_group("Audio separation visualization")
-    iparse.add_argument("-e",  "--experiments", type=int, nargs="+", default=[3001,],
                         help="Experiment ids to be inferred sequentially")
     iparse.add_argument("-p", "--interactive", default=True,
                         action="store_true", help="Play = Interactive mode")

 import logging
 from interactive_pipe.data_objects.curves import Curve, SingleCurve
 from interactive_pipe import interactive, KeyboardControl, Control
+from interactive_pipe import interactive_pipeline
 from gyraudio.audio_separation.visualization.audio_player import audio_selector, audio_trim, audio_player
 LEARNT_SAMPLING_RATE = 8000
 @interactive(
     snr=(0., [-10., 10.], "SNR [dB]")
 )
     return mixed_signal
 @interactive(std_dev=Control(0., value_range=[0., 0.1], name="extra noise std", step=0.0001),
              amplify=(1., [0., 10.], "amplification of everything"))
 def augment(signals, mixed, std_dev=0., amplify=1.):
 #     model=KeyboardControl(value_default=0, value_range=[
 #                           0, 99], keyup="pagedown", keydown="pageup")
 # )
+ALL_MODELS = ["Tiny UNET", "Large UNET", "Large UNET (Bias Free)"]
+@interactive(
+    model=(ALL_MODELS[-1], ALL_MODELS, "Model selection")
+)
 def audio_sep_inference(mixed, models, configs, model: int = 0, global_params={}):
+    if isinstance(model, str):
+        model = ALL_MODELS.index(model)
+    assert isinstance(model, int)
     selected_model = models[model % len(models)]
     config = configs[model % len(models)]
     short_name = config.get(SHORT_NAME, "")
 @interactive(
     center=KeyboardControl(value_default=0.5, value_range=[
                            0., 1.], step=0.01, keyup="6", keydown="4", name="Trim (center)"),
+    zoom=KeyboardControl(value_default=0., value_range=[
                          0., 15.], step=1, keyup="+", keydown="-", name="Trim (zoom)"),
     # zoomy=KeyboardControl(
     #     value_default=0., value_range=[-15., 15.], step=1, keyup="up", keydown="down")
 @interactive(
+    idx=("Voice 1", ["Voice 1", "Voice 2",
+         "Voice 3", "Voice 4"], "Clean signal"),
     # idx=KeyboardControl(value_default=0, value_range=[
     #                     0, 1000], modulo=True, keyup="8", keydown="2", name="clean signal index"),
     # idn=KeyboardControl(value_default=0, value_range=[
         all_signals: List[dict],
         model_list: List[torch.nn.Module],
         config_list: List[dict],
+        gui="gradio"
 ):
+    interactive_pipeline(gui=gui, cache=True, audio=True)(
+        interactive_audio_separation_processing
+    )(
+        all_signals, model_list, config_list
+    )
 def visualization(
         parser = parse_command_line_audio_load()
     default_device = "cuda" if torch.cuda.is_available() else "cpu"
     iparse = parser.add_argument_group("Audio separation visualization")
+    iparse.add_argument("-e",  "--experiments", type=int, nargs="+", default=[4, 1004, 3001,],
                         help="Experiment ids to be inferred sequentially")
     iparse.add_argument("-p", "--interactive", default=True,
                         action="store_true", help="Play = Interactive mode")