Spaces:

balthou
/

audio-separation

Running

App Files Files Community

balthou commited on Oct 2, 2024

Commit

e2d04e8

1 Parent(s): 55ca18f

Simplified pipeline for Gradio

Browse files

Files changed (3) hide show

src/gyraudio/audio_separation/properties.py +2 -2
src/gyraudio/audio_separation/visualization/audio_player.py +10 -10
src/gyraudio/audio_separation/visualization/interactive_audio.py +62 -58

src/gyraudio/audio_separation/properties.py CHANGED Viewed

@@ -68,8 +68,8 @@ CONFIGURATION = "configuration"
 # Signal names
 CLEAN = "clean"
-NOISY = "noise"
-MIXED = "mixed"
 PREDICTED = "predicted"

 # Signal names
 CLEAN = "clean"
+NOISY = "pure noise"
+MIXED = "noisy"
 PREDICTED = "predicted"

src/gyraudio/audio_separation/visualization/audio_player.py CHANGED Viewed

@@ -12,8 +12,8 @@ LOGOS = {
     PREDICTED: HERE/"play_logo_pred.png",
     MIXED: HERE/"play_logo_mixed.png",
     CLEAN: HERE/"play_logo_clean.png",
-    NOISY: HERE/"play_logo_noise.png",
-    MUTE: HERE/"mute_logo.png",
 }
 ICONS = [it for key, it in LOGOS.items()]
 KEYS = [key for key, it in LOGOS.items()]
@@ -22,7 +22,7 @@ ping_pong_index = 0
 @interactive(
-    player=Control(MUTE, KEYS, icons=ICONS))
 def audio_selector(sig, mixed, pred, global_params={}, player=MUTE):
     global_params["selected_audio"] = player if player != MUTE else global_params.get("selected_audio", MIXED)
@@ -40,8 +40,8 @@ def audio_selector(sig, mixed, pred, global_params={}, player=MUTE):
     return audio_track
-@interactive(
-    loop=KeyboardControl(True, keydown="l"))
 def audio_trim(audio_track, global_params={}, loop=True):
     sampling_rate = global_params.get(SAMPLING_RATE, 8000)
     if global_params.get("trim", False):
@@ -51,7 +51,7 @@ def audio_trim(audio_track, global_params={}, loop=True):
         repeat_factor = int(sampling_rate*4./(end-start))
         logging.debug(f"{repeat_factor}")
         repeat_factor = max(1, repeat_factor)
-        if loop:
             repeat_factor = 1
         audio_trim = audio_trim.repeat(1, repeat_factor)
         logging.debug(f"{audio_trim.shape}")
@@ -60,10 +60,10 @@ def audio_trim(audio_track, global_params={}, loop=True):
     return audio_trim
-@interactive(
-    volume=(100, [0, 1000], "volume"),
-)
-def audio_player(audio_trim, global_params={}, volume=100):
     sampling_rate = global_params.get(SAMPLING_RATE, 8000)
     try:
         if global_params.get(MUTE, True):

     PREDICTED: HERE/"play_logo_pred.png",
     MIXED: HERE/"play_logo_mixed.png",
     CLEAN: HERE/"play_logo_clean.png",
+    # NOISY: HERE/"play_logo_noise.png",
+    # MUTE: HERE/"mute_logo.png",
 }
 ICONS = [it for key, it in LOGOS.items()]
 KEYS = [key for key, it in LOGOS.items()]
 @interactive(
+    player=Control(PREDICTED, KEYS, icons=ICONS, name="Player selection"))
 def audio_selector(sig, mixed, pred, global_params={}, player=MUTE):
     global_params["selected_audio"] = player if player != MUTE else global_params.get("selected_audio", MIXED)
     return audio_track
+# @interactive(
+#     loop=KeyboardControl(True, keydown="l"))
 def audio_trim(audio_track, global_params={}, loop=True):
     sampling_rate = global_params.get(SAMPLING_RATE, 8000)
     if global_params.get("trim", False):
         repeat_factor = int(sampling_rate*4./(end-start))
         logging.debug(f"{repeat_factor}")
         repeat_factor = max(1, repeat_factor)
+        if not loop:
             repeat_factor = 1
         audio_trim = audio_trim.repeat(1, repeat_factor)
         logging.debug(f"{audio_trim.shape}")
     return audio_trim
+# @interactive(
+#     volume=(1000, [0, 1000], "volume"),
+# )
+def audio_player(audio_trim, global_params={}, volume=1000):
     sampling_rate = global_params.get(SAMPLING_RATE, 8000)
     try:
         if global_params.get(MUTE, True):

src/gyraudio/audio_separation/visualization/interactive_audio.py CHANGED Viewed

@@ -30,55 +30,6 @@ default_device = "cuda" if torch.cuda.is_available() else "cpu"
 LEARNT_SAMPLING_RATE = 8000
-@interactive(
-    idx=KeyboardControl(value_default=0, value_range=[
-                        0, 1000], modulo=True, keyup="8", keydown="2", name="clean signal index"),
-    idn=KeyboardControl(value_default=0, value_range=[
-                        0, 1000], modulo=True, keyup="9", keydown="3", name="noisy signal index")
-)
-def signal_selector(signals, idx=0, idn=0, global_params={}):
-    if isinstance(signals, dict):
-        clean_sigs = signals[CLEAN]
-        clean = clean_sigs[idx % len(clean_sigs)]
-        if BUFFERS not in clean:
-            load_buffers_custom(clean)
-        noise_sigs = signals[NOISY]
-        noise = noise_sigs[idn % len(noise_sigs)]
-        if BUFFERS not in noise:
-            load_buffers_custom(noise)
-        cbuf, nbuf = clean[BUFFERS], noise[BUFFERS]
-        if clean[SAMPLING_RATE] != LEARNT_SAMPLING_RATE:
-            cbuf = resample(cbuf, clean[SAMPLING_RATE], LEARNT_SAMPLING_RATE)
-            clean[SAMPLING_RATE] = LEARNT_SAMPLING_RATE
-        if noise[SAMPLING_RATE] != LEARNT_SAMPLING_RATE:
-            nbuf = resample(nbuf, noise[SAMPLING_RATE], LEARNT_SAMPLING_RATE)
-            noise[SAMPLING_RATE] = LEARNT_SAMPLING_RATE
-        min_length = min(cbuf.shape[-1], nbuf.shape[-1])
-        min_length = min_length - min_length % 1024
-        signal = {
-            PATHS: {
-                CLEAN: clean[PATHS],
-                NOISY: noise[PATHS]
-            },
-            BUFFERS: {
-                CLEAN: cbuf[..., :1, :min_length],
-                NOISY: nbuf[..., :1, :min_length],
-            },
-            NAME: f"Clean={clean[NAME]} | Noise={noise[NAME]}",
-            SAMPLING_RATE: LEARNT_SAMPLING_RATE
-        }
-    else:
-        # signals are loaded in CPU
-        signal = signals[idx % len(signals)]
-        if BUFFERS not in signal:
-            load_buffers(signal)
-        global_params["premixed_snr"] = signal.get("premixed_snr", None)
-        signal[NAME] = f"File={signal[NAME]}"
-    global_params["selected_info"] = signal[NAME]
-    global_params[SAMPLING_RATE] = signal[SAMPLING_RATE]
-    return signal
 @interactive(
     snr=(0., [-10., 10.], "SNR [dB]")
@@ -92,6 +43,7 @@ def remix(signals, snr=0., global_params={}):
     return mixed_signal
 @interactive(std_dev=Control(0., value_range=[0., 0.1], name="extra noise std", step=0.0001),
              amplify=(1., [0., 10.], "amplification of everything"))
 def augment(signals, mixed, std_dev=0., amplify=1.):
@@ -109,10 +61,10 @@ def select_device(device=default_device, global_params={}):
     global_params["device"] = device
-@interactive(
-    model=KeyboardControl(value_default=0, value_range=[
-                          0, 99], keyup="pagedown", keydown="pageup")
-)
 def audio_sep_inference(mixed, models, configs, model: int = 0, global_params={}):
     selected_model = models[model % len(models)]
     config = configs[model % len(models)]
@@ -161,11 +113,11 @@ def zin(sig, zoom, center, num_samples=300):
 @interactive(
     center=KeyboardControl(value_default=0.5, value_range=[
-                           0., 1.], step=0.01, keyup="6", keydown="4"),
-    zoom=KeyboardControl(value_default=0., value_range=[
-                         0., 15.], step=1, keyup="+", keydown="-"),
-    zoomy=KeyboardControl(
-        value_default=0., value_range=[-15., 15.], step=1, keyup="up", keydown="down")
 )
 def visualize_audio(signal: dict, mixed_signal, pred, zoom=1, zoomy=0., center=0.5, global_params={}):
     """Create curves
@@ -208,6 +160,58 @@ def visualize_audio(signal: dict, mixed_signal, pred, zoom=1, zoomy=0., center=0
     return Curve(curves, ylim=[-0.04 * 1.5 ** zoomy, 0.04 * 1.5 ** zoomy], xlabel="Time index", ylabel="Amplitude", title=title)
 def interactive_audio_separation_processing(signals, model_list, config_list):
     sig = signal_selector(signals)
     mixed = remix(sig)

 LEARNT_SAMPLING_RATE = 8000
 @interactive(
     snr=(0., [-10., 10.], "SNR [dB]")
     return mixed_signal
 @interactive(std_dev=Control(0., value_range=[0., 0.1], name="extra noise std", step=0.0001),
              amplify=(1., [0., 10.], "amplification of everything"))
 def augment(signals, mixed, std_dev=0., amplify=1.):
     global_params["device"] = device
+# @interactive(
+#     model=KeyboardControl(value_default=0, value_range=[
+#                           0, 99], keyup="pagedown", keydown="pageup")
+# )
 def audio_sep_inference(mixed, models, configs, model: int = 0, global_params={}):
     selected_model = models[model % len(models)]
     config = configs[model % len(models)]
 @interactive(
     center=KeyboardControl(value_default=0.5, value_range=[
+                           0., 1.], step=0.01, keyup="6", keydown="4", name="Trim (center)"),
+    zoom=KeyboardControl(value_default=3., value_range=[
+                         0., 15.], step=1, keyup="+", keydown="-", name="Trim (zoom)"),
+    # zoomy=KeyboardControl(
+    #     value_default=0., value_range=[-15., 15.], step=1, keyup="up", keydown="down")
 )
 def visualize_audio(signal: dict, mixed_signal, pred, zoom=1, zoomy=0., center=0.5, global_params={}):
     """Create curves
     return Curve(curves, ylim=[-0.04 * 1.5 ** zoomy, 0.04 * 1.5 ** zoomy], xlabel="Time index", ylabel="Amplitude", title=title)
+@interactive(
+    idx=("Voice 1", ["Voice 1", "Voice 2",], "Clean signal"),
+    # idx=KeyboardControl(value_default=0, value_range=[
+    #                     0, 1000], modulo=True, keyup="8", keydown="2", name="clean signal index"),
+    # idn=KeyboardControl(value_default=0, value_range=[
+    #                     0, 1000], modulo=True, keyup="9", keydown="3", name="noisy signal index")
+)
+def signal_selector(signals, idx="Voice 1", idn=0, global_params={}):
+    idx = int(idx.split("Voice ")[-1])
+    if isinstance(signals, dict):
+        clean_sigs = signals[CLEAN]
+        clean = clean_sigs[idx % len(clean_sigs)]
+        if BUFFERS not in clean:
+            load_buffers_custom(clean)
+        noise_sigs = signals[NOISY]
+        noise = noise_sigs[idn % len(noise_sigs)]
+        if BUFFERS not in noise:
+            load_buffers_custom(noise)
+        cbuf, nbuf = clean[BUFFERS], noise[BUFFERS]
+        if clean[SAMPLING_RATE] != LEARNT_SAMPLING_RATE:
+            cbuf = resample(cbuf, clean[SAMPLING_RATE], LEARNT_SAMPLING_RATE)
+            clean[SAMPLING_RATE] = LEARNT_SAMPLING_RATE
+        if noise[SAMPLING_RATE] != LEARNT_SAMPLING_RATE:
+            nbuf = resample(nbuf, noise[SAMPLING_RATE], LEARNT_SAMPLING_RATE)
+            noise[SAMPLING_RATE] = LEARNT_SAMPLING_RATE
+        min_length = min(cbuf.shape[-1], nbuf.shape[-1])
+        min_length = min_length - min_length % 1024
+        signal = {
+            PATHS: {
+                CLEAN: clean[PATHS],
+                NOISY: noise[PATHS]
+            },
+            BUFFERS: {
+                CLEAN: cbuf[..., :1, :min_length],
+                NOISY: nbuf[..., :1, :min_length],
+            },
+            NAME: f"Clean={clean[NAME]} | Noise={noise[NAME]}",
+            SAMPLING_RATE: LEARNT_SAMPLING_RATE
+        }
+    else:
+        # signals are loaded in CPU
+        signal = signals[idx % len(signals)]
+        if BUFFERS not in signal:
+            load_buffers(signal)
+        global_params["premixed_snr"] = signal.get("premixed_snr", None)
+        signal[NAME] = f"File={signal[NAME]}"
+    global_params["selected_info"] = signal[NAME]
+    global_params[SAMPLING_RATE] = signal[SAMPLING_RATE]
+    return signal
 def interactive_audio_separation_processing(signals, model_list, config_list):
     sig = signal_selector(signals)
     mixed = remix(sig)