Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on Jan 7

Commit

922f0b3

1 Parent(s): a8c8d73

update

Browse files

Files changed (3) hide show

main.py +125 -39
requirements.txt +2 -0
toolbox/audio_edit/reverb.py +84 -0

main.py CHANGED Viewed

@@ -10,10 +10,13 @@ import argparse
 import json
 from pathlib import Path
 import platform
 from typing import Tuple, List
 import gradio as gr
 import numpy as np
 from project_settings import project_path
 from toolbox.audio_edit.info import get_audio_info, engine_to_function as info_engine_to_function
@@ -21,6 +24,7 @@ from toolbox.audio_edit.convert import audio_convert, engine_to_function as cvt_
 from toolbox.audio_edit.speech_speed import change_speech_speed, engine_to_function as speed_engine_to_function
 from toolbox.audio_edit.volume import change_volume, engine_to_function as volume_engine_to_function
 from toolbox.audio_edit.augment import mix_speech_and_noise
 def get_args():
@@ -34,7 +38,24 @@ def get_args():
     return args
-def when_click_get_audio_info(filename: str, engine: str) -> str:
     message = "success"
     try:
@@ -47,12 +68,15 @@ def when_click_get_audio_info(filename: str, engine: str) -> str:
     return result, message
-def when_click_audio_convert(filename: str,
                              to_sample_rate: int = 8000,
                              sample_width: int = 2,
                              channels: str = "0",
                              engine: str = "librosa",
                              ) -> Tuple[str, str, str, str]:
     message = "success"
     try:
@@ -62,50 +86,62 @@ def when_click_audio_convert(filename: str,
                                           channels=channels,
                                           engine=engine,
                                           )
-        origin_audio_info, _ = when_click_get_audio_info(filename, engine="wave")
-        output_audio_info, _ = when_click_get_audio_info(output_file, engine="wave")
     except Exception as e:
         output_file = None
         origin_audio_info = None
         output_audio_info = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
-    return filename, output_file, output_file, origin_audio_info, output_audio_info, message
-def when_click_change_speech_speed(filename: str, speed: float = 1.0, engine: str = "librosa"):
     message = "success"
     try:
         output_file: str = change_speech_speed(filename, speed, engine)
-        origin_audio_info, _ = when_click_get_audio_info(filename, engine="pydub")
-        output_audio_info, _ = when_click_get_audio_info(output_file, engine="pydub")
     except Exception as e:
         output_file = None
         origin_audio_info = None
         output_audio_info = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
-    return filename, output_file, output_file, origin_audio_info, output_audio_info, message
-def when_click_change_volume(filename: str,
                              radio: float = 1.0,
                              decibel: float = 0.0,
                              reference: str = None,
                              engine: str = "by_ffmpy_by_db",
                              ):
     message = "success"
     try:
         output_file: str = change_volume(filename, radio, decibel, reference, engine)
     except Exception as e:
         output_file = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
-    return filename, output_file, output_file, message
-def when_click_pad_audio(audio, pad_seconds: int = 10, pad_mode: str = "zero"):
-    sample_rate, signal = audio
     message = "success"
@@ -135,6 +171,28 @@ def when_click_pad_audio(audio, pad_seconds: int = 10, pad_mode: str = "zero"):
     return (sample_rate, pad_signal), message
 def when_click_mix_speech_and_noise(speech_t, noise_t, snr_db: float):
     sample_rate1, speech = speech_t
     sample_rate2, noise = noise_t
@@ -184,7 +242,7 @@ change_volume_examples = [
     ],
     [
         (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
-        -0.5, 0.0,
         None,
         "by_ffmpy_by_radio"
     ],
@@ -211,6 +269,20 @@ pad_audio_examples = [
 ]
 mix_speech_and_noise_examples = [
     [
         (project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
@@ -247,6 +319,7 @@ def main():
     cvt_choices = list(cvt_engine_to_function.keys())
     speed_choices = list(speed_engine_to_function.keys())
     volume_choices = list(volume_engine_to_function.keys())
     # ui
     with gr.Blocks() as blocks:
@@ -254,7 +327,7 @@ def main():
             with gr.TabItem("info"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
-                        info_audio = gr.File(label="audio")
                         info_engine = gr.Dropdown(choices=info_choices, value=info_choices[0], label="engine")
                         info_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
@@ -278,7 +351,6 @@ def main():
             with gr.TabItem("convert"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
-                        cvt_audio_file = gr.File(label="audio_file")
                         cvt_audio = gr.Audio(label="audio")
                         with gr.Row():
@@ -291,7 +363,6 @@ def main():
                             cvt_engine = gr.Dropdown(choices=cvt_choices, value=cvt_choices[0], label="engine")
                         cvt_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
-                        cvt_output_audio_file = gr.File(label="output_audio_file")
                         cvt_output_audio = gr.Audio(label="output_audio")
                         cvt_origin_audio_info = gr.Text(label="origin_audio_info")
                         cvt_output_audio_info = gr.Text(label="output_audio_info")
@@ -299,13 +370,12 @@ def main():
                 gr.Examples(
                     examples=audio_convert_examples,
                     inputs=[
-                        cvt_audio_file,
                         cvt_sample_rate, cvt_sample_width, cvt_channels,
                         cvt_engine,
                     ],
                     outputs=[
-                        cvt_audio,
-                        cvt_output_audio_file, cvt_output_audio,
                         cvt_origin_audio_info, cvt_output_audio_info,
                         cvt_log
                     ],
@@ -314,13 +384,12 @@ def main():
                 cvt_button.click(
                     when_click_audio_convert,
                     inputs=[
-                        cvt_audio_file,
                         cvt_sample_rate, cvt_sample_width, cvt_channels,
                         cvt_engine,
                     ],
                     outputs=[
-                        cvt_audio,
-                        cvt_output_audio_file, cvt_output_audio,
                         cvt_origin_audio_info, cvt_output_audio_info,
                         cvt_log
                     ],
@@ -328,14 +397,12 @@ def main():
             with gr.TabItem("speech_speed"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
-                        speech_speed_audio_file = gr.File(label="audio_file")
                         speech_speed_audio = gr.Audio(label="audio")
                         with gr.Row():
                             speech_speed_speed = gr.Slider(minimum=0.0, maximum=4.0, value=1.0, label="speed")
                             speech_speed_engine = gr.Dropdown(choices=speed_choices, value=speed_choices[0], label="engine")
                         speech_speed_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
-                        speech_speed_output_audio_file = gr.File(label="output_audio_file")
                         speech_speed_output_audio = gr.Audio(label="output_audio")
                         speech_speed_origin_audio_info = gr.Text(label="origin_audio_info")
                         speech_speed_output_audio_info = gr.Text(label="output_audio_info")
@@ -345,10 +412,9 @@ def main():
                         [filename.as_posix(), 0.5]
                         for filename in examples_dir.glob("**/*.wav")
                     ],
-                    inputs=[speech_speed_audio_file, speech_speed_speed, speech_speed_engine],
                     outputs=[
-                        speech_speed_audio,
-                        speech_speed_output_audio_file, speech_speed_output_audio,
                         speech_speed_origin_audio_info, speech_speed_output_audio_info,
                         speech_speed_log,
                     ],
@@ -356,10 +422,9 @@ def main():
                 )
                 speech_speed_button.click(
                     when_click_change_speech_speed,
-                    inputs=[speech_speed_audio_file, speech_speed_speed, speech_speed_engine],
                     outputs=[
-                        speech_speed_audio,
-                        speech_speed_output_audio_file, speech_speed_output_audio,
                         speech_speed_origin_audio_info, speech_speed_output_audio_info,
                         speech_speed_log,
                     ]
@@ -367,7 +432,6 @@ def main():
             with gr.TabItem("volume"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
-                        volume_audio_file = gr.File(label="audio_file")
                         volume_speed_audio = gr.Audio(label="audio")
                         with gr.Row():
                             with gr.Column():
@@ -379,26 +443,23 @@ def main():
                         volume_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
-                        volume_output_audio_file = gr.File(label="output_audio_file")
                         volume_output_audio = gr.Audio(label="output_audio")
                         volume_log = gr.Text(label="log")
                 gr.Examples(
                     examples=change_volume_examples,
-                    inputs=[volume_audio_file, volume_radio, volume_decibel, volume_reference, volume_engine],
                     outputs=[
-                        volume_speed_audio,
-                        volume_output_audio_file, volume_output_audio,
                         volume_log,
                     ],
                     fn=when_click_change_volume,
                 )
                 volume_button.click(
                     when_click_change_volume,
-                    inputs=[volume_audio_file, volume_radio, volume_decibel, volume_reference, volume_engine],
                     outputs=[
-                        volume_speed_audio,
-                        volume_output_audio_file, volume_output_audio,
                         volume_log,
                     ]
                 )
@@ -429,7 +490,32 @@ def main():
                         pad_output_audio, pad_log
                     ],
                 )
             with gr.TabItem("mix"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):

 import json
 from pathlib import Path
 import platform
+import tempfile
 from typing import Tuple, List
+import uuid
 import gradio as gr
 import numpy as np
+from scipy.io import wavfile
 from project_settings import project_path
 from toolbox.audio_edit.info import get_audio_info, engine_to_function as info_engine_to_function
 from toolbox.audio_edit.speech_speed import change_speech_speed, engine_to_function as speed_engine_to_function
 from toolbox.audio_edit.volume import change_volume, engine_to_function as volume_engine_to_function
 from toolbox.audio_edit.augment import mix_speech_and_noise
+from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
 def get_args():
     return args
+def save_input_audio(sample_rate: int, signal: np.ndarray) -> str:
+    temp_audio_dir = Path(tempfile.gettempdir()) / "input_audio"
+    temp_audio_dir.mkdir(parents=True, exist_ok=True)
+    filename = temp_audio_dir / f"{uuid.uuid4()}.wav"
+    filename = filename.as_posix()
+    wavfile.write(
+        filename,
+        sample_rate, signal
+    )
+    return filename
+def when_click_get_audio_info(audio_t, engine: str):
+    sample_rate, signal = audio_t
+    filename = save_input_audio(sample_rate, signal)
     message = "success"
     try:
     return result, message
+def when_click_audio_convert(audio_t,
                              to_sample_rate: int = 8000,
                              sample_width: int = 2,
                              channels: str = "0",
                              engine: str = "librosa",
                              ) -> Tuple[str, str, str, str]:
+    sample_rate, signal = audio_t
+    filename = save_input_audio(sample_rate, signal)
     message = "success"
     try:
                                           channels=channels,
                                           engine=engine,
                                           )
+        origin_audio_info: dict = get_audio_info(filename, engine="wave")
+        origin_audio_info = json.dumps(origin_audio_info, ensure_ascii=False, indent=4)
+        output_audio_info: dict = get_audio_info(output_file, engine="wave")
+        output_audio_info = json.dumps(output_audio_info, ensure_ascii=False, indent=4)
     except Exception as e:
         output_file = None
         origin_audio_info = None
         output_audio_info = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return output_file, origin_audio_info, output_audio_info, message
+def when_click_change_speech_speed(audio_t, speed: float = 1.0, engine: str = "librosa"):
+    sample_rate, signal = audio_t
+    filename = save_input_audio(sample_rate, signal)
     message = "success"
     try:
         output_file: str = change_speech_speed(filename, speed, engine)
+        origin_audio_info: dict = get_audio_info(filename, engine="pydub")
+        origin_audio_info = json.dumps(origin_audio_info, ensure_ascii=False, indent=4)
+        output_audio_info: dict = get_audio_info(output_file, engine="pydub")
+        output_audio_info = json.dumps(output_audio_info, ensure_ascii=False, indent=4)
     except Exception as e:
         output_file = None
         origin_audio_info = None
         output_audio_info = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return output_file, origin_audio_info, output_audio_info, message
+def when_click_change_volume(audio_t: str,
                              radio: float = 1.0,
                              decibel: float = 0.0,
                              reference: str = None,
                              engine: str = "by_ffmpy_by_db",
                              ):
+    sample_rate, signal = audio_t
+    filename = save_input_audio(sample_rate, signal)
     message = "success"
     try:
         output_file: str = change_volume(filename, radio, decibel, reference, engine)
     except Exception as e:
         output_file = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return output_file, message
+def when_click_pad_audio(audio_t, pad_seconds: int = 10, pad_mode: str = "zero"):
+    sample_rate, signal = audio_t
     message = "success"
     return (sample_rate, pad_signal), message
+def when_click_reverb(audio_t, kwargs: str, engine: str):
+    sample_rate, signal = audio_t
+    message = "success"
+    try:
+        signal = np.array(signal / (1 << 15), dtype=np.float32)
+        kwargs = json.loads(kwargs)
+        reverberated_audio = reverb(
+            signal=signal,
+            sample_rate=sample_rate,
+            engine=engine,
+            **kwargs,
+        )
+        reverberated_audio = np.array(reverberated_audio * (1 << 15), dtype=np.int16)
+    except Exception as e:
+        reverberated_audio = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return (sample_rate, reverberated_audio), message
 def when_click_mix_speech_and_noise(speech_t, noise_t, snr_db: float):
     sample_rate1, speech = speech_t
     sample_rate2, noise = noise_t
     ],
     [
         (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        0.3, 0.0,
         None,
         "by_ffmpy_by_radio"
     ],
 ]
+reverb_examples = [
+    [
+        (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
+        '{\n    "room_size": 0.25,\n    "damping": 0.5,\n    "width": 1.0,\n    "dry_level": 0.4,\n    "wet_level": 0.6,\n    "freeze_mode": false\n}',
+        "pedalboard",
+    ],
+    [
+        (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
+        '{\n    "room_size": [4.0, 6.0],\n    "source_position": [2.5, 4.5],\n    "microphone_array": [\n        [1.5, 1.5],\n        [2.5, 1.5]\n    ],\n    "output_microphone_idx": 0\n}',
+        "pyroomacoustics",
+    ]
+]
 mix_speech_and_noise_examples = [
     [
         (project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
     cvt_choices = list(cvt_engine_to_function.keys())
     speed_choices = list(speed_engine_to_function.keys())
     volume_choices = list(volume_engine_to_function.keys())
+    reverb_choices = list(reverb_engine_to_function.keys())
     # ui
     with gr.Blocks() as blocks:
             with gr.TabItem("info"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
+                        info_audio = gr.Audio(label="audio")
                         info_engine = gr.Dropdown(choices=info_choices, value=info_choices[0], label="engine")
                         info_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
             with gr.TabItem("convert"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
                         cvt_audio = gr.Audio(label="audio")
                         with gr.Row():
                             cvt_engine = gr.Dropdown(choices=cvt_choices, value=cvt_choices[0], label="engine")
                         cvt_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
                         cvt_output_audio = gr.Audio(label="output_audio")
                         cvt_origin_audio_info = gr.Text(label="origin_audio_info")
                         cvt_output_audio_info = gr.Text(label="output_audio_info")
                 gr.Examples(
                     examples=audio_convert_examples,
                     inputs=[
+                        cvt_audio,
                         cvt_sample_rate, cvt_sample_width, cvt_channels,
                         cvt_engine,
                     ],
                     outputs=[
+                        cvt_output_audio,
                         cvt_origin_audio_info, cvt_output_audio_info,
                         cvt_log
                     ],
                 cvt_button.click(
                     when_click_audio_convert,
                     inputs=[
+                        cvt_audio,
                         cvt_sample_rate, cvt_sample_width, cvt_channels,
                         cvt_engine,
                     ],
                     outputs=[
+                        cvt_output_audio,
                         cvt_origin_audio_info, cvt_output_audio_info,
                         cvt_log
                     ],
             with gr.TabItem("speech_speed"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
                         speech_speed_audio = gr.Audio(label="audio")
                         with gr.Row():
                             speech_speed_speed = gr.Slider(minimum=0.0, maximum=4.0, value=1.0, label="speed")
                             speech_speed_engine = gr.Dropdown(choices=speed_choices, value=speed_choices[0], label="engine")
                         speech_speed_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
                         speech_speed_output_audio = gr.Audio(label="output_audio")
                         speech_speed_origin_audio_info = gr.Text(label="origin_audio_info")
                         speech_speed_output_audio_info = gr.Text(label="output_audio_info")
                         [filename.as_posix(), 0.5]
                         for filename in examples_dir.glob("**/*.wav")
                     ],
+                    inputs=[speech_speed_audio, speech_speed_speed, speech_speed_engine],
                     outputs=[
+                        speech_speed_output_audio,
                         speech_speed_origin_audio_info, speech_speed_output_audio_info,
                         speech_speed_log,
                     ],
                 )
                 speech_speed_button.click(
                     when_click_change_speech_speed,
+                    inputs=[speech_speed_audio, speech_speed_speed, speech_speed_engine],
                     outputs=[
+                        speech_speed_output_audio,
                         speech_speed_origin_audio_info, speech_speed_output_audio_info,
                         speech_speed_log,
                     ]
             with gr.TabItem("volume"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
                         volume_speed_audio = gr.Audio(label="audio")
                         with gr.Row():
                             with gr.Column():
                         volume_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
                         volume_output_audio = gr.Audio(label="output_audio")
                         volume_log = gr.Text(label="log")
                 gr.Examples(
                     examples=change_volume_examples,
+                    inputs=[volume_speed_audio, volume_radio, volume_decibel, volume_reference, volume_engine],
                     outputs=[
+                        volume_output_audio,
                         volume_log,
                     ],
                     fn=when_click_change_volume,
                 )
                 volume_button.click(
                     when_click_change_volume,
+                    inputs=[volume_speed_audio, volume_radio, volume_decibel, volume_reference, volume_engine],
                     outputs=[
+                        volume_output_audio,
                         volume_log,
                     ]
                 )
                         pad_output_audio, pad_log
                     ],
                 )
+            with gr.TabItem("reverb"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        reverb_audio = gr.Audio(label="audio")
+                        reverb_kwargs = gr.Textbox(lines=8, label="kwargs")
+                        reverb_engine = gr.Dropdown(choices=reverb_choices, value=reverb_choices[0], label="engine")
+                        reverb_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        reverb_output_audio = gr.Audio(label="output_audio")
+                        reverb_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=reverb_examples,
+                    inputs=[reverb_audio, reverb_kwargs, reverb_engine],
+                    outputs=[
+                        reverb_output_audio, reverb_log
+                    ],
+                    fn=when_click_reverb,
+                )
+                reverb_button.click(
+                    when_click_reverb,
+                    inputs=[reverb_audio, reverb_kwargs, reverb_engine],
+                    outputs=[
+                        reverb_output_audio, reverb_log
+                    ],
+                )
             with gr.TabItem("mix"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):

requirements.txt CHANGED Viewed

@@ -5,3 +5,5 @@ scipy==1.14.1
 audiotsm==0.1.2
 audiostretchy==1.3.5
 tinytag==2.0.0

 audiotsm==0.1.2
 audiostretchy==1.3.5
 tinytag==2.0.0
+pedalboard==0.9.16
+pyroomacoustics==0.8.3

toolbox/audio_edit/reverb.py ADDED Viewed

	@@ -0,0 +1,84 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import json
+from typing import List, Tuple
+import numpy as np
+import pedalboard
+import pyroomacoustics as pra
+def reverb_by_pedalboard(signal: np.ndarray,
+                         sample_rate: int,
+                         room_size: float = 0.25,
+                         damping: float = 0.5,
+                         width: float = 1.0,
+                         dry_level: float = 0.4,
+                         wet_level: float = 0.6,
+                         freeze_mode: bool = False
+                         ):
+    board = pedalboard.Pedalboard([
+        pedalboard.Reverb(
+            room_size=room_size,
+            damping=damping,
+            width=width,
+            dry_level=dry_level,
+            wet_level=wet_level,
+            freeze_mode=freeze_mode
+        )
+    ])
+    reverberated_audio = board.__call__(signal, sample_rate)
+    return reverberated_audio
+def reverb_by_pyroomacoustics(signal: np.ndarray,
+                              sample_rate: int,
+                              room_size: Tuple[float, float] = (4.0, 6.0),
+                              source_position: Tuple[float, float] = (2.5, 4.5),
+                              microphone_array: List[Tuple[float, float]] = None,
+                              output_microphone_idx: int = 0,
+                              ):
+    # signal: float32, (-1, 1)
+    if microphone_array is None:
+        microphone_array = [[1.5, 1.5], [2.5, 1.5]]
+    # 创建一个 4x6 米的房间
+    room = pra.ShoeBox(room_size, fs=sample_rate)
+    room.add_source(source_position, signal=signal)
+    # 创建一个包含两个麦克风的阵列
+    mic_array = np.array(microphone_array)
+    room.add_microphone_array(mic_array)
+    # 计算房间冲击响应
+    room.compute_rir()
+    # 模拟声音传播
+    room.simulate()
+    # 获取麦克风接收到的信号
+    received_signal = room.mic_array.signals
+    # 假设我们只使用第一个麦克风的信号
+    reverberated_audio = received_signal[output_microphone_idx]
+    return reverberated_audio
+engine_to_function = {
+    "pedalboard": reverb_by_pedalboard,
+    "pyroomacoustics": reverb_by_pyroomacoustics,
+}
+def reverb(signal: np.ndarray, sample_rate: int, engine: str = "pedalboard", **kwargs):
+    function = engine_to_function.get(engine)
+    if function is None:
+        raise AssertionError(f"invalid engine: {engine}")
+    reverberated_audio = function(signal=signal, sample_rate=sample_rate, **kwargs)
+    return reverberated_audio
+if __name__ == '__main__':
+    pass