Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on Apr 21

Commit

20323b4

1 Parent(s): 45cf916

add trim audio

Browse files

Files changed (4) hide show

examples/batch_audio_fmt_convert.py +7 -3
main.py +64 -4
requirements.txt +1 -1
toolbox/audio_edit/trim.py +152 -0

examples/batch_audio_fmt_convert.py CHANGED Viewed

@@ -18,13 +18,13 @@ def get_args():
     parser.add_argument(
         "--audio_dir",
         # default=(project_path / "data/yd").as_posix(),
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\money_char",
         type=str,
     )
     parser.add_argument(
         "--output_dir",
         # default=(project_path / "data/temp_wav").as_posix(),
-        default=r"E:\牛信文档\语音克隆\多语种语音克隆\money_char",
         type=str,
     )
     args = parser.parse_args()
@@ -44,10 +44,14 @@ def main():
         basename = filename.stem
         relative_dir = filename.parent.relative_to(audio_dir)
-        signal, sample_rate = librosa.load(filename, sr=8000)
         # print(signal.shape)
         # print(signal.dtype)
         # exit(0)
         signal *= max_wave_value
         signal = np.array(signal, dtype=np.int16)

     parser.add_argument(
         "--audio_dir",
         # default=(project_path / "data/yd").as_posix(),
+        default=r"C:\Users\tianx\Desktop\sample-audio",
         type=str,
     )
     parser.add_argument(
         "--output_dir",
         # default=(project_path / "data/temp_wav").as_posix(),
+        default=r"C:\Users\tianx\Desktop\sample-audio2",
         type=str,
     )
     args = parser.parse_args()
         basename = filename.stem
         relative_dir = filename.parent.relative_to(audio_dir)
+        signal, sample_rate = librosa.load(filename, mono=False, sr=8000)
         # print(signal.shape)
         # print(signal.dtype)
         # exit(0)
+        if not signal.ndim == 2:
+            raise AssertionError
+        signal = signal[0]
         signal *= max_wave_value
         signal = np.array(signal, dtype=np.int16)

main.py CHANGED Viewed

@@ -1,14 +1,16 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 """
-docker build -t audio_edit:v20250116_1917 .
 docker run -itd \
 --name audio_edit_7861 \
 --restart=always \
 --network host \
 -e port=7861 \
-audio_edit:v20250116_1917
 """
 import argparse
 import json
@@ -30,6 +32,7 @@ from toolbox.audio_edit.volume import change_volume, engine_to_function as volum
 from toolbox.audio_edit.augment import mix_speech_and_noise
 from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
 from toolbox.os.command import Command
 def get_args():
@@ -180,6 +183,27 @@ def when_click_pad_audio(audio_t, pad_seconds: int = 10, pad_mode: str = "zero")
     return (sample_rate, pad_signal), message
 def when_click_reverb(audio_t, kwargs: str, engine: str):
     sample_rate, signal = audio_t
@@ -278,6 +302,15 @@ pad_audio_examples = [
 ]
 reverb_examples = [
     [
         (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
@@ -328,6 +361,7 @@ def main():
     cvt_choices = list(cvt_engine_to_function.keys())
     speed_choices = list(speed_engine_to_function.keys())
     volume_choices = list(volume_engine_to_function.keys())
     reverb_choices = list(reverb_engine_to_function.keys())
     # ui
@@ -499,6 +533,32 @@ def main():
                         pad_output_audio, pad_log
                     ],
                 )
             with gr.TabItem("reverb"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
@@ -568,8 +628,8 @@ def main():
     # http://10.75.27.247:7861/
     blocks.queue().launch(
         share=False if platform.system() == "Windows" else False,
-        # server_name="127.0.0.1" if platform.system() == "Windows" else "0.0.0.0",
-        server_name="0.0.0.0",
         server_port=environment.get("port", 7860, dtype=int),
     )
     return

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 """
+docker build -t audio_edit:v20250314_1357 .
+docker stop audio_edit_7861 && docker rm audio_edit_7861
 docker run -itd \
 --name audio_edit_7861 \
 --restart=always \
 --network host \
 -e port=7861 \
+audio_edit:v20250314_1357
 """
 import argparse
 import json
 from toolbox.audio_edit.augment import mix_speech_and_noise
 from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
 from toolbox.os.command import Command
+from toolbox.audio_edit.trim import audio_trim, engine_to_function as trim_engine_to_function
 def get_args():
     return (sample_rate, pad_signal), message
+def when_click_trim_audio(audio_t, kwargs: str, engine: str):
+    sample_rate, signal = audio_t
+    filename = save_input_audio(sample_rate, signal)
+    message = "success"
+    try:
+        kwargs = json.loads(kwargs)
+        output_file, ext = audio_trim(
+            filename=filename,
+            engine=engine,
+            **kwargs,
+        )
+        ext = json.dumps(ext, ensure_ascii=False, indent=4)
+        message += f"\n\n{ext}"
+    except Exception as e:
+        output_file = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return output_file, message
 def when_click_reverb(audio_t, kwargs: str, engine: str):
     sample_rate, signal = audio_t
 ]
+trim_examples = [
+    [
+        (project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
+        '{\n    "silence_threshold": -40,\n    "min_silence_len": 200,\n    "min_kept_silence": 200,\n    "mode": "trim"\n}',
+        "pydub",
+    ]
+]
 reverb_examples = [
     [
         (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
     cvt_choices = list(cvt_engine_to_function.keys())
     speed_choices = list(speed_engine_to_function.keys())
     volume_choices = list(volume_engine_to_function.keys())
+    trim_choices = list(trim_engine_to_function.keys())
     reverb_choices = list(reverb_engine_to_function.keys())
     # ui
                         pad_output_audio, pad_log
                     ],
                 )
+            with gr.TabItem("trim"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        trim_audio = gr.Audio(label="audio")
+                        trim_kwargs = gr.Textbox(lines=8, label="kwargs")
+                        trim_engine = gr.Dropdown(choices=trim_choices, value=trim_choices[0], label="engine")
+                        trim_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        trim_output_audio = gr.Audio(label="output_audio")
+                        trim_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=trim_examples,
+                    inputs=[trim_audio, trim_kwargs, trim_engine],
+                    outputs=[
+                        trim_output_audio, trim_log
+                    ],
+                    fn=when_click_trim_audio,
+                )
+                trim_button.click(
+                    when_click_trim_audio,
+                    inputs=[trim_audio, trim_kwargs, trim_engine],
+                    outputs=[
+                        trim_output_audio, trim_log
+                    ],
+                )
             with gr.TabItem("reverb"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
     # http://10.75.27.247:7861/
     blocks.queue().launch(
         share=False if platform.system() == "Windows" else False,
+        server_name="127.0.0.1" if platform.system() == "Windows" else "0.0.0.0",
+        # server_name="0.0.0.0",
         server_port=environment.get("port", 7860, dtype=int),
     )
     return

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-gradio==4.44.1
 librosa==0.10.2
 soundfile==0.12.1
 scipy==1.14.1

+gradio
 librosa==0.10.2
 soundfile==0.12.1
 scipy==1.14.1

toolbox/audio_edit/trim.py ADDED Viewed

	@@ -0,0 +1,152 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+from pathlib import Path
+import tempfile
+import uuid
+import librosa
+from pydub import AudioSegment
+from pydub.silence import detect_silence
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def audio_trim_by_pydub(filename: str,
+                        silence_threshold: int = -40,
+                        min_silence_len: float = 1000,
+                        min_kept_silence: float = 200,
+                        mode: str = "trim"
+                        ):
+    audio = AudioSegment.from_file(filename, format="wav")
+    length = len(audio)
+    silent_ranges = detect_silence(audio, min_silence_len=min_silence_len, silence_thresh=silence_threshold)
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/trim"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    if len(silent_ranges) == 0:
+        audio.export(output_file)
+        ext = {
+            "begin": 0,
+            "end": length,
+            "origin_length": length,
+        }
+        return output_file, ext
+    begin_silence = silent_ranges[0]
+    begin = 0
+    if begin_silence[0] == 0:
+        begin = max(0, begin_silence[1] - min_kept_silence)
+    end_silence = silent_ranges[-1]
+    end = length
+    if end_silence[1] == length:
+        end = min(length, end_silence[0] + min_kept_silence)
+    if mode == "trim":
+        pass
+    elif mode == "rtrim":
+        begin = 0
+    elif mode == "ltrim":
+        end = length
+    trimmed_audio = audio[begin:end]
+    trimmed_audio.export(output_file)
+    ext = {
+        "begin (ms)": begin,
+        "end (ms)": end,
+        "origin_length (ms)": length,
+    }
+    return output_file, ext
+def audio_trim_by_librosa(filename: str,
+                          sample_rate: int = None,
+                          top_db: float = 60,
+                          frame_length: int = 2048,
+                          hop_length: int = 512,
+                          mode: str = "trim",
+                          **kwargs
+                          ):
+    signal, sample_rate = librosa.load(filename, sr=sample_rate, mono=False)
+    length = len(signal)
+    _, index= librosa.effects.trim(
+        signal,
+        top_db=top_db, frame_length=frame_length,
+        hop_length=hop_length,
+        **kwargs
+    )
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/trim"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    begin = index[0]
+    end = index[1]
+    if mode == "trim":
+        pass
+    elif mode == "rtrim":
+        begin = 0
+    elif mode == "ltrim":
+        end = length
+    signal_trimmed = signal[begin:end]
+    wavfile.write(
+        output_file,
+        rate=sample_rate,
+        data=signal_trimmed
+    )
+    ext = {
+        "begin": begin,
+        "end": end,
+        "origin_length": length,
+    }
+    return output_file, ext
+engine_to_function = {
+    "pydub": audio_trim_by_pydub,
+    "librosa": audio_trim_by_librosa,
+}
+def audio_trim(filename: str, engine: str = "librosa", **kwargs):
+    function = engine_to_function.get(engine)
+    if function is None:
+        raise AssertionError(f"invalid engine: {engine}")
+    return function(filename, **kwargs)
+def main():
+    args = get_args()
+    output_file, ext = audio_trim(args.filename, engine="pydub")
+    # output_file, ext = audio_trim(args.filename, engine="librosa")
+    print(output_file)
+    return
+if __name__ == "__main__":
+    main()