Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on Jan 6

Commit

a8c8d73

0 Parent(s):

first commit

Browse files

Files changed (49) hide show

.gitattributes +36 -0
.gitignore +13 -0
Dockerfile +24 -0
README.md +11 -0
data/examples/default/audio_0_2.wav +3 -0
data/examples/default/audio_0_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_0_5_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_1_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_2_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_3_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_4_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_5_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_6_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_7_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_8_3_clone_from_audio_0_2.wav +3 -0
data/examples/default/audio_9_3_clone_from_audio_0_2.wav +3 -0
data/examples/mix/noise/0001f9f2-3626-427f-8ae5-105d81fcb5a3_th-TH_1678772646723.wav +3 -0
data/examples/mix/noise/000e2a2e-43c8-4752-8e26-34207fa6e9e4_th-TH_1678244573769.wav +3 -0
data/examples/mix/noise/000f28d7-2129-49d5-9942-16ebf60e8285_th-TH_1678343313388.wav +3 -0
data/examples/mix/noise/00240453-cd58-4059-9a38-d00583b879c7_th-TH_1678168729318.wav +3 -0
data/examples/mix/speech/0000c655-3a8e-4196-bc31-c01fa8d115cc_th-TH_1678768644585.wav +3 -0
data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav +3 -0
data/examples/mix/speech/001df4d1-9f7a-4e78-adc9-ef26d07eba60_th-TH_1667878032.0303788.wav +3 -0
data/examples/mix/speech/001ef59d-b266-4409-b89c-627e3d7fb27d_th-TH_1678356022482.wav +3 -0
examples/audio_fmt_convert.py +48 -0
examples/batch_audio_fmt_convert.py +61 -0
examples/concat/test1.py +48 -0
examples/concat/test2.py +51 -0
examples/sound_play_speed/by_pydub.py +51 -0
examples/sound_speed/by_audiostretchy.py +39 -0
examples/sound_speed/by_audiotsm.py +48 -0
examples/sound_speed/by_librosa.py +52 -0
examples/sound_speed/by_pydub.py +47 -0
examples/sound_volume/by_ffmpy_by_db.py +56 -0
examples/sound_volume/by_ffmpy_by_radio.py +56 -0
examples/sound_volume/by_numpy_by_db.py +65 -0
examples/sound_volume/by_numpy_by_radio.py +63 -0
examples/sound_volume/by_pydub_by_db.py +40 -0
examples/sound_volume/by_pydub_by_reference.py +47 -0
main.py +473 -0
project_settings.py +12 -0
requirements.txt +7 -0
toolbox/__init__.py +6 -0
toolbox/audio_edit/__init__.py +6 -0
toolbox/audio_edit/augment.py +45 -0
toolbox/audio_edit/convert.py +106 -0
toolbox/audio_edit/info.py +121 -0
toolbox/audio_edit/speech_speed.py +130 -0
toolbox/audio_edit/volume.py +139 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,13 @@

+.git/
+.idea/
+#/data/
+/dotenv/
+/logs/
+/trained_models
+/temp/
+**/__pycache__/
+#**/*.wav

Dockerfile ADDED Viewed

	@@ -0,0 +1,24 @@

+FROM python:3.12-slim
+WORKDIR /code
+COPY . /code
+RUN apt-get update
+RUN apt-get install -y ffmpeg
+RUN pip install --upgrade pip
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+CMD ["python3", "main.py"]

README.md ADDED Viewed

	@@ -0,0 +1,11 @@

+---
+title: Audio Edit
+emoji: 🐨
+colorFrom: purple
+colorTo: pink
+sdk: docker
+pinned: false
+license: apache-2.0
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

data/examples/default/audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f5101df0c899f2beebc9de948c80a64e36c2fc9d38420879fb1c093dc5e961
+size 1071894

data/examples/default/audio_0_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bda67fec70dfc965c2b1b52d9fae03ec3f5086eacad0285342c5850b78eb10d
+size 121388

data/examples/default/audio_0_5_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54598a92c876efa14c108dc83a102a9d200de1a8f7a2df9e0fc1c627acddec12
+size 28204

data/examples/default/audio_1_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e3fe23973ff066845ff6f8d75338f4cb9249e084e3523365868154fa8421075
+size 150572

data/examples/default/audio_2_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d779c52da6bd16fabed43d9ba065f3a16c400f241f6e05511c9becfd1e2695e
+size 107052

data/examples/default/audio_3_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1c20584ae6e2e83af86f1f79d053847fe5db0249e6ced2541ddb914187e468d
+size 153644

data/examples/default/audio_4_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a3944f4f27ea33fddbc13a0aeae2261051a68636316dcebda03e8f1eeb823e1
+size 159276

data/examples/default/audio_5_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e870e9de7d931eb1da038815e63f6094b2a19dede5c808d64a851803471357f9
+size 147500

data/examples/default/audio_6_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feaaccc3b090dab7f76d798ca77922206111cfd9c852c0213444e1ea6e7541c3
+size 167980

data/examples/default/audio_7_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4dce5a9a5ba5b5f1a05eb095f762238018784bee96fa66e1714be1e819164f3
+size 165420

data/examples/default/audio_8_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3a714c542b99438898740041f86082983c2988c73c113ceea68f6af90f99efc
+size 159276

data/examples/default/audio_9_3_clone_from_audio_0_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dca1e7538e2cd44702b112d59fad5cf6327005059122f6d1e549c9005ce06180
+size 103980

data/examples/mix/noise/0001f9f2-3626-427f-8ae5-105d81fcb5a3_th-TH_1678772646723.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bac05176ef3031404f6a619ad67dbf10bc0ebea09ab8f21ec5095de5fd5562b
+size 32044

data/examples/mix/noise/000e2a2e-43c8-4752-8e26-34207fa6e9e4_th-TH_1678244573769.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d71ed84f9a586b92563a78ec41682479dd5fdc65f5b72b3b5fbd7a7cb54a853c
+size 32044

data/examples/mix/noise/000f28d7-2129-49d5-9942-16ebf60e8285_th-TH_1678343313388.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:447023f56f3f3b345885de15e8dceec8799a465e924209133cd3cdc761bcc297
+size 32044

data/examples/mix/noise/00240453-cd58-4059-9a38-d00583b879c7_th-TH_1678168729318.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50e29bc4c2ea9282efcbcd326dd71905caeb8ceafbd718cd535b1d7e65bec508
+size 32044

data/examples/mix/speech/0000c655-3a8e-4196-bc31-c01fa8d115cc_th-TH_1678768644585.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fab119763be2e0aa39e92e3dbd90958ee88d9321d5a51a40c4fc663b8f673a73
+size 32044

data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f60650ed15d659658bffc77c7ec380be370e78a170b3140906f14b2d89aa85e0
+size 32044

data/examples/mix/speech/001df4d1-9f7a-4e78-adc9-ef26d07eba60_th-TH_1667878032.0303788.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:058ea8a79e4c1328614c2ccacb84b3bb9f9e32def909f654db3da052f137d36e
+size 32044

data/examples/mix/speech/001ef59d-b266-4409-b89c-627e3d7fb27d_th-TH_1678356022482.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fe593e08b014b7fab4f368f7d0f84a45eed7fbc79b9bad4d005b1386cc4904c
+size 32044

examples/audio_fmt_convert.py ADDED Viewed

	@@ -0,0 +1,48 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import librosa
+import numpy as np
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/常相伴AI配音9.10/常相伴AI配音9.10/台湾-女声/1.m4a").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    max_wave_value = 32768.0
+    signal, sample_rate = librosa.load(args.filename, sr=8000)
+    signal *= max_wave_value
+    signal = np.array(signal, dtype=np.int16)
+    print(signal.dtype)
+    print(sample_rate)
+    wavfile.write(
+        args.output_file,
+        8000,
+        signal,
+    )
+    return
+if __name__ == "__main__":
+    main()

examples/batch_audio_fmt_convert.py ADDED Viewed

	@@ -0,0 +1,61 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import librosa
+import numpy as np
+from pathlib import Path
+from scipy.io import wavfile
+from tqdm import tqdm
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--audio_dir",
+        default=(project_path / "data/yd").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_dir",
+        default=(project_path / "data/temp_wav").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    audio_dir = Path(args.audio_dir)
+    output_dir = Path(args.output_dir)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    max_wave_value = 32768.0
+    for filename in tqdm(audio_dir.glob("**/*.wav")):
+        basename = filename.stem
+        relative_dir = filename.parent.relative_to(audio_dir)
+        signal, sample_rate = librosa.load(filename, sr=8000)
+        # print(signal.shape)
+        # print(signal.dtype)
+        # exit(0)
+        signal *= max_wave_value
+        signal = np.array(signal, dtype=np.int16)
+        output_filename = output_dir / relative_dir / f"{basename}.wav"
+        output_filename.parent.mkdir(parents=True, exist_ok=True)
+        wavfile.write(
+            output_filename.as_posix(),
+            8000,
+            signal,
+        )
+    return
+if __name__ == "__main__":
+    main()

examples/concat/test1.py ADDED Viewed

	@@ -0,0 +1,48 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os
+from ffmpy import FFmpeg
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--change_by_db", default=-11, type=int)
+    args = parser.parse_args()
+    return args
+def change_by_decibel(audio_path: str, output_file: str, decibel):
+    ext = os.path.basename(audio_path).strip().split(".")[-1]
+    if ext not in ["wav", "mp3"]:
+        raise Exception("format error")
+    if os.path.exists(output_file):
+        os.remove(output_file)
+    ff = FFmpeg(
+        inputs={audio_path: None},
+        outputs={output_file: f'-filter:a "volume={decibel}dB"'}
+    )
+    ff.run()
+    return output_file
+def main():
+    args = get_args()
+    for i in range(10):
+        filename = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2.wav".format(i)
+        output_file = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2_volume.wav".format(i)
+        output_file = change_by_decibel(
+            filename,
+            output_file,
+            args.change_by_db,
+        )
+        # print(f"output_file: {output_file}")
+    return
+if __name__ == "__main__":
+    main()

examples/concat/test2.py ADDED Viewed

	@@ -0,0 +1,51 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import librosa
+import numpy as np
+from scipy.io import wavfile
+for i in range(10):
+    filename1 = r"C:\Users\tianx\Desktop\Audio\x_tts_v2\audio_0_section_1.wav"
+    filename2 = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2_volume.wav".format(i)
+    filename3 = r"C:\Users\tianx\Desktop\Audio\x_tts_v2\audio_0_section_2.wav"
+    output_filename = r"C:\Users\tianx\Desktop\Audio\open_voice_v2\audio_{}_3_clone_from_audio_0_2_concat_volume.wav".format(i)
+    signal1, sample_rate = librosa.load(filename1, sr=8000)
+    print(sample_rate)
+    print(signal1.dtype)
+    print(signal1.shape)
+    signal2, sample_rate = librosa.load(filename2, sr=8000)
+    print(sample_rate)
+    print(signal2.dtype)
+    print(signal2.shape)
+    signal3, sample_rate = librosa.load(filename3, sr=8000)
+    print(sample_rate)
+    print(signal3.dtype)
+    print(signal3.shape)
+    signal = np.concatenate([signal1, signal2, signal3], dtype=np.float32)
+    print(signal.dtype)
+    print(signal.shape)
+    max_wave_value = 32768.0
+    signal *= max_wave_value
+    signal = np.array(signal, dtype=np.int16)
+    print(signal.dtype)
+    print(sample_rate)
+    wavfile.write(
+        output_filename,
+        8000,
+        signal,
+    )
+if __name__ == '__main__':
+    pass

examples/sound_play_speed/by_pydub.py ADDED Viewed

	@@ -0,0 +1,51 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+这调整的是播放速度, 会改变声音的频率.
+"""
+import argparse
+import os.path
+from pydub import AudioSegment
+from pydub.playback import play
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--speed", default=1.3, type=float)
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    sound = AudioSegment.from_wav(args.filename)
+    altered_sound  = sound._spawn(sound.raw_data, overrides={
+        "frame_rate": int(sound.frame_rate * args.speed)
+    })
+    altered_sound .set_frame_rate(sound.frame_rate)
+    # play(altered_sound)
+    if os.path.exists(args.output_file):
+        os.remove(args.output_file)
+    altered_sound.export(args.output_file, format="wav")
+    return
+if __name__ == "__main__":
+    main()

examples/sound_speed/by_audiostretchy.py ADDED Viewed

	@@ -0,0 +1,39 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+这调整的是播放速度, 会改变声音的频率.
+"""
+import argparse
+from audiostretchy.stretch import stretch_audio
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--ratio", default=1.5, type=float)
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    stretch_audio(args.filename, args.output_file, ratio=args.ratio)
+    return
+if __name__ == "__main__":
+    main()

examples/sound_speed/by_audiotsm.py ADDED Viewed

	@@ -0,0 +1,48 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os.path
+import audiotsm
+import audiotsm.io.wav
+import audiotsm.io.array
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--speed", default=1.1, type=float)
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    reader = audiotsm.io.wav.WavReader(args.filename)
+    writer = audiotsm.io.wav.WavWriter(args.output_file, reader.channels, reader.samplerate)
+    # 使用WSOLA算法进行时间缩放
+    wsola = audiotsm.wsola(reader.channels, speed=args.speed)
+    wsola.run(reader, writer)
+    # 关闭文件
+    writer.close()
+    reader.close()
+    return
+if __name__ == "__main__":
+    main()

examples/sound_speed/by_librosa.py ADDED Viewed

	@@ -0,0 +1,52 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os.path
+import librosa
+import numpy as np
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--speed", default=1.1, type=float)
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    signal, sample_rate = librosa.load(args.filename, sr=None)
+    signal_ = librosa.effects.time_stretch(signal, rate=args.speed)
+    # max_wave_value = 32768.0
+    max_wave_value = 1 << 15
+    signal_ = signal_ * max_wave_value
+    signal_ = np.array(signal_, dtype=np.int16)
+    wavfile.write(
+        filename=args.output_file,
+        rate=sample_rate,
+        data=signal_
+    )
+    return
+if __name__ == "__main__":
+    main()

examples/sound_speed/by_pydub.py ADDED Viewed

	@@ -0,0 +1,47 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+这调整的是播放速度, 会改变声音的频率.
+"""
+import argparse
+import os.path
+from pydub import AudioSegment
+from pydub.playback import play
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--speed", default=1.5, type=float)
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    sound = AudioSegment.from_wav(args.filename)
+    sound_ = sound.speedup(playback_speed=args.speed)
+    if os.path.exists(args.output_file):
+        os.remove(args.output_file)
+    sound_.export(args.output_file, format="wav")
+    return
+if __name__ == "__main__":
+    main()

examples/sound_volume/by_ffmpy_by_db.py ADDED Viewed

	@@ -0,0 +1,56 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os
+from ffmpy import FFmpeg
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--change_by_db", default=-10, type=int)
+    args = parser.parse_args()
+    return args
+def change_by_decibel(audio_path: str, output_file: str, decibel):
+    ext = os.path.basename(audio_path).strip().split(".")[-1]
+    if ext not in ["wav", "mp3"]:
+        raise Exception("format error")
+    if os.path.exists(output_file):
+        os.remove(output_file)
+    ff = FFmpeg(
+        inputs={audio_path: None},
+        outputs={output_file: f'-filter:a "volume={decibel}dB"'}
+    )
+    ff.run()
+    return output_file
+def main():
+    args = get_args()
+    output_file = change_by_decibel(
+        args.filename,
+        args.output_file,
+        args.change_by_db,
+    )
+    print(f"output_file: {output_file}")
+    return
+if __name__ == "__main__":
+    main()

examples/sound_volume/by_ffmpy_by_radio.py ADDED Viewed

	@@ -0,0 +1,56 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os
+from ffmpy import FFmpeg
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--change_by_radio", default=0.5, type=float)
+    args = parser.parse_args()
+    return args
+def change_by_ratio(audio_path: str, output_file: str, ratio):
+    ext = os.path.basename(audio_path).strip().split(".")[-1]
+    if ext not in ["wav", "mp3"]:
+        raise Exception("format error")
+    if os.path.exists(output_file):
+        os.remove(output_file)
+    ff = FFmpeg(
+        inputs={audio_path: None},
+        outputs={output_file: f'-filter:a "volume={ratio}"'}
+    )
+    ff.run()
+    return output_file
+def main():
+    args = get_args()
+    output_file = change_by_ratio(
+        args.filename,
+        args.output_file,
+        args.change_by_radio,
+    )
+    print(f"output_file: {output_file}")
+    return
+if __name__ == "__main__":
+    main()

examples/sound_volume/by_numpy_by_db.py ADDED Viewed

	@@ -0,0 +1,65 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+输出的音频有噪音.
+"""
+import argparse
+import librosa
+import numpy as np
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--change_by_db", default=-10, type=int)
+    args = parser.parse_args()
+    return args
+def change_by_db(signal: np.ndarray, db: int = -10):
+    # 使用分贝转换公式：dB = 20 * log10(amplitude)
+    # 反向转换：amplitude = 10^(dB/20)
+    signal_ = signal * (10 ** (db / 20))
+    signal_ = np.clip(signal_, a_min=0.0, a_max=1.0)
+    return signal_
+def main():
+    args = get_args()
+    signal, sample_rate = librosa.load(args.filename)
+    signal_ = change_by_db(
+        signal=signal,
+        db=args.change_by_db,
+    )
+    # max_wave_value = 32768.0
+    max_wave_value = 1 << 15
+    signal_ = signal_ * max_wave_value
+    signal_ = np.array(signal_, dtype=np.int16)
+    wavfile.write(
+        filename=args.output_file,
+        rate=sample_rate,
+        data=signal_
+    )
+    return
+if __name__ == "__main__":
+    main()

examples/sound_volume/by_numpy_by_radio.py ADDED Viewed

	@@ -0,0 +1,63 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+输出的音频有噪音.
+"""
+import argparse
+import librosa
+import numpy as np
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--change_by_radio", default=0.5, type=float)
+    args = parser.parse_args()
+    return args
+def change_by_ratio(signal: np.ndarray, radio: float = 1.0):
+    signal_ = signal * radio
+    signal_ = np.clip(signal_, a_min=0.0, a_max=1.0)
+    return signal_
+def main():
+    args = get_args()
+    signal, sample_rate = librosa.load(args.filename)
+    signal_ = change_by_ratio(
+        signal=signal,
+        radio=args.change_by_radio,
+    )
+    # max_wave_value = 32768.0
+    max_wave_value = 1 << 15
+    signal_ = signal_ * max_wave_value
+    signal_ = np.array(signal_, dtype=np.int16)
+    wavfile.write(
+        filename=args.output_file,
+        rate=sample_rate,
+        data=signal_
+    )
+    return
+if __name__ == "__main__":
+    main()

examples/sound_volume/by_pydub_by_db.py ADDED Viewed

	@@ -0,0 +1,40 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+from pydub import AudioSegment
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--change_by_db", default=-10, type=int)
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    sound = AudioSegment.from_wav(args.filename)
+    sound_ = sound + args.change_by_db
+    sound_.export(
+        args.output_file,
+        format="wav"
+    )
+    return
+if __name__ == "__main__":
+    main()

examples/sound_volume/by_pydub_by_reference.py ADDED Viewed

	@@ -0,0 +1,47 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+from pydub import AudioSegment
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/examples/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--reference",
+        default=(project_path / "data/examples/audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    sound1 = AudioSegment.from_wav(args.filename)
+    sound2 = AudioSegment.from_wav(args.reference)
+    sound1_ = sound1.apply_gain(sound2.dBFS - sound1.dBFS)
+    sound1_.export(
+        args.output_file,
+        format="wav"
+    )
+    return
+if __name__ == "__main__":
+    main()

main.py ADDED Viewed

	@@ -0,0 +1,473 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+任意格式转到 wav 8000 int16 格式。
+多通道转单通道。
+音频 pad 加长。
+"""
+import argparse
+import json
+from pathlib import Path
+import platform
+from typing import Tuple, List
+import gradio as gr
+import numpy as np
+from project_settings import project_path
+from toolbox.audio_edit.info import get_audio_info, engine_to_function as info_engine_to_function
+from toolbox.audio_edit.convert import audio_convert, engine_to_function as cvt_engine_to_function
+from toolbox.audio_edit.speech_speed import change_speech_speed, engine_to_function as speed_engine_to_function
+from toolbox.audio_edit.volume import change_volume, engine_to_function as volume_engine_to_function
+from toolbox.audio_edit.augment import mix_speech_and_noise
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--examples_dir",
+        default=(project_path / "data/examples").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def when_click_get_audio_info(filename: str, engine: str) -> str:
+    message = "success"
+    try:
+        info: dict = get_audio_info(filename, engine)
+        result = json.dumps(info, ensure_ascii=False, indent=4)
+    except Exception as e:
+        result = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return result, message
+def when_click_audio_convert(filename: str,
+                             to_sample_rate: int = 8000,
+                             sample_width: int = 2,
+                             channels: str = "0",
+                             engine: str = "librosa",
+                             ) -> Tuple[str, str, str, str]:
+    message = "success"
+    try:
+        output_file: str = audio_convert(filename,
+                                          to_sample_rate=to_sample_rate,
+                                          sample_width=sample_width,
+                                          channels=channels,
+                                          engine=engine,
+                                          )
+        origin_audio_info, _ = when_click_get_audio_info(filename, engine="wave")
+        output_audio_info, _ = when_click_get_audio_info(output_file, engine="wave")
+    except Exception as e:
+        output_file = None
+        origin_audio_info = None
+        output_audio_info = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return filename, output_file, output_file, origin_audio_info, output_audio_info, message
+def when_click_change_speech_speed(filename: str, speed: float = 1.0, engine: str = "librosa"):
+    message = "success"
+    try:
+        output_file: str = change_speech_speed(filename, speed, engine)
+        origin_audio_info, _ = when_click_get_audio_info(filename, engine="pydub")
+        output_audio_info, _ = when_click_get_audio_info(output_file, engine="pydub")
+    except Exception as e:
+        output_file = None
+        origin_audio_info = None
+        output_audio_info = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return filename, output_file, output_file, origin_audio_info, output_audio_info, message
+def when_click_change_volume(filename: str,
+                             radio: float = 1.0,
+                             decibel: float = 0.0,
+                             reference: str = None,
+                             engine: str = "by_ffmpy_by_db",
+                             ):
+    message = "success"
+    try:
+        output_file: str = change_volume(filename, radio, decibel, reference, engine)
+    except Exception as e:
+        output_file = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return filename, output_file, output_file, message
+def when_click_pad_audio(audio, pad_seconds: int = 10, pad_mode: str = "zero"):
+    sample_rate, signal = audio
+    message = "success"
+    pad_signal = signal
+    try:
+        if not signal.ndim == 1:
+            raise AssertionError
+        pad_length = int(pad_seconds * sample_rate)
+        if pad_mode == "zero":
+            pad = np.zeros(shape=(pad_length,), dtype=signal.dtype)
+        elif pad_mode == "repeat":
+            signal_length = len(signal)
+            if pad_length <= signal_length:
+                pad = signal[:pad_length]
+            else:
+                a = pad_length // signal_length
+                pad = np.concat([signal] * int(a + 1), axis=-1)
+                pad = pad[:pad_length]
+        else:
+            raise NotImplementedError
+        pad_signal = np.concat([signal, pad], axis=-1)
+    except Exception as e:
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return (sample_rate, pad_signal), message
+def when_click_mix_speech_and_noise(speech_t, noise_t, snr_db: float):
+    sample_rate1, speech = speech_t
+    sample_rate2, noise = noise_t
+    message = "success"
+    mix_signal = speech
+    try:
+        if sample_rate1 != sample_rate2:
+            raise AssertionError
+        if speech.dtype == np.int16:
+            speech = np.array(speech, dtype=np.float32)
+            speech /= (1 << 15)
+        else:
+            raise NotImplementedError
+        if noise.dtype == np.int16:
+            noise = np.array(noise, dtype=np.float32)
+            noise /= (1 << 15)
+        else:
+            raise NotImplementedError
+        mix_signal = mix_speech_and_noise(speech, noise, snr_db)
+        mix_signal = np.array(mix_signal * (1 << 15), dtype=np.int16)
+    except Exception as e:
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    # np.int16
+    return (sample_rate1, mix_signal), message
+audio_convert_examples = [
+    [
+        (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
+        8000, 2, "0", "librosa"
+    ]
+]
+change_volume_examples = [
+    [
+        (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        1.0, -10.0,
+        None,
+        "by_ffmpy_by_db"
+    ],
+    [
+        (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        -0.5, 0.0,
+        None,
+        "by_ffmpy_by_radio"
+    ],
+    [
+        (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        1.0, -10.0,
+        None,
+        "by_pydub_by_db"
+    ],
+    [
+        (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        1.0, 0.0,
+        (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
+        "by_pydub_by_reference"
+    ]
+]
+pad_audio_examples = [
+    [
+        (project_path / "data/examples/default/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        10, "zero",
+    ],
+]
+mix_speech_and_noise_examples = [
+    [
+        (project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
+        (project_path / "data/examples/mix/noise/000e2a2e-43c8-4752-8e26-34207fa6e9e4_th-TH_1678244573769.wav").as_posix(),
+        -5,
+    ],
+    [
+        (project_path / "data/examples/mix/speech/0000c655-3a8e-4196-bc31-c01fa8d115cc_th-TH_1678768644585.wav").as_posix(),
+        (project_path / "data/examples/mix/noise/000f28d7-2129-49d5-9942-16ebf60e8285_th-TH_1678343313388.wav").as_posix(),
+        0,
+    ],
+    [
+        (project_path / "data/examples/mix/speech/001df4d1-9f7a-4e78-adc9-ef26d07eba60_th-TH_1667878032.0303788.wav").as_posix(),
+        (project_path / "data/examples/mix/noise/0001f9f2-3626-427f-8ae5-105d81fcb5a3_th-TH_1678772646723.wav").as_posix(),
+        5,
+    ],
+    [
+        (project_path / "data/examples/mix/speech/001ef59d-b266-4409-b89c-627e3d7fb27d_th-TH_1678356022482.wav").as_posix(),
+        (project_path / "data/examples/mix/noise/00240453-cd58-4059-9a38-d00583b879c7_th-TH_1678168729318.wav").as_posix(),
+        10,
+    ]
+]
+def main():
+    args = get_args()
+    # examples
+    examples_dir = Path(args.examples_dir)
+    # choices
+    info_choices = list(info_engine_to_function.keys())
+    cvt_choices = list(cvt_engine_to_function.keys())
+    speed_choices = list(speed_engine_to_function.keys())
+    volume_choices = list(volume_engine_to_function.keys())
+    # ui
+    with gr.Blocks() as blocks:
+        with gr.Tabs():
+            with gr.TabItem("info"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        info_audio = gr.File(label="audio")
+                        info_engine = gr.Dropdown(choices=info_choices, value=info_choices[0], label="engine")
+                        info_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        info_output = gr.Text(label="output")
+                        info_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=[
+                        [filename.as_posix(), "wave"]
+                        for filename in examples_dir.glob("**/*.wav")
+                    ],
+                    inputs=[info_audio, info_engine],
+                    outputs=[info_output, info_log],
+                    fn=when_click_get_audio_info,
+                )
+                info_button.click(
+                    when_click_get_audio_info,
+                    inputs=[info_audio, info_engine],
+                    outputs=[info_output, info_log]
+                )
+            with gr.TabItem("convert"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        cvt_audio_file = gr.File(label="audio_file")
+                        cvt_audio = gr.Audio(label="audio")
+                        with gr.Row():
+                            cvt_sample_rate = gr.Dropdown(choices=[8000], value=8000, label="sample_rate")
+                            cvt_sample_width = gr.Dropdown(choices=[2], value=2, label="sample_width")
+                            cvt_channels = gr.Text(
+                                value="0", label="channels",
+                                info = "The channels to be retained, separated by commas, such as `0,1`"
+                            )
+                            cvt_engine = gr.Dropdown(choices=cvt_choices, value=cvt_choices[0], label="engine")
+                        cvt_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        cvt_output_audio_file = gr.File(label="output_audio_file")
+                        cvt_output_audio = gr.Audio(label="output_audio")
+                        cvt_origin_audio_info = gr.Text(label="origin_audio_info")
+                        cvt_output_audio_info = gr.Text(label="output_audio_info")
+                        cvt_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=audio_convert_examples,
+                    inputs=[
+                        cvt_audio_file,
+                        cvt_sample_rate, cvt_sample_width, cvt_channels,
+                        cvt_engine,
+                    ],
+                    outputs=[
+                        cvt_audio,
+                        cvt_output_audio_file, cvt_output_audio,
+                        cvt_origin_audio_info, cvt_output_audio_info,
+                        cvt_log
+                    ],
+                    fn=when_click_audio_convert,
+                )
+                cvt_button.click(
+                    when_click_audio_convert,
+                    inputs=[
+                        cvt_audio_file,
+                        cvt_sample_rate, cvt_sample_width, cvt_channels,
+                        cvt_engine,
+                    ],
+                    outputs=[
+                        cvt_audio,
+                        cvt_output_audio_file, cvt_output_audio,
+                        cvt_origin_audio_info, cvt_output_audio_info,
+                        cvt_log
+                    ],
+                )
+            with gr.TabItem("speech_speed"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        speech_speed_audio_file = gr.File(label="audio_file")
+                        speech_speed_audio = gr.Audio(label="audio")
+                        with gr.Row():
+                            speech_speed_speed = gr.Slider(minimum=0.0, maximum=4.0, value=1.0, label="speed")
+                            speech_speed_engine = gr.Dropdown(choices=speed_choices, value=speed_choices[0], label="engine")
+                        speech_speed_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        speech_speed_output_audio_file = gr.File(label="output_audio_file")
+                        speech_speed_output_audio = gr.Audio(label="output_audio")
+                        speech_speed_origin_audio_info = gr.Text(label="origin_audio_info")
+                        speech_speed_output_audio_info = gr.Text(label="output_audio_info")
+                        speech_speed_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=[
+                        [filename.as_posix(), 0.5]
+                        for filename in examples_dir.glob("**/*.wav")
+                    ],
+                    inputs=[speech_speed_audio_file, speech_speed_speed, speech_speed_engine],
+                    outputs=[
+                        speech_speed_audio,
+                        speech_speed_output_audio_file, speech_speed_output_audio,
+                        speech_speed_origin_audio_info, speech_speed_output_audio_info,
+                        speech_speed_log,
+                    ],
+                    fn=when_click_change_speech_speed,
+                )
+                speech_speed_button.click(
+                    when_click_change_speech_speed,
+                    inputs=[speech_speed_audio_file, speech_speed_speed, speech_speed_engine],
+                    outputs=[
+                        speech_speed_audio,
+                        speech_speed_output_audio_file, speech_speed_output_audio,
+                        speech_speed_origin_audio_info, speech_speed_output_audio_info,
+                        speech_speed_log,
+                    ]
+                )
+            with gr.TabItem("volume"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        volume_audio_file = gr.File(label="audio_file")
+                        volume_speed_audio = gr.Audio(label="audio")
+                        with gr.Row():
+                            with gr.Column():
+                                volume_radio = gr.Slider(minimum=0.0, maximum=3.0, value=1.0, step=0.1, label="radio")
+                                volume_decibel = gr.Slider(minimum=-30.0, maximum=30.0, value=0.0, step=0.1, label="decibel")
+                                volume_engine = gr.Dropdown(choices=volume_choices, value=volume_choices[0], label="engine")
+                            with gr.Column():
+                                volume_reference = gr.File(label="reference")
+                        volume_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        volume_output_audio_file = gr.File(label="output_audio_file")
+                        volume_output_audio = gr.Audio(label="output_audio")
+                        volume_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=change_volume_examples,
+                    inputs=[volume_audio_file, volume_radio, volume_decibel, volume_reference, volume_engine],
+                    outputs=[
+                        volume_speed_audio,
+                        volume_output_audio_file, volume_output_audio,
+                        volume_log,
+                    ],
+                    fn=when_click_change_volume,
+                )
+                volume_button.click(
+                    when_click_change_volume,
+                    inputs=[volume_audio_file, volume_radio, volume_decibel, volume_reference, volume_engine],
+                    outputs=[
+                        volume_speed_audio,
+                        volume_output_audio_file, volume_output_audio,
+                        volume_log,
+                    ]
+                )
+            with gr.TabItem("pad"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        pad_audio = gr.Audio(label="audio")
+                        with gr.Row():
+                            pad_seconds = gr.Slider(minimum=0, maximum=100, value=20, step=0.1, label="pad_seconds")
+                            pad_mode = gr.Dropdown(choices=["zero", "repeat"], value="zero", label="pad_mode")
+                        pad_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        pad_output_audio = gr.Audio(label="output_audio")
+                        pad_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=pad_audio_examples,
+                    inputs=[pad_audio, pad_seconds, pad_mode],
+                    outputs=[
+                        pad_output_audio, pad_log
+                    ],
+                    fn=when_click_pad_audio,
+                )
+                pad_button.click(
+                    when_click_pad_audio,
+                    inputs=[pad_audio, pad_seconds, pad_mode],
+                    outputs=[
+                        pad_output_audio, pad_log
+                    ],
+                )
+            with gr.TabItem("mix"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        mix_speed_audio = gr.Audio(label="speech")
+                        mix_noise_audio = gr.Audio(label="noise")
+                        with gr.Row():
+                            mix_snr_db = gr.Slider(minimum=-10, maximum=20, value=10, step=0.1, label="snr_db")
+                        mix_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        mix_output_audio = gr.Audio(label="output_audio")
+                        mix_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=mix_speech_and_noise_examples,
+                    inputs=[mix_speed_audio, mix_noise_audio, mix_snr_db],
+                    outputs=[
+                        mix_output_audio, mix_log
+                    ],
+                    fn=when_click_mix_speech_and_noise,
+                )
+                mix_button.click(
+                    when_click_mix_speech_and_noise,
+                    inputs=[mix_speed_audio, mix_noise_audio, mix_snr_db],
+                    outputs=[
+                        mix_output_audio, mix_log
+                    ],
+                )
+    # http://127.0.0.1:7860/
+    blocks.queue().launch(
+        share=False if platform.system() == "Windows" else False,
+        # server_name="127.0.0.1" if platform.system() == "Windows" else "0.0.0.0",
+        server_name="0.0.0.0",
+        server_port=7860,
+    )
+    return
+if __name__ == "__main__":
+    main()

project_settings.py ADDED Viewed

	@@ -0,0 +1,12 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import os
+from pathlib import Path
+project_path = os.path.abspath(os.path.dirname(__file__))
+project_path = Path(project_path)
+if __name__ == '__main__':
+    pass

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+gradio==4.44.1
+librosa==0.10.2
+soundfile==0.12.1
+scipy==1.14.1
+audiotsm==0.1.2
+audiostretchy==1.3.5
+tinytag==2.0.0

toolbox/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+if __name__ == '__main__':
+    pass

toolbox/audio_edit/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+if __name__ == '__main__':
+    pass

toolbox/audio_edit/augment.py ADDED Viewed

	@@ -0,0 +1,45 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import numpy as np
+def mix_speech_and_noise(speech: np.ndarray, noise: np.ndarray, snr_db: float):
+    if len(speech) != len(noise):
+        raise AssertionError
+    # np.float32, value between (-1, 1).
+    speech_power = np.mean(np.square(speech))
+    noise_power = speech_power / (10 ** (snr_db / 10))
+    noise_adjusted = np.sqrt(noise_power) * noise / np.sqrt(np.mean(noise**2))
+    noisy_signal = speech + noise_adjusted
+    return noisy_signal
+def speech_echo(speech: np.ndarray, ser_db: float, delay_samples: int, num_echoes: int = 1):
+    ser_linear = 10 ** (ser_db / 20)
+    echo = np.zeros_like(speech)
+    for i in range(1, num_echoes + 1):
+        echo[i * delay_samples:] += ser_linear ** i * speech[:-i * delay_samples]
+    enhanced_speech = speech + echo
+    return enhanced_speech
+def main():
+    speech = np.random.randn(10000)
+    noise = np.random.randn(10000)
+    snr_db = 20
+    noisy_signal = mix_speech_and_noise(speech, noise, snr_db)
+    return
+if __name__ == '__main__':
+    main()

toolbox/audio_edit/convert.py ADDED Viewed

	@@ -0,0 +1,106 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+from pathlib import Path
+import tempfile
+from typing import List
+import uuid
+import librosa
+import numpy as np
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def get_channel_list(channels: str = "0") -> List[int]:
+    splits = [int(split.strip()) for split in channels.split(",")]
+    return splits
+def audio_convert_by_librosa(filename: str,
+                             to_sample_rate: int = 8000,
+                             sample_width: int = 2,
+                             channels: str = "0",
+                             ) -> str:
+    channels_ = get_channel_list(channels)
+    channels_max = max(channels_)
+    signal, sample_rate = librosa.load(filename, sr=to_sample_rate, mono=False)
+    if signal.ndim > 2:
+        raise AssertionError
+    if signal.ndim == 2:
+        if signal.shape[0] > signal.shape[1]:
+            raise AssertionError
+        if channels_max > signal.shape[0]:
+            raise AssertionError(f"channels_max `{channels_max}` great than num channels `{signal.shape[0]}`")
+        signal_ = list()
+        for ch in channels_:
+            sub_signal = signal[ch, :]
+            signal_.append(sub_signal)
+        signal = np.concatenate(signal_, axis=-1)
+    if sample_width == 2:
+        max_wave_value = 32768.0
+        signal *= max_wave_value
+        signal = np.array(signal, dtype=np.int16)
+    else:
+        raise AssertionError(f"invalid sample_width: {sample_width}")
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/fmt_convert"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    wavfile.write(
+        output_file,
+        to_sample_rate,
+        signal,
+    )
+    return output_file
+engine_to_function = {
+    "librosa": audio_convert_by_librosa,
+}
+def audio_convert(filename: str,
+                  to_sample_rate: int = 8000,
+                  sample_width: int = 2,
+                  channels: str = "0",
+                  engine: str = "librosa"
+                  ):
+    function = engine_to_function.get(engine)
+    if function is None:
+        raise AssertionError(f"invalid engine: {engine}")
+    result = function(filename, to_sample_rate=to_sample_rate, sample_width=sample_width, channels=channels)
+    return result
+def main():
+    args = get_args()
+    output_file = audio_convert_by_librosa(args.filename)
+    print(output_file)
+    return
+if __name__ == '__main__':
+    main()

toolbox/audio_edit/info.py ADDED Viewed

	@@ -0,0 +1,121 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import librosa
+from pydub import AudioSegment
+import soundfile as sf
+from tinytag import TinyTag
+import wave
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def get_audio_info_by_wave(filename: str):
+    with wave.open(filename, 'rb') as wf:
+        params = wf.getparams()
+        audio_info = {
+            "channels": wf.getnchannels(),
+            "sample_width": wf.getsampwidth(),
+            "sample_rate": wf.getframerate(),
+            "num_samples": wf.getnframes(),
+            "duration": round(wf.getnframes() / wf.getframerate(), 4)
+        }
+        return audio_info
+def get_audio_info_by_pydub(filename: str):
+    audio = AudioSegment.from_file(filename)
+    audio_info = {
+        "duration": audio.duration_seconds,
+        "sample_rate": audio.frame_rate,
+        "channels": audio.channels,
+        "sample_width": audio.sample_width,
+        "num_samples": len(audio.get_array_of_samples()),
+        "rms": audio.rms,
+        "Decibels Full Scale (dBFS)": round(audio.dBFS, 4),
+    }
+    return audio_info
+def get_audio_info_by_librosa(filename: str):
+    y, sr = librosa.load(filename, sr=None)
+    audio_info = {
+        "duration": librosa.get_duration(y=y, sr=sr),
+        "sample_rate": sr,
+        "num_samples": len(y),
+        # "sample_width": y.dtype.itemsize
+    }
+    return audio_info
+def get_audio_info_by_soundfile(filename: str):
+    data, samplerate = sf.read(filename)
+    audio_info = {
+        "duration": len(data) / samplerate,
+        "sample_rate": samplerate,
+        "num_samples": len(data),
+        # "sample_width": data.dtype.itemsize
+    }
+    return audio_info
+def get_audio_info_by_tiny_tag(filename: str):
+    tag = TinyTag.get(filename)
+    audio_info = {
+        "duration": tag.duration,
+        "sample_rate": tag.samplerate,
+        "channels": tag.channels,
+        # "bitrate": tag.bitrate
+    }
+    return audio_info
+engine_to_function = {
+    "wave": get_audio_info_by_wave,
+    "pydub": get_audio_info_by_pydub,
+    "librosa": get_audio_info_by_librosa,
+    "soundfile": get_audio_info_by_soundfile,
+    "tiny_tag": get_audio_info_by_tiny_tag,
+}
+def get_audio_info(filename: str, engine: str = "wave"):
+    function = engine_to_function.get(engine)
+    if function is None:
+        raise AssertionError(f"invalid engine: {engine}")
+    return function(filename)
+def main():
+    args = get_args()
+    info = get_audio_info_by_wave(args.filename)
+    print(info)
+    info = get_audio_info_by_pydub(args.filename)
+    print(info)
+    info = get_audio_info_by_librosa(args.filename)
+    print(info)
+    info = get_audio_info_by_soundfile(args.filename)
+    print(info)
+    info = get_audio_info_by_tiny_tag(args.filename)
+    print(info)
+    return
+if __name__ == '__main__':
+    main()

toolbox/audio_edit/speech_speed.py ADDED Viewed

	@@ -0,0 +1,130 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os
+from pathlib import Path
+import tempfile
+import uuid
+from audiostretchy.stretch import stretch_audio
+import audiotsm
+import audiotsm.io.wav
+import audiotsm.io.array
+import librosa
+import numpy as np
+from pydub import AudioSegment
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def change_speech_speed_by_audiostretchy(filename: str, speed: float = 1.0) -> str:
+    if not (0.5 <= speed <= 2.0):
+        raise AssertionError(f"speed should between 0.5 and 2.0.")
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/speech_speed"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    stretch_audio(filename, output_file, ratio=1 / speed)
+    return output_file
+def change_speech_speed_by_audiotsm(filename: str, speed: float = 1.0) -> str:
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/speech_speed"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    reader = audiotsm.io.wav.WavReader(filename)
+    writer = audiotsm.io.wav.WavWriter(output_file, reader.channels, reader.samplerate)
+    wsola = audiotsm.wsola(reader.channels, speed=speed)
+    wsola.run(reader, writer)
+    writer.close()
+    reader.close()
+    return output_file
+def change_speech_speed_by_librosa(filename: str, speed: float = 1.0) -> str:
+    signal, sample_rate = librosa.load(filename, sr=None)
+    signal_ = librosa.effects.time_stretch(signal, rate=speed)
+    # max_wave_value = 32768.0
+    max_wave_value = 1 << 15
+    signal_ = signal_ * max_wave_value
+    signal_ = np.array(signal_, dtype=np.int16)
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/speech_speed"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    wavfile.write(
+        filename=output_file,
+        rate=sample_rate,
+        data=signal_,
+    )
+    return output_file
+def change_speech_speed_by_pydub(filename: str, speed: float = 1.0) -> str:
+    if speed < 1.0:
+        raise AssertionError(f"speed cannot less than 1.0 for pydub.")
+    sound = AudioSegment.from_wav(filename)
+    sound_ = sound.speedup(playback_speed=speed)
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/speech_speed"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    if os.path.exists(output_file):
+        os.remove(output_file)
+    sound_.export(output_file, format="wav")
+    return output_file
+engine_to_function = {
+    "audiostretchy": change_speech_speed_by_audiostretchy,
+    "audiotsm": change_speech_speed_by_audiotsm,
+    "librosa": change_speech_speed_by_librosa,
+    "pydub": change_speech_speed_by_pydub,
+}
+def change_speech_speed(filename: str, speed: float = 1.0, engine: str = "pydub"):
+    function = engine_to_function.get(engine)
+    if function is None:
+        raise AssertionError(f"invalid engine: {engine}")
+    return function(filename, speed=speed)
+def main():
+    args = get_args()
+    output_file = change_speech_speed_by_audiostretchy(args.filename, speed=0.5)
+    print(output_file)
+    return
+if __name__ == '__main__':
+    main()

toolbox/audio_edit/volume.py ADDED Viewed

	@@ -0,0 +1,139 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os
+from pathlib import Path
+import tempfile
+import uuid
+from ffmpy import FFmpeg
+from pydub import AudioSegment
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--filename",
+        default=(project_path / "data/voice_clone_audio/e2_tts/audio_0_3_clone_from_audio_0_2.wav").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_file",
+        default="temp.wav",
+        type=str,
+    )
+    parser.add_argument("--change_by_db", default=-10, type=int)
+    args = parser.parse_args()
+    return args
+def change_volume_by_ffmpy_by_db(filename: str, decibel: float = 0.0) -> str:
+    ext = os.path.basename(filename).strip().split(".")[-1]
+    if ext not in ["wav", "mp3"]:
+        raise Exception("format error")
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/volume"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    if os.path.exists(output_file):
+        os.remove(output_file)
+    ff = FFmpeg(
+        inputs={filename: None},
+        outputs={output_file: f'-filter:a "volume={decibel}dB"'}
+    )
+    ff.run()
+    return output_file
+def change_volume_by_ffmpy_by_radio(filename: str, radio: float = 0) -> str:
+    ext = os.path.basename(filename).strip().split(".")[-1]
+    if ext not in ["wav", "mp3"]:
+        raise Exception("format error")
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/volume"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    if os.path.exists(output_file):
+        os.remove(output_file)
+    ff = FFmpeg(
+        inputs={filename: None},
+        outputs={output_file: f'-filter:a "volume={radio}"'}
+    )
+    ff.run()
+    return output_file
+def change_volume_by_pydub_by_db(filename: str, decibel: float = 0.0) -> str:
+    sound = AudioSegment.from_wav(filename)
+    sound_ = sound + decibel
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/volume"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    sound_.export(
+        output_file,
+        format="wav"
+    )
+    return output_file
+def change_volume_by_pydub_by_reference(filename: str, reference: str) -> str:
+    sound1 = AudioSegment.from_wav(filename)
+    sound2 = AudioSegment.from_wav(reference)
+    sound1_ = sound1.apply_gain(sound2.dBFS - sound1.dBFS)
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/volume"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    sound1_.export(
+        output_file,
+        format="wav"
+    )
+    return output_file
+engine_to_function = {
+    "by_ffmpy_by_db": change_volume_by_ffmpy_by_db,
+    "by_ffmpy_by_radio": change_volume_by_ffmpy_by_radio,
+    "by_pydub_by_db": change_volume_by_pydub_by_db,
+    "by_pydub_by_reference": change_volume_by_pydub_by_reference,
+}
+def change_volume(filename: str, radio: float = 1.0, decibel: float = 0.0, reference: str = None, engine: str = "by_ffmpy_by_db"):
+    function = engine_to_function.get(engine)
+    if function is None:
+        raise AssertionError(f"invalid engine: {engine}")
+    if engine.endswith("by_radio"):
+        result = function(filename, radio=radio)
+    elif engine.endswith("by_db"):
+        result = function(filename, decibel=decibel)
+    elif engine.endswith("by_reference"):
+        result = function(filename, reference=reference)
+    else:
+        raise AssertionError
+    return result
+def main():
+    args = get_args()
+    output_file = change_volume_by_pydub_by_db(args.filename, decibel=-10)
+    print(output_file)
+    return
+if __name__ == '__main__':
+    main()