Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on Apr 22

Commit

8bea69a

1 Parent(s): 20323b4

add concat

Browse files

Files changed (26) hide show

.gitignore +1 -0
data/examples/concat/chinese/chinese_1.wav +3 -0
data/examples/concat/chinese/chinese_1_trim.wav +3 -0
data/examples/concat/chinese/chinese_2.wav +3 -0
data/examples/concat/chinese/chinese_2_tts.wav +3 -0
data/examples/concat/chinese/chinese_3.wav +3 -0
data/examples/concat/chinese/chinese_3_trim.wav +3 -0
data/examples/concat/chinese/chinese_4.wav +3 -0
data/examples/concat/chinese/chinese_5.wav +3 -0
data/examples/concat/chinese/chinese_5_trim.wav +3 -0
data/examples/concat/english/English_1.wav +3 -0
data/examples/concat/english/English_2.wav +3 -0
data/examples/concat/english/English_3.wav +3 -0
data/examples/concat/english/xtts_v2_english_2_volume_adapt.wav +3 -0
examples/jik_trim/step_1_download_audio.py +57 -0
examples/jik_trim/step_2_trim_audio.py +91 -0
examples/jik_trim/step_3_upload_to_obs.py +97 -0
log.py +229 -0
main.py +149 -2
project_settings.py +3 -0
requirements.txt +5 -0
toolbox/audio_edit/trim.py +78 -5
toolbox/obs/__init__.py +6 -0
toolbox/obs/aliyun_oss.py +71 -0
toolbox/obs/obs.py +58 -0
toolbox/obs/tencent_cos.py +73 -0

.gitignore CHANGED Viewed

@@ -12,3 +12,4 @@
 **/__pycache__/
 #**/*.wav

 **/__pycache__/
 #**/*.wav
+**/*.xlsx

data/examples/concat/chinese/chinese_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d78707b240dc3ced96be02cafbc95cc0bb06e2bae2344f588ab70ff90db990e2
+size 49574

data/examples/concat/chinese/chinese_1_trim.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97928009f0873c408b9006183f532d00585f458ac40a6a5d32e5e6e96e5ab0ab
+size 36556

data/examples/concat/chinese/chinese_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bccddbd8e63bf24d7748dc6379b82f71286b6c375ba84502e1653b7e923c0c83
+size 19274

data/examples/concat/chinese/chinese_2_tts.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4498d2360d5a600cc1d3a10887b8ca058dea923c402121b16a276b37607e5bc5
+size 35100

data/examples/concat/chinese/chinese_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbe485c141902ee59eda7b110e1e2e90ee470e9069c7e943a174dd287c141e77
+size 32826

data/examples/concat/chinese/chinese_3_trim.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3e29a8207daaba5507b75fc900e9a1d9aa19007d5b2a6b030fdf149109d4123
+size 18764

data/examples/concat/chinese/chinese_4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a0cb1a1b790af9a1d32fc8949b32bef8ab3cf2e50dddd2c07d7066c251ed121
+size 18764

data/examples/concat/chinese/chinese_5.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:321c8dd1b44740713a5cae91c2a6bbe4588589ec03161323097768cb976f18fb
+size 103070

data/examples/concat/chinese/chinese_5_trim.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3aaede84ac31ee51be49f7ebf265cb21485e8d5dd913750ab1a6dbed0192b566
+size 89132

data/examples/concat/english/English_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:359a461350c4d00b398d7c777c43543935faa510707bd4579b9a1fd29898081e
+size 312208

data/examples/concat/english/English_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1352b7fc7c10abd20de3ee9528da5513a460ed37e5c93f6726c052e94c3e94ac
+size 43698

data/examples/concat/english/English_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9dc1d88de3d28f5fac39a5fe6b59ae5bc5f139ee527e9836fe03bc6547964ff
+size 141380

data/examples/concat/english/xtts_v2_english_2_volume_adapt.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90ea4eeabd7328d774ba4ecb1c4fb55dc9267c91c099c4ca78723c3890d16358
+size 35544

examples/jik_trim/step_1_download_audio.py ADDED Viewed

	@@ -0,0 +1,57 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+from urllib.parse import urlparse
+from pathlib import Path
+import requests
+import pandas as pd
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--audio_file",
+        default="audio.xlsx",
+        type=str,
+    )
+    parser.add_argument(
+        "--output_dir",
+        default=(project_path / "temp/audio_trim/origin").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    output_dir = Path(args.output_dir)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    df = pd.read_excel(args.audio_file)
+    for i, row in df.iterrows():
+        name = row["name"]
+        scene_id = row["scene_id"]
+        audio_id = row["audio_id"]
+        audio_url = row["audio_url"]
+        schema = urlparse(audio_url)
+        path = schema.path
+        filename = output_dir / path[1:]
+        filename.parent.mkdir(parents=True, exist_ok=True)
+        resp = requests.get(audio_url)
+        with open(filename.as_posix(), "wb") as f:
+            f.write(resp.content)
+    return
+if __name__ == "__main__":
+    main()

examples/jik_trim/step_2_trim_audio.py ADDED Viewed

	@@ -0,0 +1,91 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import shutil
+from urllib.parse import urlparse
+import json
+import librosa
+import numpy as np
+from pathlib import Path
+from gradio_client import Client, handle_file
+import requests
+import pandas as pd
+from scipy.io import wavfile
+from project_settings import project_path
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--audio_file",
+        default="audio.xlsx",
+        type=str,
+    )
+    parser.add_argument(
+        "--audio_dir",
+        default=(project_path / "temp/audio_trim/origin").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--output_dir",
+        default=(project_path / "temp/audio_trim/trimmed").as_posix(),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+client = Client("http://127.0.0.1:7861/")
+def main():
+    args = get_args()
+    audio_dir = Path(args.audio_dir)
+    audio_dir.mkdir(parents=True, exist_ok=True)
+    output_dir = Path(args.output_dir)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    df = pd.read_excel(args.audio_file)
+    for i, row in df.iterrows():
+        name = row["name"]
+        scene_id = row["scene_id"]
+        audio_id = row["audio_id"]
+        audio_url = row["audio_url"]
+        schema = urlparse(audio_url)
+        path = schema.path
+        filename = audio_dir / path[1:]
+        kwargs = {
+            "silence_threshold": -40,
+            "min_silence_len": 200,
+            "min_kept_silence": 200,
+            "mode": "trim"
+        }
+        kwargs = json.dumps(kwargs, ensure_ascii=False, indent=4)
+        output_audio, log = client.predict(
+            audio_t=handle_file(filename.as_posix()),
+            kwargs=kwargs,
+            engine="pydub_scipy",
+            api_name="/when_click_trim_audio"
+        )
+        trimmed_filename = output_dir / path[1:]
+        trimmed_filename.parent.mkdir(parents=True, exist_ok=True)
+        shutil.move(
+            output_audio,
+            trimmed_filename.as_posix()
+        )
+    return
+if __name__ == "__main__":
+    main()

examples/jik_trim/step_3_upload_to_obs.py ADDED Viewed

	@@ -0,0 +1,97 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import shutil
+from urllib.parse import urlparse
+import json
+import librosa
+import numpy as np
+from pathlib import Path
+from gradio_client import Client, handle_file
+import requests
+import pandas as pd
+from scipy.io import wavfile
+from project_settings import project_path, environment
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--audio_file",
+        default="audio.xlsx",
+        type=str,
+    )
+    parser.add_argument(
+        "--audio_dir",
+        default=(project_path / "temp/audio_trim/trimmed").as_posix(),
+        type=str,
+    )
+    parser.add_argument(
+        "--obs_secret_id",
+        default=environment.get("obs_secret_id"),
+        type=str,
+    )
+    parser.add_argument(
+        "--obs_secret_key",
+        default=environment.get("obs_secret_key"),
+        type=str,
+    )
+    args = parser.parse_args()
+    return args
+client = Client("http://127.0.0.1:7861/")
+def main():
+    args = get_args()
+    obs_kwargs = {
+        "obs_supplier": "tencent",
+        "url_prefix": "https://nxai-hk-1259196162.cos.ap-hongkong.myqcloud.com",
+        "endpoint_url": "https://cos.ap-hongkong.myqcloud.com",
+        "region": "ap-hongkong",
+        "secret_id": args.obs_secret_id,
+        "secret_key": args.obs_secret_key,
+        "bucket": "nxai-hk-1259196162",
+        # "debug": True
+    }
+    obs_kwargs = json.dumps(obs_kwargs, ensure_ascii=False, indent=4)
+    print(obs_kwargs)
+    audio_dir = Path(args.audio_dir)
+    audio_dir.mkdir(parents=True, exist_ok=True)
+    df = pd.read_excel(args.audio_file)
+    for i, row in df.iterrows():
+        name = row["name"]
+        scene_id = row["scene_id"]
+        audio_id = row["audio_id"]
+        audio_url = row["audio_url"]
+        schema = urlparse(audio_url)
+        url_path = schema.path
+        filename = audio_dir / url_path[1:]
+        file_url, message = client.predict(
+            filename=handle_file(filename.as_posix()),
+            url_path=url_path[1:],
+            obs_kwargs=obs_kwargs,
+            api_name="/when_click_upload_to_obs"
+        )
+        print(filename.as_posix())
+        print(f"file_url1: {audio_url}")
+        print(f"file_url2: {file_url}")
+        print(f"message: {message}")
+        print("-" * 150)
+    return
+if __name__ == "__main__":
+    main()

log.py ADDED Viewed

	@@ -0,0 +1,229 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import logging
+from logging.handlers import RotatingFileHandler, TimedRotatingFileHandler
+import os
+def setup_size_rotating(log_directory: str):
+    fmt = "%(asctime)s - %(name)s - %(levelname)s  %(filename)s:%(lineno)d >  %(message)s"
+    stream_handler = logging.StreamHandler()
+    stream_handler.setLevel(logging.INFO)
+    stream_handler.setFormatter(logging.Formatter(fmt))
+    # main
+    main_logger = logging.getLogger("main")
+    main_logger.addHandler(stream_handler)
+    main_info_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "main.log"),
+        maxBytes=100*1024*1024,  # 100MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    main_info_file_handler.setLevel(logging.INFO)
+    main_info_file_handler.setFormatter(logging.Formatter(fmt))
+    main_logger.addHandler(main_info_file_handler)
+    # http
+    http_logger = logging.getLogger("http")
+    http_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "http.log"),
+        maxBytes=100*1024*1024,  # 100MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    http_file_handler.setLevel(logging.DEBUG)
+    http_file_handler.setFormatter(logging.Formatter(fmt))
+    http_logger.addHandler(http_file_handler)
+    # api
+    api_logger = logging.getLogger("api")
+    api_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "api.log"),
+        maxBytes=10*1024*1024,  # 10MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    api_file_handler.setLevel(logging.DEBUG)
+    api_file_handler.setFormatter(logging.Formatter(fmt))
+    api_logger.addHandler(api_file_handler)
+    # toolbox
+    toolbox_logger = logging.getLogger("toolbox")
+    toolbox_logger.addHandler(stream_handler)
+    toolbox_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "toolbox.log"),
+        maxBytes=10*1024*1024,  # 10MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    toolbox_file_handler.setLevel(logging.DEBUG)
+    toolbox_file_handler.setFormatter(logging.Formatter(fmt))
+    toolbox_logger.addHandler(toolbox_file_handler)
+    # alarm
+    alarm_logger = logging.getLogger("alarm")
+    alarm_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "alarm.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    alarm_file_handler.setLevel(logging.DEBUG)
+    alarm_file_handler.setFormatter(logging.Formatter(fmt))
+    alarm_logger.addHandler(alarm_file_handler)
+    debug_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "debug.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    debug_file_handler.setLevel(logging.DEBUG)
+    debug_file_handler.setFormatter(logging.Formatter(fmt))
+    info_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "info.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    info_file_handler.setLevel(logging.INFO)
+    info_file_handler.setFormatter(logging.Formatter(fmt))
+    error_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "error.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    error_file_handler.setLevel(logging.ERROR)
+    error_file_handler.setFormatter(logging.Formatter(fmt))
+    logging.basicConfig(
+        level=logging.DEBUG,
+        datefmt="%a, %d %b %Y %H:%M:%S",
+        handlers=[
+            debug_file_handler,
+            info_file_handler,
+            error_file_handler,
+        ]
+    )
+def setup_time_rotating(log_directory: str):
+    fmt = "%(asctime)s - %(name)s - %(levelname)s  %(filename)s:%(lineno)d >  %(message)s"
+    stream_handler = logging.StreamHandler()
+    stream_handler.setLevel(logging.INFO)
+    stream_handler.setFormatter(logging.Formatter(fmt))
+    # main
+    main_logger = logging.getLogger("main")
+    main_logger.addHandler(stream_handler)
+    main_info_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "main.log"),
+        encoding="utf-8",
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    main_info_file_handler.setLevel(logging.INFO)
+    main_info_file_handler.setFormatter(logging.Formatter(fmt))
+    main_logger.addHandler(main_info_file_handler)
+    # http
+    http_logger = logging.getLogger("http")
+    http_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "http.log"),
+        encoding='utf-8',
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    http_file_handler.setLevel(logging.DEBUG)
+    http_file_handler.setFormatter(logging.Formatter(fmt))
+    http_logger.addHandler(http_file_handler)
+    # api
+    api_logger = logging.getLogger("api")
+    api_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "api.log"),
+        encoding='utf-8',
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    api_file_handler.setLevel(logging.DEBUG)
+    api_file_handler.setFormatter(logging.Formatter(fmt))
+    api_logger.addHandler(api_file_handler)
+    # toolbox
+    toolbox_logger = logging.getLogger("toolbox")
+    toolbox_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "toolbox.log"),
+        maxBytes=10*1024*1024,  # 10MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    toolbox_file_handler.setLevel(logging.DEBUG)
+    toolbox_file_handler.setFormatter(logging.Formatter(fmt))
+    toolbox_logger.addHandler(toolbox_file_handler)
+    # alarm
+    alarm_logger = logging.getLogger("alarm")
+    alarm_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "alarm.log"),
+        encoding="utf-8",
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    alarm_file_handler.setLevel(logging.DEBUG)
+    alarm_file_handler.setFormatter(logging.Formatter(fmt))
+    alarm_logger.addHandler(alarm_file_handler)
+    debug_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "debug.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    debug_file_handler.setLevel(logging.DEBUG)
+    debug_file_handler.setFormatter(logging.Formatter(fmt))
+    info_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "info.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    info_file_handler.setLevel(logging.INFO)
+    info_file_handler.setFormatter(logging.Formatter(fmt))
+    error_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "error.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    error_file_handler.setLevel(logging.ERROR)
+    error_file_handler.setFormatter(logging.Formatter(fmt))
+    logging.basicConfig(
+        level=logging.DEBUG,
+        datefmt="%a, %d %b %Y %H:%M:%S",
+        handlers=[
+            debug_file_handler,
+            info_file_handler,
+            error_file_handler,
+        ]
+    )
+if __name__ == "__main__":
+    pass

main.py CHANGED Viewed

@@ -13,7 +13,9 @@ docker run -itd \
 audio_edit:v20250314_1357
 """
 import argparse
 import json
 from pathlib import Path
 import platform
 import tempfile
@@ -24,7 +26,7 @@ import gradio as gr
 import numpy as np
 from scipy.io import wavfile
-from project_settings import environment, project_path
 from toolbox.audio_edit.info import get_audio_info, engine_to_function as info_engine_to_function
 from toolbox.audio_edit.convert import audio_convert, engine_to_function as cvt_engine_to_function
 from toolbox.audio_edit.speech_speed import change_speech_speed, engine_to_function as speed_engine_to_function
@@ -33,6 +35,12 @@ from toolbox.audio_edit.augment import mix_speech_and_noise
 from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
 from toolbox.os.command import Command
 from toolbox.audio_edit.trim import audio_trim, engine_to_function as trim_engine_to_function
 def get_args():
@@ -192,6 +200,8 @@ def when_click_trim_audio(audio_t, kwargs: str, engine: str):
         kwargs = json.loads(kwargs)
         output_file, ext = audio_trim(
             filename=filename,
             engine=engine,
             **kwargs,
         )
@@ -204,6 +214,35 @@ def when_click_trim_audio(audio_t, kwargs: str, engine: str):
     return output_file, message
 def when_click_reverb(audio_t, kwargs: str, engine: str):
     sample_rate, signal = audio_t
@@ -258,6 +297,27 @@ def when_click_mix_speech_and_noise(speech_t, noise_t, snr_db: float):
     return (sample_rate1, mix_signal), message
 audio_convert_examples = [
     [
         (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
@@ -303,6 +363,12 @@ pad_audio_examples = [
 trim_examples = [
     [
         (project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
         '{\n    "silence_threshold": -40,\n    "min_silence_len": 200,\n    "min_kept_silence": 200,\n    "mode": "trim"\n}',
@@ -311,6 +377,49 @@ trim_examples = [
 ]
 reverb_examples = [
     [
         (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
@@ -540,7 +649,6 @@ def main():
                         trim_kwargs = gr.Textbox(lines=8, label="kwargs")
                         trim_engine = gr.Dropdown(choices=trim_choices, value=trim_choices[0], label="engine")
                         trim_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
                         trim_output_audio = gr.Audio(label="output_audio")
                         trim_log = gr.Text(label="log")
@@ -559,6 +667,29 @@ def main():
                         trim_output_audio, trim_log
                     ],
                 )
             with gr.TabItem("reverb"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
@@ -613,6 +744,22 @@ def main():
                         mix_output_audio, mix_log
                     ],
                 )
             with gr.TabItem("shell"):
                 shell_text = gr.Textbox(label="cmd")
                 shell_button = gr.Button("run")

 audio_edit:v20250314_1357
 """
 import argparse
+import asyncio
 import json
+import logging
 from pathlib import Path
 import platform
 import tempfile
 import numpy as np
 from scipy.io import wavfile
+from project_settings import environment, project_path, log_directory
 from toolbox.audio_edit.info import get_audio_info, engine_to_function as info_engine_to_function
 from toolbox.audio_edit.convert import audio_convert, engine_to_function as cvt_engine_to_function
 from toolbox.audio_edit.speech_speed import change_speech_speed, engine_to_function as speed_engine_to_function
 from toolbox.audio_edit.reverb import reverb, engine_to_function as reverb_engine_to_function
 from toolbox.os.command import Command
 from toolbox.audio_edit.trim import audio_trim, engine_to_function as trim_engine_to_function
+from toolbox.obs.obs import OBSManager
+import log
+log.setup_size_rotating(log_directory=log_directory)
+logger = logging.getLogger("main")
 def get_args():
         kwargs = json.loads(kwargs)
         output_file, ext = audio_trim(
             filename=filename,
+            signal=signal,
+            sample_rate=sample_rate,
             engine=engine,
             **kwargs,
         )
     return output_file, message
+def when_click_concat_audio(files: List[str]):
+    check_sample_rate = None
+    check_dtype = None
+    message = "success"
+    try:
+        signal_list = list()
+        for file in files:
+            sample_rate, signal = wavfile.read(file)
+            if check_sample_rate is None:
+                check_sample_rate = sample_rate
+            if check_dtype is None:
+                check_dtype = signal.dtype
+            if check_sample_rate != sample_rate:
+                raise AssertionError
+            if check_dtype != signal.dtype:
+                raise AssertionError
+            signal_list.append(signal)
+        signal_list = np.concat(signal_list)
+    except Exception as e:
+        signal_list = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return (check_sample_rate, signal_list), message
 def when_click_reverb(audio_t, kwargs: str, engine: str):
     sample_rate, signal = audio_t
     return (sample_rate1, mix_signal), message
+def when_click_upload_to_obs(filename: str, url_path: str, obs_kwargs: str):
+    message = "success"
+    try:
+        obs_kwargs = json.loads(obs_kwargs)
+        obs_manager = OBSManager(
+            **obs_kwargs,
+        )
+        file_url = asyncio.run(
+            obs_manager.upload_file_to_obs(
+                filename, url_path
+            )
+        )
+    except Exception as e:
+        file_url = None
+        message = f"failed. error type: {type(e)}, error text: {str(e)}"
+    return file_url, message
 audio_convert_examples = [
     [
         (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
 trim_examples = [
+    [
+        (
+                    project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
+        '{\n    "silence_threshold": -40,\n    "min_silence_len": 200,\n    "min_kept_silence": 200,\n    "mode": "trim"\n}',
+        "pydub_scipy",
+    ],
     [
         (project_path / "data/examples/mix/speech/000f62f5-5b05-4494-a8db-0eaca3ebd871_th-TH_1678353399860.wav").as_posix(),
         '{\n    "silence_threshold": -40,\n    "min_silence_len": 200,\n    "min_kept_silence": 200,\n    "mode": "trim"\n}',
 ]
+concat_examples = [
+    [
+        [
+            (project_path / "data/examples/concat/chinese/chinese_1.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_2_tts.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_3.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_4.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_5.wav").as_posix(),
+        ],
+    ],
+    [
+        [
+            (project_path / "data/examples/concat/chinese/chinese_1_trim.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_2_tts.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_3_trim.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_4.wav").as_posix(),
+            (project_path / "data/examples/concat/chinese/chinese_5_trim.wav").as_posix(),
+        ],
+    ],
+    [
+        [
+            (project_path / "data/examples/concat/english/English_1.wav").as_posix(),
+            (project_path / "data/examples/concat/english/xtts_v2_english_2_volume_adapt.wav").as_posix(),
+            (project_path / "data/examples/concat/english/English_3.wav").as_posix(),
+        ],
+    ],
+    [
+        [
+            (project_path / "data/examples/concat/english/English_1.wav").as_posix(),
+            (project_path / "data/examples/concat/english/English_2.wav").as_posix(),
+            (project_path / "data/examples/concat/english/English_3.wav").as_posix(),
+        ],
+    ],
+    [
+        [
+            (project_path / "data/examples/concat/english/English_1.wav").as_posix(),
+            (project_path / "data/examples/concat/english/xtts_v2_english_2_volume_adapt.wav").as_posix(),
+            (project_path / "data/examples/concat/english/English_3.wav").as_posix(),
+        ],
+    ],
+]
 reverb_examples = [
     [
         (project_path / "data/examples/default/audio_0_2.wav").as_posix(),
                         trim_kwargs = gr.Textbox(lines=8, label="kwargs")
                         trim_engine = gr.Dropdown(choices=trim_choices, value=trim_choices[0], label="engine")
                         trim_button = gr.Button(variant="primary")
                     with gr.Column(variant="panel", scale=5):
                         trim_output_audio = gr.Audio(label="output_audio")
                         trim_log = gr.Text(label="log")
                         trim_output_audio, trim_log
                     ],
                 )
+            with gr.TabItem("concat"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        concat_wav_files = gr.Files(label="wav files")
+                        concat_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        concat_output_audio = gr.Audio(label="output_audio")
+                        concat_log = gr.Text(label="log")
+                gr.Examples(
+                    examples=concat_examples,
+                    inputs=[concat_wav_files],
+                    outputs=[
+                        concat_output_audio, concat_log
+                    ],
+                    fn=when_click_concat_audio,
+                )
+                concat_button.click(
+                    when_click_concat_audio,
+                    inputs=[concat_wav_files],
+                    outputs=[
+                        concat_output_audio, concat_log
+                    ],
+                )
             with gr.TabItem("reverb"):
                 with gr.Row():
                     with gr.Column(variant="panel", scale=5):
                         mix_output_audio, mix_log
                     ],
                 )
+            with gr.TabItem("obs"):
+                with gr.Row():
+                    with gr.Column(variant="panel", scale=5):
+                        obs_file = gr.File(label="file")
+                        obs_url_path = gr.Text(label="url_path")
+                        obs_kwargs = gr.Textbox(label="obs_kwargs")
+                        obs_button = gr.Button(variant="primary")
+                    with gr.Column(variant="panel", scale=5):
+                        obs_file_url = gr.Text(label="obs_file_url")
+                        info_log = gr.Text(label="log")
+                obs_button.click(
+                    when_click_upload_to_obs,
+                    inputs=[obs_file, obs_url_path, obs_kwargs],
+                    outputs=[obs_file_url, info_log],
+                )
             with gr.TabItem("shell"):
                 shell_text = gr.Textbox(label="cmd")
                 shell_button = gr.Button("run")

project_settings.py CHANGED Viewed

@@ -8,6 +8,9 @@ from toolbox.os.environment import EnvironmentManager
 project_path = os.path.abspath(os.path.dirname(__file__))
 project_path = Path(project_path)
 environment = EnvironmentManager(
     path=os.path.join(project_path, "dotenv"),
     env=os.environ.get("environment", "dev"),

 project_path = os.path.abspath(os.path.dirname(__file__))
 project_path = Path(project_path)
+log_directory = project_path / "logs"
+log_directory.mkdir(parents=True, exist_ok=True)
 environment = EnvironmentManager(
     path=os.path.join(project_path, "dotenv"),
     env=os.environ.get("environment", "dev"),

requirements.txt CHANGED Viewed

@@ -8,3 +8,8 @@ tinytag==2.0.0
 pedalboard==0.9.16
 pyroomacoustics==0.8.3
 python-dotenv==1.0.1

 pedalboard==0.9.16
 pyroomacoustics==0.8.3
 python-dotenv==1.0.1
+pandas==2.2.3
+openpyxl==3.1.5
+aiobotocore==2.12.1
+oss2==2.19.1
+tenacity==8.3.0

toolbox/audio_edit/trim.py CHANGED Viewed

@@ -6,6 +6,7 @@ import tempfile
 import uuid
 import librosa
 from pydub import AudioSegment
 from pydub.silence import detect_silence
 from scipy.io import wavfile
@@ -24,12 +25,79 @@ def get_args():
     return args
 def audio_trim_by_pydub(filename: str,
                         silence_threshold: int = -40,
                         min_silence_len: float = 1000,
                         min_kept_silence: float = 200,
                         mode: str = "trim"
                         ):
     audio = AudioSegment.from_file(filename, format="wav")
     length = len(audio)
@@ -78,18 +146,19 @@ def audio_trim_by_pydub(filename: str,
 def audio_trim_by_librosa(filename: str,
-                          sample_rate: int = None,
                           top_db: float = 60,
                           frame_length: int = 2048,
                           hop_length: int = 512,
                           mode: str = "trim",
                           **kwargs
                           ):
-    signal, sample_rate = librosa.load(filename, sr=sample_rate, mono=False)
     length = len(signal)
     _, index= librosa.effects.trim(
-        signal,
         top_db=top_db, frame_length=frame_length,
         hop_length=hop_length,
         **kwargs
@@ -126,17 +195,21 @@ def audio_trim_by_librosa(filename: str,
 engine_to_function = {
     "pydub": audio_trim_by_pydub,
     "librosa": audio_trim_by_librosa,
 }
-def audio_trim(filename: str, engine: str = "librosa", **kwargs):
     function = engine_to_function.get(engine)
     if function is None:
         raise AssertionError(f"invalid engine: {engine}")
-    return function(filename, **kwargs)
 def main():

 import uuid
 import librosa
+import numpy as np
 from pydub import AudioSegment
 from pydub.silence import detect_silence
 from scipy.io import wavfile
     return args
+def audio_trim_by_pydub_scipy(filename: str,
+                              signal: np.ndarray,
+                              sample_rate: int,
+                              silence_threshold: int = -40,
+                              min_silence_len: float = 1000,
+                              min_kept_silence: float = 200,
+                              mode: str = "trim",
+                              ):
+    audio = AudioSegment.from_file(filename, format="wav")
+    length = len(audio)
+    silent_ranges = detect_silence(audio, min_silence_len=min_silence_len, silence_thresh=silence_threshold)
+    output_dir = Path(tempfile.gettempdir()) / "audio_edit/trim"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = output_dir / f"{uuid.uuid4()}.wav"
+    output_file = output_file.as_posix()
+    if len(silent_ranges) == 0:
+        audio.export(output_file)
+        ext = {
+            "begin": 0,
+            "end": length,
+            "origin_length": length,
+        }
+        return output_file, ext
+    begin_silence = silent_ranges[0]
+    begin = 0
+    if begin_silence[0] == 0:
+        begin = max(0, begin_silence[1] - min_kept_silence)
+    end_silence = silent_ranges[-1]
+    end = length
+    if end_silence[1] == length:
+        end = min(length, end_silence[0] + min_kept_silence)
+    if mode == "trim":
+        pass
+    elif mode == "rtrim":
+        begin = 0
+    elif mode == "ltrim":
+        end = length
+    begin = int(begin / 1000 * sample_rate)
+    end = int(end / 1000 * sample_rate)
+    trimmed_signal = signal[begin:end]
+    wavfile.write(
+        output_file,
+        rate=sample_rate,
+        data=trimmed_signal
+    )
+    ext = {
+        "begin": begin,
+        "end": end,
+        "origin_length": length,
+    }
+    return output_file, ext
 def audio_trim_by_pydub(filename: str,
+                        signal: np.ndarray,
+                        sample_rate: int,
                         silence_threshold: int = -40,
                         min_silence_len: float = 1000,
                         min_kept_silence: float = 200,
                         mode: str = "trim"
                         ):
+    """
+    测试之后发现这个东西将音频质量降低了很多.
+    """
     audio = AudioSegment.from_file(filename, format="wav")
     length = len(audio)
 def audio_trim_by_librosa(filename: str,
+                          signal: np.ndarray,
+                          sample_rate: int,
                           top_db: float = 60,
                           frame_length: int = 2048,
                           hop_length: int = 512,
                           mode: str = "trim",
                           **kwargs
                           ):
+    signal_temp, _ = librosa.load(filename, sr=sample_rate, mono=False)
     length = len(signal)
     _, index= librosa.effects.trim(
+        signal_temp,
         top_db=top_db, frame_length=frame_length,
         hop_length=hop_length,
         **kwargs
 engine_to_function = {
+    "pydub_scipy": audio_trim_by_pydub_scipy,
     "pydub": audio_trim_by_pydub,
     "librosa": audio_trim_by_librosa,
 }
+def audio_trim(filename: str,
+               signal: np.ndarray,
+               sample_rate: int,
+               engine: str = "librosa", **kwargs):
     function = engine_to_function.get(engine)
     if function is None:
         raise AssertionError(f"invalid engine: {engine}")
+    return function(filename, signal, sample_rate, **kwargs)
 def main():

toolbox/obs/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+if __name__ == "__main__":
+    pass

toolbox/obs/aliyun_oss.py ADDED Viewed

	@@ -0,0 +1,71 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import json
+import logging
+import time
+import oss2
+from oss2.credentials import StaticCredentialsProvider
+from tenacity import before_sleep_log, retry, retry_if_exception_type, stop_after_attempt, wait_fixed
+api_logger = logging.getLogger("api")
+class AliyunOSS(object):
+    """
+    https://help.aliyun.com/zh/oss/developer-reference/getting-started-with-oss-sdk-for-python#0cf90ff8b28eg
+    """
+    def __init__(self,
+                 endpoint_url: str,
+                 region: str,
+                 secret_key: str,
+                 secret_id: str,
+                 bucket: str,
+                 ):
+        self.endpoint_url = endpoint_url
+        self.region = region
+        self.secret_key = secret_key
+        self.secret_id = secret_id
+        self.bucket = bucket
+        self.auth = oss2.ProviderAuthV4(StaticCredentialsProvider(
+            self.secret_key, self.secret_id
+        ))
+        self.bucket = oss2.Bucket(self.auth, self.endpoint_url, self.bucket, region=self.region)
+    async def upload_by_filename(self, local_filename: str, cos_filename: str):
+        file_in_bytes = open(local_filename, "rb")
+        response = await self.upload_by_bytes(file_in_bytes, cos_filename)
+        return response
+    @retry(
+        wait=wait_fixed(0.5),
+        stop=stop_after_attempt(3),
+        before_sleep=before_sleep_log(api_logger, logging.ERROR),
+    )
+    async def upload_by_bytes(self, data_bytes: bytes, url_path: str) -> dict:
+        start_time = time.time()
+        try:
+            response = self.bucket.put_object(url_path, data_bytes)
+            msg = "success"
+            rsp_text = json.dumps({
+                "status": response.status,
+                "etag": response.etag,
+            })
+            time_cost = time.time() - start_time
+            api_logger.info(f"s3|{msg}|{time_cost:.3f}s|{self.endpoint_url}|{self.bucket}|{url_path}|{rsp_text}")
+        except Exception as e:
+            msg = f"{type(e)}: {str(e)}"
+            rsp_text = ""
+            time_cost = time.time() - start_time
+            api_logger.info(f"s3|{msg}|{time_cost:.3f}s|{self.endpoint_url}|{self.bucket}|{url_path}|{rsp_text}")
+            raise e
+        return response
+if __name__ == "__main__":
+    pass

toolbox/obs/obs.py ADDED Viewed

	@@ -0,0 +1,58 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+from toolbox.obs.tencent_cos import TencentCos
+from toolbox.obs.aliyun_oss import AliyunOSS
+class OBSManager(object):
+    def __init__(self,
+                 obs_supplier: str,
+                 url_prefix: str,
+                 endpoint_url: str,
+                 region: str,
+                 secret_id: str,
+                 secret_key: str,
+                 bucket: str,
+                 debug: bool = False
+                 ):
+        self.obs_supplier = obs_supplier
+        self.url_prefix = url_prefix
+        self.endpoint_url = endpoint_url
+        self.region = region
+        self.secret_id = secret_id
+        self.secret_key = secret_key
+        self.bucket = bucket
+        self.debug = debug
+        if obs_supplier == "tencent":
+            obs_cls = TencentCos
+        elif obs_supplier == "aliyun":
+            obs_cls = AliyunOSS
+        else:
+            raise AssertionError
+        self.obs_client = obs_cls(
+            endpoint_url=endpoint_url,
+            region=region,
+            secret_key=secret_key,
+            secret_id=secret_id,
+            bucket=bucket,
+        )
+    async def upload_file_to_obs(self, filename: str, url_path: str):
+        with open(filename, "rb") as f:
+            data_bytes = f.read()
+        cos_file_url = f"{self.url_prefix}/{url_path}"
+        if not self.debug:
+            result = await self.obs_client.upload_by_bytes(
+                data_bytes=data_bytes,
+                url_path=url_path,
+            )
+        return cos_file_url
+if __name__ == "__main__":
+    pass

toolbox/obs/tencent_cos.py ADDED Viewed

	@@ -0,0 +1,73 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import json
+import logging
+import time
+from aiobotocore.session import get_session
+from tenacity import before_sleep_log, retry, retry_if_exception_type, stop_after_attempt, wait_fixed
+api_logger = logging.getLogger("api")
+class TencentCos(object):
+    def __init__(self,
+                 endpoint_url: str,
+                 region: str,
+                 secret_key: str,
+                 secret_id: str,
+                 bucket: str,
+                 ):
+        self.endpoint_url = endpoint_url
+        self.region = region
+        self.secret_key = secret_key
+        self.secret_id = secret_id
+        self.bucket = bucket
+    async def upload_by_filename(self, local_filename: str, cos_filename: str):
+        file_in_bytes = open(local_filename, "rb")
+        response = await self.upload_by_bytes(file_in_bytes, cos_filename)
+        return response
+    @retry(
+        wait=wait_fixed(0.5),
+        stop=stop_after_attempt(3),
+        before_sleep=before_sleep_log(api_logger, logging.ERROR),
+    )
+    async def upload_by_bytes(self, data_bytes: bytes, url_path: str) -> dict:
+        start_time = time.time()
+        try:
+            session = get_session()
+            # https://obs.{region}.myhuaweicloud.com
+            async with session.create_client(
+                "s3",
+                endpoint_url=self.endpoint_url,
+                region_name=self.region,
+                aws_secret_access_key=self.secret_key,
+                aws_access_key_id=self.secret_id,
+            ) as client:
+                response = await client.put_object(
+                    Bucket=self.bucket,
+                    Key=url_path,
+                    Body=data_bytes
+                )
+            msg = "success"
+            rsp_text = json.dumps(response)
+            time_cost = time.time() - start_time
+            api_logger.info(f"s3|{msg}|{time_cost:.3f}s|{self.endpoint_url}|{self.bucket}|{url_path}|{rsp_text}")
+        except Exception as e:
+            msg = f"{type(e)}: {str(e)}"
+            rsp_text = ""
+            time_cost = time.time() - start_time
+            api_logger.info(f"s3|{msg}|{time_cost:.3f}s|{self.endpoint_url}|{self.bucket}|{url_path}|{rsp_text}")
+            raise e
+        return response
+if __name__ == "__main__":
+    pass