Spaces:

intelli-zen
/

audio_edit

Running

App Files Files Community

HoneyTian commited on Jun 25

Commit

7b82434

1 Parent(s): 8bea69a

update

Browse files

Files changed (5) hide show

examples/jik_trim/step_1_download_audio.py +5 -1
examples/jik_trim/step_2_trim_audio.py +4 -8
examples/jik_trim/step_3_upload_to_obs.py +2 -7
main.py +57 -5
toolbox/audio_edit/info.py +1 -1

examples/jik_trim/step_1_download_audio.py CHANGED Viewed

@@ -7,6 +7,7 @@ from pathlib import Path
 import requests
 import pandas as pd
 from project_settings import project_path
@@ -35,7 +36,7 @@ def main():
     df = pd.read_excel(args.audio_file)
-    for i, row in df.iterrows():
         name = row["name"]
         scene_id = row["scene_id"]
         audio_id = row["audio_id"]
@@ -47,6 +48,9 @@ def main():
         filename = output_dir / path[1:]
         filename.parent.mkdir(parents=True, exist_ok=True)
         resp = requests.get(audio_url)
         with open(filename.as_posix(), "wb") as f:
             f.write(resp.content)

 import requests
 import pandas as pd
+from tqdm import tqdm
 from project_settings import project_path
     df = pd.read_excel(args.audio_file)
+    for i, row in tqdm(df.iterrows(), total=len(df)):
         name = row["name"]
         scene_id = row["scene_id"]
         audio_id = row["audio_id"]
         filename = output_dir / path[1:]
         filename.parent.mkdir(parents=True, exist_ok=True)
+        if filename.exists():
+            continue
         resp = requests.get(audio_url)
         with open(filename.as_posix(), "wb") as f:
             f.write(resp.content)

examples/jik_trim/step_2_trim_audio.py CHANGED Viewed

@@ -4,15 +4,11 @@ import argparse
 import shutil
 from urllib.parse import urlparse
 import json
-import librosa
-import numpy as np
 from pathlib import Path
 from gradio_client import Client, handle_file
-import requests
 import pandas as pd
-from scipy.io import wavfile
 from project_settings import project_path
@@ -52,7 +48,7 @@ def main():
     df = pd.read_excel(args.audio_file)
-    for i, row in df.iterrows():
         name = row["name"]
         scene_id = row["scene_id"]
         audio_id = row["audio_id"]
@@ -65,8 +61,8 @@ def main():
         kwargs = {
             "silence_threshold": -40,
-            "min_silence_len": 200,
-            "min_kept_silence": 200,
             "mode": "trim"
         }
         kwargs = json.dumps(kwargs, ensure_ascii=False, indent=4)

 import shutil
 from urllib.parse import urlparse
 import json
 from pathlib import Path
 from gradio_client import Client, handle_file
 import pandas as pd
+from tqdm import tqdm
 from project_settings import project_path
     df = pd.read_excel(args.audio_file)
+    for i, row in tqdm(df.iterrows(), total=len(df)):
         name = row["name"]
         scene_id = row["scene_id"]
         audio_id = row["audio_id"]
         kwargs = {
             "silence_threshold": -40,
+            "min_silence_len": 50,
+            "min_kept_silence": 0,
             "mode": "trim"
         }
         kwargs = json.dumps(kwargs, ensure_ascii=False, indent=4)

examples/jik_trim/step_3_upload_to_obs.py CHANGED Viewed

@@ -1,18 +1,13 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import argparse
-import shutil
 from urllib.parse import urlparse
 import json
-import librosa
-import numpy as np
 from pathlib import Path
 from gradio_client import Client, handle_file
-import requests
 import pandas as pd
-from scipy.io import wavfile
 from project_settings import project_path, environment
@@ -67,7 +62,7 @@ def main():
     df = pd.read_excel(args.audio_file)
-    for i, row in df.iterrows():
         name = row["name"]
         scene_id = row["scene_id"]
         audio_id = row["audio_id"]

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import argparse
 from urllib.parse import urlparse
 import json
 from pathlib import Path
 from gradio_client import Client, handle_file
 import pandas as pd
+from tqdm import tqdm
 from project_settings import project_path, environment
     df = pd.read_excel(args.audio_file)
+    for i, row in tqdm(df.iterrows(), total=len(df)):
         name = row["name"]
         scene_id = row["scene_id"]
         audio_id = row["audio_id"]

main.py CHANGED Viewed

@@ -1,7 +1,7 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 """
-docker build -t audio_edit:v20250314_1357 .
 docker stop audio_edit_7861 && docker rm audio_edit_7861
@@ -10,7 +10,7 @@ docker run -itd \
 --restart=always \
 --network host \
 -e port=7861 \
-audio_edit:v20250314_1357
 """
 import argparse
 import asyncio
@@ -23,6 +23,9 @@ from typing import Tuple, List
 import uuid
 import gradio as gr
 import numpy as np
 from scipy.io import wavfile
@@ -72,6 +75,46 @@ def save_input_audio(sample_rate: int, signal: np.ndarray) -> str:
     return filename
 def when_click_get_audio_info(audio_t, engine: str):
     sample_rate, signal = audio_t
     filename = save_input_audio(sample_rate, signal)
@@ -81,11 +124,18 @@ def when_click_get_audio_info(audio_t, engine: str):
     try:
         info: dict = get_audio_info(filename, engine)
         result = json.dumps(info, ensure_ascii=False, indent=4)
     except Exception as e:
         result = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
-    return result, message
 def when_click_audio_convert(audio_t,
@@ -485,6 +535,8 @@ def main():
                     with gr.Column(variant="panel", scale=5):
                         info_output = gr.Text(label="output")
                         info_log = gr.Text(label="log")
                 gr.Examples(
                     examples=[
@@ -492,13 +544,13 @@ def main():
                         for filename in examples_dir.glob("**/*.wav")
                     ],
                     inputs=[info_audio, info_engine],
-                    outputs=[info_output, info_log],
                     fn=when_click_get_audio_info,
                 )
                 info_button.click(
                     when_click_get_audio_info,
                     inputs=[info_audio, info_engine],
-                    outputs=[info_output, info_log]
                 )
             with gr.TabItem("convert"):
                 with gr.Row():

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 """
+docker build -t audio_edit:v20250521_0954 .
 docker stop audio_edit_7861 && docker rm audio_edit_7861
 --restart=always \
 --network host \
 -e port=7861 \
+audio_edit:v20250521_0954
 """
 import argparse
 import asyncio
 import uuid
 import gradio as gr
+import librosa
+import librosa.display
+import matplotlib.pyplot as plt
 import numpy as np
 from scipy.io import wavfile
     return filename
+def generate_spectrogram1(signal: np.ndarray, sample_rate: int = 8000, title: str = "Spectrogram"):
+    mag = np.abs(librosa.stft(signal))
+    # mag shape: [f, t]
+    # mag_db = librosa.amplitude_to_db(mag, ref=np.max)
+    mag_db = librosa.amplitude_to_db(mag, ref=20)
+    plt.figure(figsize=(10, 4))
+    librosa.display.specshow(mag_db, sr=sample_rate)
+    plt.title(title)
+    temp_file = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
+    plt.savefig(temp_file.name, bbox_inches="tight")
+    plt.close()
+    return temp_file.name
+def generate_spectrogram2(signal: np.ndarray, sample_rate: int = 8000, title: str = "Spectrogram"):
+    mag = np.abs(librosa.stft(signal))
+    # mag shape: [f, t]
+    spectrum = mag
+    # spectrum shape: [t, f]
+    spectrum = np.log(spectrum)
+    xmax = 15
+    xmin = -40
+    gray = 255 * (spectrum - xmin) / (xmax - xmin)
+    gray = np.array(gray, dtype=np.uint8)
+    plt.figure(figsize=(10, 4))
+    librosa.display.specshow(gray, sr=sample_rate)
+    plt.title(title)
+    temp_file = tempfile.NamedTemporaryFile(suffix=".png", delete=False)
+    plt.savefig(temp_file.name, bbox_inches="tight")
+    plt.close()
+    return temp_file.name
 def when_click_get_audio_info(audio_t, engine: str):
     sample_rate, signal = audio_t
     filename = save_input_audio(sample_rate, signal)
     try:
         info: dict = get_audio_info(filename, engine)
         result = json.dumps(info, ensure_ascii=False, indent=4)
+        signal_ = np.array(signal / (1 << 15), dtype=np.float32)
+        spec_image1 = generate_spectrogram1(signal_, title="spec")
+        spec_image2 = generate_spectrogram2(signal_, title="spec")
     except Exception as e:
         result = None
         message = f"failed. error type: {type(e)}, error text: {str(e)}"
+        spec_image1 = None
+        spec_image2 = None
+    return result, message, spec_image1, spec_image2
 def when_click_audio_convert(audio_t,
                     with gr.Column(variant="panel", scale=5):
                         info_output = gr.Text(label="output")
                         info_log = gr.Text(label="log")
+                        info_spec_image1 = gr.Image(label="spec_image1")
+                        info_spec_image2 = gr.Image(label="spec_image2")
                 gr.Examples(
                     examples=[
                         for filename in examples_dir.glob("**/*.wav")
                     ],
                     inputs=[info_audio, info_engine],
+                    outputs=[info_output, info_log, info_spec_image1, info_spec_image2],
                     fn=when_click_get_audio_info,
                 )
                 info_button.click(
                     when_click_get_audio_info,
                     inputs=[info_audio, info_engine],
+                    outputs=[info_output, info_log, info_spec_image1, info_spec_image2]
                 )
             with gr.TabItem("convert"):
                 with gr.Row():

toolbox/audio_edit/info.py CHANGED Viewed

@@ -117,5 +117,5 @@ def main():
     return
-if __name__ == '__main__':
     main()

     return
+if __name__ == "__main__":
     main()