Spaces:

qgyd2021
/

nx_denoise

Running

App Files Files Community

HoneyTian commited on 5 days ago

Commit

b4e8cd2

1 Parent(s): 7335f6f

update

Browse files

Files changed (6) hide show

examples/data_preprocess/nx_speech_denoise/nx_speech_denoise.py +83 -0
examples/frcrn/run.sh +2 -2
examples/frcrn/step_1_prepare_data.py +4 -5
requirements-python-3-9-9.txt +2 -1
requirements.txt +2 -1
toolbox/torchaudio/models/frcrn/modeling_frcrn.py +20 -20

examples/data_preprocess/nx_speech_denoise/nx_speech_denoise.py ADDED Viewed

	@@ -0,0 +1,83 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import os
+from pathlib import Path
+import sys
+from gradio_client import Client, handle_file
+import numpy as np
+from tqdm import tqdm
+import shutil
+pwd = os.path.abspath(os.path.dirname(__file__))
+sys.path.append(os.path.join(pwd, "../../"))
+import librosa
+from scipy.io import wavfile
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--src_dir",
+        default=r"E:\Users\tianx\HuggingDatasets\nx_noise\data\speech\en-PH",
+        # default=r"/data/tianxing/HuggingDatasets/nx_noise/data/speech/en-PH",
+        type=str
+    )
+    parser.add_argument(
+        "--tgt_dir",
+        default=r"E:\Users\tianx\HuggingDatasets\nx_noise\data\speech-denoise\en-PH",
+        # default=r"/data/tianxing/HuggingDatasets/nx_noise/data/speech-denoise/en-PH",
+        type=str
+    )
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    # client = Client(src="http://10.75.27.247:7865/")
+    client = Client(src="http://127.0.0.1:7865/")
+    src_dir = Path(args.src_dir)
+    tgt_dir = Path(args.tgt_dir)
+    tgt_dir.mkdir(parents=True, exist_ok=True)
+    tgt_date_list = list(sorted([date.name for date in src_dir.glob("*") if not date.name.endswith(".zip")]))
+    finished_date_set = set(tgt_date_list[:-1])
+    current_date = tgt_date_list[-1]
+    print(f"finished_date_set: {finished_date_set}")
+    print(f"current_date: {current_date}")
+    finished_set = set()
+    for filename in (tgt_dir / current_date).glob("*.wav"):
+        name = filename.name
+        finished_set.add(name)
+    src_date_list = list(sorted([date.name for date in src_dir.glob("*")]))
+    for date in src_date_list:
+        if date in finished_date_set:
+            continue
+        for filename in (src_dir / current_date).glob("**/*.wav"):
+            result = client.predict(
+                noisy_audio_file_t=handle_file(filename.as_posix()),
+                noisy_audio_microphone_t=None,
+                engine="frcrn-dns3",
+                api_name="/when_click_denoise_button"
+            )
+            denoise_file = result[0]
+            tgt_file = tgt_dir / current_date / f"{filename.name}"
+            tgt_file.parent.mkdir(parents=True, exist_ok=True)
+            shutil.move(denoise_file, tgt_file)
+            print(denoise_file)
+            exit(0)
+    return
+if __name__ == "__main__":
+    main()

examples/frcrn/run.sh CHANGED Viewed

@@ -3,10 +3,10 @@
 : <<'END'
-sh run.sh --stage 2 --stop_stage 2 --system_version centos --file_folder_name file_dir --final_model_name frcrn-20-512-nx-dns3 \
 --config_file "yaml/config-10.yaml" \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise" \
---speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech"
 END

 : <<'END'
+sh run.sh --stage 1 --stop_stage 2 --system_version centos --file_folder_name file_dir --final_model_name frcrn-20-512-nx-dns3 \
 --config_file "yaml/config-10.yaml" \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise" \
+--speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech"
 END

examples/frcrn/step_1_prepare_data.py CHANGED Viewed

@@ -33,13 +33,13 @@ def get_args():
     parser.add_argument("--train_dataset", default="train.jsonl", type=str)
     parser.add_argument("--valid_dataset", default="valid.jsonl", type=str)
-    parser.add_argument("--duration", default=4.0, type=float)
     parser.add_argument("--min_snr_db", default=-10, type=float)
     parser.add_argument("--max_snr_db", default=20, type=float)
     parser.add_argument("--target_sample_rate", default=8000, type=int)
-    parser.add_argument("--scale", default=1, type=float)
     args = parser.parse_args()
     return args
@@ -107,9 +107,8 @@ def main():
     process_bar = tqdm(desc="build dataset jsonl")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
         for noise, speech in zip(noise_generator, speech_generator):
-            flag = random.random()
-            if flag > args.scale:
-                continue
             noise_filename = noise["filename"]
             noise_raw_duration = noise["raw_duration"]

     parser.add_argument("--train_dataset", default="train.jsonl", type=str)
     parser.add_argument("--valid_dataset", default="valid.jsonl", type=str)
+    parser.add_argument("--duration", default=2.0, type=float)
     parser.add_argument("--min_snr_db", default=-10, type=float)
     parser.add_argument("--max_snr_db", default=20, type=float)
     parser.add_argument("--target_sample_rate", default=8000, type=int)
+    parser.add_argument("--max_count", default=-1, type=int)
     args = parser.parse_args()
     return args
     process_bar = tqdm(desc="build dataset jsonl")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
         for noise, speech in zip(noise_generator, speech_generator):
+            if count >= args.max_count > 0:
+                break
             noise_filename = noise["filename"]
             noise_raw_duration = noise["raw_duration"]

requirements-python-3-9-9.txt CHANGED Viewed

@@ -1,4 +1,5 @@
-gradio==4.44.1
 datasets==3.2.0
 python-dotenv==1.0.1
 scipy==1.13.1

+gradio
+gradio_client
 datasets==3.2.0
 python-dotenv==1.0.1
 scipy==1.13.1

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
-gradio
 datasets==3.2.0
 python-dotenv==1.0.1
 scipy==1.15.1

+gradio==5.33.0
+gradio_client==1.10.2
 datasets==3.2.0
 python-dotenv==1.0.1
 scipy==1.15.1

toolbox/torchaudio/models/frcrn/modeling_frcrn.py CHANGED Viewed

@@ -298,16 +298,16 @@ class FRCRNPretrainedModel(FRCRN):
 def main():
-    # model = FRCRN(
-    #     use_complex_networks=True,
-    #     model_complexity=-1,
-    #     model_depth=10,
-    #     padding_mode="zeros",
-    #     nfft=128,
-    #     win_size=128,
-    #     hop_size=64,
-    #     win_type="hann",
-    # )
     # model = FRCRN(
     #     use_complex_networks=True,
@@ -320,16 +320,16 @@ def main():
     #     win_type="hann",
     # )
-    model = FRCRN(
-        use_complex_networks=True,
-        model_complexity=20,
-        model_depth=20,
-        padding_mode="zeros",
-        nfft=512,
-        win_size=512,
-        hop_size=256,
-        win_type="hann",
-    )
     mixture = torch.rand(size=(1, 32000), dtype=torch.float32)

 def main():
+    model = FRCRN(
+        use_complex_networks=True,
+        model_complexity=-1,
+        model_depth=10,
+        padding_mode="zeros",
+        nfft=128,
+        win_size=128,
+        hop_size=64,
+        win_type="hann",
+    )
     # model = FRCRN(
     #     use_complex_networks=True,
     #     win_type="hann",
     # )
+    # model = FRCRN(
+    #     use_complex_networks=True,
+    #     model_complexity=45,
+    #     model_depth=20,
+    #     padding_mode="zeros",
+    #     nfft=512,
+    #     win_size=512,
+    #     hop_size=256,
+    #     win_type="hann",
+    # )
     mixture = torch.rand(size=(1, 32000), dtype=torch.float32)