Spaces:

qgyd2021
/

cc_denoise

Sleeping

App Files Files Community

HoneyTian commited on Jul 11

Commit

d32c7e7

1 Parent(s): 7b61e4d

update

Browse files

Files changed (4) hide show

.gitignore +1 -0
examples/dfnet2/run.sh +10 -16
examples/dfnet2/step_1_prepare_data.py +46 -38
examples/dfnet2/yaml/config.yaml +3 -3

.gitignore CHANGED Viewed

@@ -21,5 +21,6 @@
 **/*.wav
 **/*.xlsx
 requirements-python-3-9-9.txt

 **/*.wav
 **/*.xlsx
+**/*.jsonl
 requirements-python-3-9-9.txt

examples/dfnet2/run.sh CHANGED Viewed

@@ -3,20 +3,15 @@
 : <<'END'
 sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name file_dir --final_model_name dfnet-nx-speech \
---noise_dir "E:/Users/tianx/HuggingDatasets/nx_noise/data/noise" \
---speech_dir "E:/Users/tianx/HuggingDatasets/nx_noise/data/speech"
-sh run.sh --stage 2 --stop_stage 2 --system_version centos --file_folder_name file_dir --final_model_name dfnet2-nx-dns3 \
---noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise" \
---speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech"
-sh run.sh --stage 2 --stop_stage 2 --system_version centos --file_folder_name file_dir --final_model_name dfnet2-nx2 \
---noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/nx-noise" \
---speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2"
 sh run.sh --stage 2 --stop_stage 2 --system_version centos --file_folder_name dfnet2-nx2-dns3 --final_model_name dfnet2-nx2-dns3 \
---noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/" \
---speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/"
 END
@@ -34,8 +29,8 @@ final_model_name=final_model_name
 config_file="yaml/config.yaml"
 limit=10
-noise_dir=/data/tianxing/HuggingDatasets/nx_noise/data/noise
-speech_dir=/data/tianxing/HuggingDatasets/aishell/data_aishell/wav/train
 max_count=-1
@@ -99,9 +94,8 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
   $verbose && echo "stage 1: prepare data"
   cd "${work_dir}" || exit 1
   python3 step_1_prepare_data.py \
-  --file_dir "${file_dir}" \
-  --noise_dir "${noise_dir}" \
-  --speech_dir "${speech_dir}" \
   --train_dataset "${train_dataset}" \
   --valid_dataset "${valid_dataset}" \
   --max_count "${max_count}" \

 : <<'END'
 sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name file_dir --final_model_name dfnet-nx-speech \
+--noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
+--speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
+/data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav"
 sh run.sh --stage 2 --stop_stage 2 --system_version centos --file_folder_name dfnet2-nx2-dns3 --final_model_name dfnet2-nx2-dns3 \
+--noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
+--speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
+/data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav"
 END
 config_file="yaml/config.yaml"
 limit=10
+noise_patterns=/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav
+speech_patterns=/data/tianxing/HuggingDatasets/nx_noise/data/speech/**/*.wav
 max_count=-1
   $verbose && echo "stage 1: prepare data"
   cd "${work_dir}" || exit 1
   python3 step_1_prepare_data.py \
+  --noise_patterns "${noise_patterns}" \
+  --speech_patterns "${speech_patterns}" \
   --train_dataset "${train_dataset}" \
   --valid_dataset "${valid_dataset}" \
   --max_count "${max_count}" \

examples/dfnet2/step_1_prepare_data.py CHANGED Viewed

@@ -1,11 +1,13 @@
 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import argparse
 import json
 import os
 from pathlib import Path
 import random
 import sys
 pwd = os.path.abspath(os.path.dirname(__file__))
 sys.path.append(os.path.join(pwd, "../../"))
@@ -17,16 +19,14 @@ from tqdm import tqdm
 def get_args():
     parser = argparse.ArgumentParser()
-    parser.add_argument("--file_dir", default="./", type=str)
     parser.add_argument(
-        "--noise_dir",
-        default=r"E:\Users\tianx\HuggingDatasets\nx_noise\data\noise",
         type=str
     )
     parser.add_argument(
-        "--speech_dir",
-        default=r"E:\programmer\asr_datasets\aishell\data_aishell\wav\train",
         type=str
     )
@@ -51,58 +51,66 @@ def filename_generator(data_dir: str):
         yield filename.as_posix()
-def target_second_signal_generator(data_dir: str, duration: int = 2, sample_rate: int = 8000, max_epoch: int = 20000):
-    data_dir = Path(data_dir)
     for epoch_idx in range(max_epoch):
-        for filename in data_dir.glob("**/*.wav"):
-            signal, _ = librosa.load(filename.as_posix(), sr=sample_rate)
-            raw_duration = librosa.get_duration(y=signal, sr=sample_rate)
-            if raw_duration < duration:
-                # print(f"duration less than {duration} s. skip filename: {filename.as_posix()}")
-                continue
-            if signal.ndim != 1:
-                raise AssertionError(f"expected ndim 1, instead of {signal.ndim}")
-            signal_length = len(signal)
-            win_size = int(duration * sample_rate)
-            for begin in range(0, signal_length - win_size, win_size):
-                if np.sum(signal[begin: begin+win_size]) == 0:
                     continue
-                row = {
-                    "epoch_idx": epoch_idx,
-                    "filename": filename.as_posix(),
-                    "raw_duration": round(raw_duration, 4),
-                    "offset": round(begin / sample_rate, 4),
-                    "duration": round(duration, 4),
-                }
-                yield row
 def main():
     args = get_args()
-    file_dir = Path(args.file_dir)
-    file_dir.mkdir(exist_ok=True)
-    noise_dir = Path(args.noise_dir)
-    speech_dir = Path(args.speech_dir)
     noise_generator = target_second_signal_generator(
-        noise_dir.as_posix(),
         duration=args.duration,
         sample_rate=args.target_sample_rate,
         max_epoch=100000,
     )
     speech_generator = target_second_signal_generator(
-        speech_dir.as_posix(),
         duration=args.duration,
         sample_rate=args.target_sample_rate,
         max_epoch=1,
     )
-    dataset = list()
     count = 0
     process_bar = tqdm(desc="build dataset jsonl")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:

 #!/usr/bin/python3
 # -*- coding: utf-8 -*-
 import argparse
+from glob import glob
 import json
 import os
 from pathlib import Path
 import random
 import sys
+from typing import List
 pwd = os.path.abspath(os.path.dirname(__file__))
 sys.path.append(os.path.join(pwd, "../../"))
 def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
+        "--noise_patterns",
+        default=r"D:\Users\tianx\HuggingDatasets\nx_noise\data\noise\**\*.wav",
         type=str
     )
     parser.add_argument(
+        "--speech_patterns",
+        default=r"D:\Users\tianx\HuggingDatasets\nx_noise\data\speech\**\*.wav",
         type=str
     )
         yield filename.as_posix()
+def target_second_signal_generator(filename_patterns: List[str],
+                                   duration: int = 2,
+                                   sample_rate: int = 8000,
+                                   max_epoch: int = 20000
+                                   ):
     for epoch_idx in range(max_epoch):
+        for filename_pattern in filename_patterns:
+            for filename in glob(filename_pattern, recursive=True):
+                signal, _ = librosa.load(filename, sr=sample_rate)
+                raw_duration = librosa.get_duration(y=signal, sr=sample_rate)
+                if raw_duration < duration:
+                    # print(f"duration less than {duration} s. skip filename: {filename.as_posix()}")
                     continue
+                if signal.ndim != 1:
+                    raise AssertionError(f"expected ndim 1, instead of {signal.ndim}")
+                signal_length = len(signal)
+                win_size = int(duration * sample_rate)
+                for begin in range(0, signal_length - win_size, win_size):
+                    if np.sum(signal[begin: begin+win_size]) == 0:
+                        continue
+                    row = {
+                        "epoch_idx": epoch_idx,
+                        "filename": filename,
+                        "raw_duration": round(raw_duration, 4),
+                        "offset": round(begin / sample_rate, 4),
+                        "duration": round(duration, 4),
+                    }
+                    yield row
 def main():
     args = get_args()
+    noise_patterns = args.noise_patterns
+    noise_patterns = noise_patterns.split(" ")
+    print(f"noise_patterns: {noise_patterns}")
+    speech_patterns = args.speech_patterns
+    speech_patterns = speech_patterns.split(" ")
+    print(f"speech_patterns: {speech_patterns}")
+    train_dataset = Path(args.train_dataset)
+    valid_dataset = Path(args.valid_dataset)
+    train_dataset.parent.mkdir(parents=True, exist_ok=True)
+    valid_dataset.parent.mkdir(parents=True, exist_ok=True)
     noise_generator = target_second_signal_generator(
+        noise_patterns,
         duration=args.duration,
         sample_rate=args.target_sample_rate,
         max_epoch=100000,
     )
     speech_generator = target_second_signal_generator(
+        speech_patterns,
         duration=args.duration,
         sample_rate=args.target_sample_rate,
         max_epoch=1,
     )
     count = 0
     process_bar = tqdm(desc="build dataset jsonl")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:

examples/dfnet2/yaml/config.yaml CHANGED Viewed

@@ -48,12 +48,12 @@ df_lookahead: 2
 # lsnr
 n_frame: 3
-lsnr_max: 30
-lsnr_min: -15
 norm_tau: 1.
 # data
-min_snr_db: -15
 max_snr_db: 20
 # train

 # lsnr
 n_frame: 3
+max_local_snr: 30
+min_local_snr: -15
 norm_tau: 1.
 # data
+min_snr_db: -10
 max_snr_db: 20
 # train