Spaces:

qgyd2021
/

nx_denoise

Running

HoneyTian commited on Jan 24

Commit

9e01c3d

1 Parent(s): bd94e77

update

Files changed (4) hide show

examples/spectrum_unet_irm_aishell/run.sh CHANGED Viewed

@@ -8,7 +8,7 @@ sh run.sh --stage 2 --stop_stage 2 --system_version windows --file_folder_name f
 --speech_dir "E:/programmer/asr_datasets/aishell/data_aishell/wav/train"
-sh run.sh --stage 3 --stop_stage 3 --system_version centos --file_folder_name file_dir \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise" \
 --speech_dir "/data/tianxing/HuggingDatasets/aishell/data_aishell/wav/train"

 --speech_dir "E:/programmer/asr_datasets/aishell/data_aishell/wav/train"
+sh run.sh --stage 1 --stop_stage 3 --system_version centos --file_folder_name file_dir \
 --noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise" \
 --speech_dir "/data/tianxing/HuggingDatasets/aishell/data_aishell/wav/train"

examples/spectrum_unet_irm_aishell/step_1_prepare_data.py CHANGED Viewed

@@ -37,8 +37,8 @@ def get_args():
     parser.add_argument("--valid_dataset", default="valid.xlsx", type=str)
     parser.add_argument("--duration", default=2.0, type=float)
-    parser.add_argument("--min_nsr_db", default=-20, type=float)
-    parser.add_argument("--max_nsr_db", default=5, type=float)
     parser.add_argument("--target_sample_rate", default=8000, type=int)
@@ -124,7 +124,7 @@ def get_dataset(args):
             "speech_offset": speech_offset,
             "speech_duration": speech_duration,
-            "snr_db": random.uniform(args.min_nsr_db, args.max_nsr_db),
             "random1": random1,
             "random2": random2,

     parser.add_argument("--valid_dataset", default="valid.xlsx", type=str)
     parser.add_argument("--duration", default=2.0, type=float)
+    parser.add_argument("--min_snr_db", default=-10, type=float)
+    parser.add_argument("--max_snr_db", default=20, type=float)
     parser.add_argument("--target_sample_rate", default=8000, type=int)
             "speech_offset": speech_offset,
             "speech_duration": speech_duration,
+            "snr_db": random.uniform(args.min_snr_db, args.max_snr_db),
             "random1": random1,
             "random2": random2,

examples/spectrum_unet_irm_aishell/yaml/config.yaml CHANGED Viewed

@@ -26,8 +26,8 @@ encoder_emb_skip_op: "none"
 encoder_emb_linear_groups: 16
 encoder_emb_hidden_size: 256
-lsnr_max: 20
-lsnr_min: -10
 decoder_emb_num_layers: 3
 decoder_emb_skip_op: "none"

 encoder_emb_linear_groups: 16
 encoder_emb_hidden_size: 256
+lsnr_max: 30
+lsnr_min: -15
 decoder_emb_num_layers: 3
 decoder_emb_skip_op: "none"

toolbox/torchaudio/models/spectrum_unet_irm/configuration_specturm_unet_irm.py CHANGED Viewed

@@ -25,8 +25,8 @@ class SpectrumUnetIRMConfig(PretrainedConfig):
                  encoder_emb_linear_groups: int = 16,
                  encoder_emb_hidden_size: int = 256,
-                 lsnr_max: int = 20,
-                 lsnr_min: int = -10,
                  decoder_emb_num_layers: int = 3,
                  decoder_emb_skip_op: str = "none",

                  encoder_emb_linear_groups: int = 16,
                  encoder_emb_hidden_size: int = 256,
+                 lsnr_max: int = 30,
+                 lsnr_min: int = -15,
                  decoder_emb_num_layers: int = 3,
                  decoder_emb_skip_op: str = "none",