Spaces:

qgyd2021
/

cc_denoise

Running

App Files Files Community

HoneyTian commited on Apr 25

Commit

da78a0e

1 Parent(s): 1d4c9c3

update

Browse files

Files changed (9) hide show

examples/conv_tasnet/step_1_prepare_data.py +3 -1
examples/dfnet/run.sh +153 -0
examples/dfnet/step_1_prepare_data.py +164 -0
examples/dfnet/step_2_train_model.py +440 -0
examples/dfnet/yaml/config.yaml +53 -0
examples/frcrn/step_1_prepare_data.py +6 -3
examples/mpnet/step_1_prepare_data.py +2 -0
toolbox/torch/utils/data/dataset/denoise_jsonl_dataset.py +2 -0
toolbox/torchaudio/models/dfnet/modeling_dfnet.py +103 -38

examples/conv_tasnet/step_1_prepare_data.py CHANGED Viewed

@@ -107,7 +107,7 @@ def main():
     process_bar = tqdm(desc="build dataset excel")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
         for noise, speech in zip(noise_generator, speech_generator):
-            if count >= args.max_count:
                 break
             noise_filename = noise["filename"]
@@ -124,6 +124,8 @@ def main():
             random2 = random.random()
             row = {
                 "noise_filename": noise_filename,
                 "noise_raw_duration": noise_raw_duration,
                 "noise_offset": noise_offset,

     process_bar = tqdm(desc="build dataset excel")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
         for noise, speech in zip(noise_generator, speech_generator):
+            if count >= args.max_count > 0:
                 break
             noise_filename = noise["filename"]
             random2 = random.random()
             row = {
+                "count": count,
                 "noise_filename": noise_filename,
                 "noise_raw_duration": noise_raw_duration,
                 "noise_offset": noise_offset,

examples/dfnet/run.sh ADDED Viewed

	@@ -0,0 +1,153 @@

+#!/usr/bin/env bash
+: <<'END'
+sh run.sh --stage 2 --stop_stage 2 --system_version centos --file_folder_name file_dir --final_model_name frcrn \
+--noise_dir "/data/tianxing/HuggingDatasets/nx_noise/data/noise/dns3-noise" \
+--speech_dir "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech"
+END
+# params
+system_version="windows";
+verbose=true;
+stage=0 # start from 0 if you need to start from data preparation
+stop_stage=9
+work_dir="$(pwd)"
+file_folder_name=file_folder_name
+final_model_name=final_model_name
+config_file="yaml/config.yaml"
+limit=10
+noise_dir=/data/tianxing/HuggingDatasets/nx_noise/data/noise
+speech_dir=/data/tianxing/HuggingDatasets/aishell/data_aishell/wav/train
+max_count=10000000
+nohup_name=nohup.out
+# model params
+batch_size=64
+max_epochs=200
+save_top_k=10
+patience=5
+# parse options
+while true; do
+  [ -z "${1:-}" ] && break;  # break if there are no arguments
+  case "$1" in
+    --*) name=$(echo "$1" | sed s/^--// | sed s/-/_/g);
+      eval '[ -z "${'"$name"'+xxx}" ]' && echo "$0: invalid option $1" 1>&2 && exit 1;
+      old_value="(eval echo \\$$name)";
+      if [ "${old_value}" == "true" ] || [ "${old_value}" == "false" ]; then
+        was_bool=true;
+      else
+        was_bool=false;
+      fi
+      # Set the variable to the right value-- the escaped quotes make it work if
+      # the option had spaces, like --cmd "queue.pl -sync y"
+      eval "${name}=\"$2\"";
+      # Check that Boolean-valued arguments are really Boolean.
+      if $was_bool && [[ "$2" != "true" && "$2" != "false" ]]; then
+        echo "$0: expected \"true\" or \"false\": $1 $2" 1>&2
+        exit 1;
+      fi
+      shift 2;
+      ;;
+    *) break;
+  esac
+done
+file_dir="${work_dir}/${file_folder_name}"
+final_model_dir="${work_dir}/../../trained_models/${final_model_name}";
+evaluation_audio_dir="${file_dir}/evaluation_audio"
+train_dataset="${file_dir}/train.jsonl"
+valid_dataset="${file_dir}/valid.jsonl"
+$verbose && echo "system_version: ${system_version}"
+$verbose && echo "file_folder_name: ${file_folder_name}"
+if [ $system_version == "windows" ]; then
+  alias python3='D:/Users/tianx/PycharmProjects/virtualenv/nx_denoise/Scripts/python.exe'
+elif [ $system_version == "centos" ] || [ $system_version == "ubuntu" ]; then
+  #source /data/local/bin/nx_denoise/bin/activate
+  alias python3='/data/local/bin/nx_denoise/bin/python3'
+fi
+if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
+  $verbose && echo "stage 1: prepare data"
+  cd "${work_dir}" || exit 1
+  python3 step_1_prepare_data.py \
+  --file_dir "${file_dir}" \
+  --noise_dir "${noise_dir}" \
+  --speech_dir "${speech_dir}" \
+  --train_dataset "${train_dataset}" \
+  --valid_dataset "${valid_dataset}" \
+  --max_count "${max_count}" \
+fi
+if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
+  $verbose && echo "stage 2: train model"
+  cd "${work_dir}" || exit 1
+  python3 step_2_train_model.py \
+  --train_dataset "${train_dataset}" \
+  --valid_dataset "${valid_dataset}" \
+  --serialization_dir "${file_dir}" \
+  --config_file "${config_file}" \
+fi
+if [ ${stage} -le 3 ] && [ ${stop_stage} -ge 3 ]; then
+  $verbose && echo "stage 3: test model"
+  cd "${work_dir}" || exit 1
+  python3 step_3_evaluation.py \
+  --valid_dataset "${valid_dataset}" \
+  --model_dir "${file_dir}/best" \
+  --evaluation_audio_dir "${evaluation_audio_dir}" \
+  --limit "${limit}" \
+fi
+if [ ${stage} -le 4 ] && [ ${stop_stage} -ge 4 ]; then
+  $verbose && echo "stage 4: collect files"
+  cd "${work_dir}" || exit 1
+  mkdir -p ${final_model_dir}
+  cp "${file_dir}/best"/* "${final_model_dir}"
+  cp -r "${file_dir}/evaluation_audio" "${final_model_dir}"
+  cd "${final_model_dir}/.." || exit 1;
+  if [ -e "${final_model_name}.zip" ]; then
+    rm -rf "${final_model_name}_backup.zip"
+    mv "${final_model_name}.zip" "${final_model_name}_backup.zip"
+  fi
+  zip -r "${final_model_name}.zip" "${final_model_name}"
+  rm -rf "${final_model_name}"
+fi
+if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then
+  $verbose && echo "stage 5: clear file_dir"
+  cd "${work_dir}" || exit 1
+  rm -rf "${file_dir}";
+fi

examples/dfnet/step_1_prepare_data.py ADDED Viewed

	@@ -0,0 +1,164 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import json
+import os
+from pathlib import Path
+import random
+import sys
+pwd = os.path.abspath(os.path.dirname(__file__))
+sys.path.append(os.path.join(pwd, "../../"))
+import librosa
+import numpy as np
+from tqdm import tqdm
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--file_dir", default="./", type=str)
+    parser.add_argument(
+        "--noise_dir",
+        default=r"E:\Users\tianx\HuggingDatasets\nx_noise\data\noise",
+        type=str
+    )
+    parser.add_argument(
+        "--speech_dir",
+        default=r"E:\programmer\asr_datasets\aishell\data_aishell\wav\train",
+        type=str
+    )
+    parser.add_argument("--train_dataset", default="train.jsonl", type=str)
+    parser.add_argument("--valid_dataset", default="valid.jsonl", type=str)
+    parser.add_argument("--duration", default=4.0, type=float)
+    parser.add_argument("--min_snr_db", default=-10, type=float)
+    parser.add_argument("--max_snr_db", default=20, type=float)
+    parser.add_argument("--target_sample_rate", default=8000, type=int)
+    parser.add_argument("--max_count", default=10000, type=int)
+    args = parser.parse_args()
+    return args
+def filename_generator(data_dir: str):
+    data_dir = Path(data_dir)
+    for filename in data_dir.glob("**/*.wav"):
+        yield filename.as_posix()
+def target_second_signal_generator(data_dir: str, duration: int = 2, sample_rate: int = 8000, max_epoch: int = 20000):
+    data_dir = Path(data_dir)
+    for epoch_idx in range(max_epoch):
+        for filename in data_dir.glob("**/*.wav"):
+            signal, _ = librosa.load(filename.as_posix(), sr=sample_rate)
+            raw_duration = librosa.get_duration(y=signal, sr=sample_rate)
+            if raw_duration < duration:
+                # print(f"duration less than {duration} s. skip filename: {filename.as_posix()}")
+                continue
+            if signal.ndim != 1:
+                raise AssertionError(f"expected ndim 1, instead of {signal.ndim}")
+            signal_length = len(signal)
+            win_size = int(duration * sample_rate)
+            for begin in range(0, signal_length - win_size, win_size):
+                if np.sum(signal[begin: begin+win_size]) == 0:
+                    continue
+                row = {
+                    "epoch_idx": epoch_idx,
+                    "filename": filename.as_posix(),
+                    "raw_duration": round(raw_duration, 4),
+                    "offset": round(begin / sample_rate, 4),
+                    "duration": round(duration, 4),
+                }
+                yield row
+def main():
+    args = get_args()
+    file_dir = Path(args.file_dir)
+    file_dir.mkdir(exist_ok=True)
+    noise_dir = Path(args.noise_dir)
+    speech_dir = Path(args.speech_dir)
+    noise_generator = target_second_signal_generator(
+        noise_dir.as_posix(),
+        duration=args.duration,
+        sample_rate=args.target_sample_rate,
+        max_epoch=100000,
+    )
+    speech_generator = target_second_signal_generator(
+        speech_dir.as_posix(),
+        duration=args.duration,
+        sample_rate=args.target_sample_rate,
+        max_epoch=1,
+    )
+    dataset = list()
+    count = 0
+    process_bar = tqdm(desc="build dataset excel")
+    with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
+        for noise, speech in zip(noise_generator, speech_generator):
+            if count >= args.max_count > 0:
+                break
+            noise_filename = noise["filename"]
+            noise_raw_duration = noise["raw_duration"]
+            noise_offset = noise["offset"]
+            noise_duration = noise["duration"]
+            speech_filename = speech["filename"]
+            speech_raw_duration = speech["raw_duration"]
+            speech_offset = speech["offset"]
+            speech_duration = speech["duration"]
+            random1 = random.random()
+            random2 = random.random()
+            row = {
+                "count": count,
+                "noise_filename": noise_filename,
+                "noise_raw_duration": noise_raw_duration,
+                "noise_offset": noise_offset,
+                "noise_duration": noise_duration,
+                "speech_filename": speech_filename,
+                "speech_raw_duration": speech_raw_duration,
+                "speech_offset": speech_offset,
+                "speech_duration": speech_duration,
+                "snr_db": random.uniform(args.min_snr_db, args.max_snr_db),
+                "random1": random1,
+            }
+            row = json.dumps(row, ensure_ascii=False)
+            if random2 < (1 / 300 / 1):
+                fvalid.write(f"{row}\n")
+            else:
+                ftrain.write(f"{row}\n")
+            count += 1
+            duration_seconds = count * args.duration
+            duration_hours = duration_seconds / 3600
+            process_bar.update(n=1)
+            process_bar.set_postfix({
+                # "duration_seconds": round(duration_seconds, 4),
+                "duration_hours": round(duration_hours, 4),
+            })
+    return
+if __name__ == "__main__":
+    main()

examples/dfnet/step_2_train_model.py ADDED Viewed

	@@ -0,0 +1,440 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import json
+import logging
+from logging.handlers import TimedRotatingFileHandler
+import os
+import platform
+from pathlib import Path
+import random
+import sys
+import shutil
+from typing import List
+pwd = os.path.abspath(os.path.dirname(__file__))
+sys.path.append(os.path.join(pwd, "../../"))
+import numpy as np
+import torch
+import torch.nn as nn
+from torch.nn import functional as F
+from torch.utils.data.dataloader import DataLoader
+from tqdm import tqdm
+from toolbox.torch.utils.data.dataset.denoise_jsonl_dataset import DenoiseJsonlDataset
+from toolbox.torchaudio.losses.snr import NegativeSISNRLoss
+from toolbox.torchaudio.losses.spectral import LSDLoss, MultiResolutionSTFTLoss
+from toolbox.torchaudio.metrics.pesq import run_pesq_score
+from toolbox.torchaudio.models.dfnet.configuration_dfnet import DfNetConfig
+from toolbox.torchaudio.models.dfnet.modeling_dfnet import DfNet, DfNetPretrainedModel
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--train_dataset", default="train.xlsx", type=str)
+    parser.add_argument("--valid_dataset", default="valid.xlsx", type=str)
+    parser.add_argument("--num_serialized_models_to_keep", default=10, type=int)
+    parser.add_argument("--patience", default=5, type=int)
+    parser.add_argument("--serialization_dir", default="serialization_dir", type=str)
+    parser.add_argument("--config_file", default="config.yaml", type=str)
+    args = parser.parse_args()
+    return args
+def logging_config(file_dir: str):
+    fmt = "%(asctime)s - %(name)s - %(levelname)s  %(filename)s:%(lineno)d >  %(message)s"
+    logging.basicConfig(format=fmt,
+                        datefmt="%m/%d/%Y %H:%M:%S",
+                        level=logging.INFO)
+    file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(file_dir, "main.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    file_handler.setLevel(logging.INFO)
+    file_handler.setFormatter(logging.Formatter(fmt))
+    logger = logging.getLogger(__name__)
+    logger.addHandler(file_handler)
+    return logger
+class CollateFunction(object):
+    def __init__(self):
+        pass
+    def __call__(self, batch: List[dict]):
+        clean_audios = list()
+        noisy_audios = list()
+        snr_db_list = list()
+        for sample in batch:
+            # noise_wave: torch.Tensor = sample["noise_wave"]
+            clean_audio: torch.Tensor = sample["speech_wave"]
+            noisy_audio: torch.Tensor = sample["mix_wave"]
+            snr_db: float = sample["snr_db"]
+            clean_audios.append(clean_audio)
+            noisy_audios.append(noisy_audio)
+            snr_db_list.append(snr_db)
+        clean_audios = torch.stack(clean_audios)
+        noisy_audios = torch.stack(noisy_audios)
+        snr_db_list = torch.stack(snr_db_list)
+        # assert
+        if torch.any(torch.isnan(clean_audios)) or torch.any(torch.isinf(clean_audios)):
+            raise AssertionError("nan or inf in clean_audios")
+        if torch.any(torch.isnan(noisy_audios)) or torch.any(torch.isinf(noisy_audios)):
+            raise AssertionError("nan or inf in noisy_audios")
+        return clean_audios, noisy_audios, snr_db_list
+collate_fn = CollateFunction()
+def main():
+    args = get_args()
+    config = DfNetConfig.from_pretrained(
+        pretrained_model_name_or_path=args.config_file,
+    )
+    serialization_dir = Path(args.serialization_dir)
+    serialization_dir.mkdir(parents=True, exist_ok=True)
+    logger = logging_config(serialization_dir)
+    random.seed(config.seed)
+    np.random.seed(config.seed)
+    torch.manual_seed(config.seed)
+    logger.info(f"set seed: {config.seed}")
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    n_gpu = torch.cuda.device_count()
+    logger.info(f"GPU available count: {n_gpu}; device: {device}")
+    # datasets
+    train_dataset = DenoiseJsonlDataset(
+        jsonl_file=args.train_dataset,
+        expected_sample_rate=config.sample_rate,
+        max_wave_value=32768.0,
+        min_snr_db=config.min_snr_db,
+        max_snr_db=config.max_snr_db,
+        # skip=225000,
+    )
+    valid_dataset = DenoiseJsonlDataset(
+        jsonl_file=args.valid_dataset,
+        expected_sample_rate=config.sample_rate,
+        max_wave_value=32768.0,
+        min_snr_db=config.min_snr_db,
+        max_snr_db=config.max_snr_db,
+    )
+    train_data_loader = DataLoader(
+        dataset=train_dataset,
+        batch_size=config.batch_size,
+        # shuffle=True,
+        sampler=None,
+        # Linux 系统中可以使用多个子进程加载数据, 而在 Windows 系统中不能.
+        num_workers=0 if platform.system() == "Windows" else os.cpu_count() // 2,
+        collate_fn=collate_fn,
+        pin_memory=False,
+        prefetch_factor=2,
+    )
+    valid_data_loader = DataLoader(
+        dataset=valid_dataset,
+        batch_size=config.batch_size,
+        # shuffle=True,
+        sampler=None,
+        # Linux 系统中可以使用多个子进程加载数据, 而在 Windows 系统中不能.
+        num_workers=0 if platform.system() == "Windows" else os.cpu_count() // 2,
+        collate_fn=collate_fn,
+        pin_memory=False,
+        prefetch_factor=2,
+    )
+    # models
+    logger.info(f"prepare models. config_file: {args.config_file}")
+    model = DfNetPretrainedModel(config).to(device)
+    model.to(device)
+    model.train()
+    # optimizer
+    logger.info("prepare optimizer, lr_scheduler, loss_fn, evaluation_metric")
+    optimizer = torch.optim.AdamW(model.named_parameters(), config.lr)
+    # resume training
+    last_step_idx = -1
+    last_epoch = -1
+    for step_idx_str in serialization_dir.glob("steps-*"):
+        step_idx_str = Path(step_idx_str)
+        step_idx = step_idx_str.stem.split("-")[1]
+        step_idx = int(step_idx)
+        if step_idx > last_step_idx:
+            last_step_idx = step_idx
+    # last_epoch = 1
+    if last_step_idx != -1:
+        logger.info(f"resume from steps-{last_step_idx}.")
+        model_pt = serialization_dir / f"steps-{last_step_idx}/model.pt"
+        optimizer_pth = serialization_dir / f"steps-{last_step_idx}/optimizer.pth"
+        logger.info(f"load state dict for model.")
+        with open(model_pt.as_posix(), "rb") as f:
+            state_dict = torch.load(f, map_location="cpu", weights_only=True)
+        model.load_state_dict(state_dict, strict=True)
+        logger.info(f"load state dict for optimizer.")
+        with open(optimizer_pth.as_posix(), "rb") as f:
+            state_dict = torch.load(f, map_location="cpu", weights_only=True)
+        optimizer.load_state_dict(state_dict)
+    if config.lr_scheduler == "CosineAnnealingLR":
+        lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(
+            optimizer,
+            last_epoch=last_epoch,
+            # T_max=10 * config.eval_steps,
+            # eta_min=0.01 * config.lr,
+            **config.lr_scheduler_kwargs,
+        )
+    elif config.lr_scheduler == "MultiStepLR":
+        lr_scheduler = torch.optim.lr_scheduler.MultiStepLR(
+            optimizer,
+            last_epoch=last_epoch,
+            milestones=[10000, 20000, 30000, 40000, 50000], gamma=0.5
+        )
+    else:
+        raise AssertionError(f"invalid lr_scheduler: {config.lr_scheduler}")
+    neg_si_snr_loss_fn = NegativeSISNRLoss(reduction="mean").to(device)
+    mr_stft_loss_fn = MultiResolutionSTFTLoss(
+        fft_size_list=[256, 512, 1024],
+        win_size_list=[256, 512, 1024],
+        hop_size_list=[128, 256, 512],
+        factor_sc=1.5,
+        factor_mag=1.0,
+        reduction="mean"
+    ).to(device)
+    lsnr_loss_fn = nn.L1Loss(reduction="mean")
+    # training loop
+    # state
+    average_pesq_score = 1000000000
+    average_loss = 1000000000
+    average_neg_si_snr_loss = 1000000000
+    average_mask_loss = 1000000000
+    model_list = list()
+    best_epoch_idx = None
+    best_step_idx = None
+    best_metric = None
+    patience_count = 0
+    step_idx = 0 if last_step_idx == -1 else last_step_idx
+    logger.info("training")
+    for epoch_idx in range(max(0, last_epoch+1), config.max_epochs):
+        # train
+        model.train()
+        total_pesq_score = 0.
+        total_loss = 0.
+        total_neg_si_snr_loss = 0.
+        total_mask_loss = 0.
+        total_batches = 0.
+        progress_bar_train = tqdm(
+            initial=step_idx,
+            desc="Training; epoch-{}".format(epoch_idx),
+        )
+        for train_batch in train_data_loader:
+            clean_audios, noisy_audios, snr_db_list = train_batch
+            clean_audios: torch.Tensor = clean_audios.to(device)
+            noisy_audios: torch.Tensor = noisy_audios.to(device)
+            snr_db_list: torch.Tensor = snr_db_list.to(device)
+            est_spec, est_wav, est_mask, lsnr = model.forward(noisy_audios)
+            neg_si_snr_loss = neg_si_snr_loss_fn.forward(est_wav, clean_audios)
+            mask_loss = model.mask_loss_fn(est_mask, clean_audios, noisy_audios)
+            # mr_stft_loss = mr_stft_loss_fn.forward(denoise_audios, clean_audios)
+            # neg_si_snr_loss = lsnr_loss_fn.forward(lsnr, snr_db_list)
+            loss = 1.0 * neg_si_snr_loss + 1.0 * mask_loss
+            if torch.any(torch.isnan(loss)) or torch.any(torch.isinf(loss)):
+                logger.info(f"find nan or inf in loss.")
+                continue
+            denoise_audios_list_r = list(est_wav.detach().cpu().numpy())
+            clean_audios_list_r = list(clean_audios.detach().cpu().numpy())
+            pesq_score = run_pesq_score(clean_audios_list_r, denoise_audios_list_r, sample_rate=config.sample_rate, mode="nb")
+            optimizer.zero_grad()
+            loss.backward()
+            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=config.clip_grad_norm)
+            optimizer.step()
+            lr_scheduler.step()
+            total_pesq_score += pesq_score
+            total_loss += loss.item()
+            total_neg_si_snr_loss += neg_si_snr_loss.item()
+            total_mask_loss += mask_loss.item()
+            total_batches += 1
+            average_pesq_score = round(total_pesq_score / total_batches, 4)
+            average_loss = round(total_loss / total_batches, 4)
+            average_neg_si_snr_loss = round(total_neg_si_snr_loss / total_batches, 4)
+            average_mask_loss = round(total_mask_loss / total_batches, 4)
+            progress_bar_train.update(1)
+            progress_bar_train.set_postfix({
+                "lr": lr_scheduler.get_last_lr()[0],
+                "pesq_score": average_pesq_score,
+                "loss": average_loss,
+                "neg_si_snr_loss": average_neg_si_snr_loss,
+                "mask_loss": average_mask_loss,
+            })
+            # evaluation
+            step_idx += 1
+            if step_idx % config.eval_steps == 0:
+                with torch.no_grad():
+                    torch.cuda.empty_cache()
+                    total_pesq_score = 0.
+                    total_loss = 0.
+                    total_neg_si_snr_loss = 0.
+                    total_mask_loss = 0.
+                    total_batches = 0.
+                    progress_bar_train.close()
+                    progress_bar_eval = tqdm(
+                        desc="Evaluation; steps-{}k".format(int(step_idx/1000)),
+                    )
+                    for eval_batch in valid_data_loader:
+                        clean_audios, noisy_audios, snr_db_list = eval_batch
+                        clean_audios: torch.Tensor = clean_audios.to(device)
+                        noisy_audios: torch.Tensor = noisy_audios.to(device)
+                        snr_db_list: torch.Tensor = snr_db_list.to(device)
+                        est_spec, est_wav, est_mask, lsnr = model.forward(noisy_audios)
+                        neg_si_snr_loss = neg_si_snr_loss_fn.forward(est_wav, clean_audios)
+                        mask_loss = model.mask_loss_fn(est_mask, clean_audios, noisy_audios)
+                        loss = 1.0 * neg_si_snr_loss + 1.0 * mask_loss
+                        if torch.any(torch.isnan(loss)) or torch.any(torch.isinf(loss)):
+                            logger.info(f"find nan or inf in loss.")
+                            continue
+                        denoise_audios_list_r = list(est_wav.detach().cpu().numpy())
+                        clean_audios_list_r = list(clean_audios.detach().cpu().numpy())
+                        pesq_score = run_pesq_score(clean_audios_list_r, denoise_audios_list_r, sample_rate=config.sample_rate, mode="nb")
+                        total_pesq_score += pesq_score
+                        total_loss += loss.item()
+                        total_neg_si_snr_loss += neg_si_snr_loss.item()
+                        total_mask_loss += mask_loss.item()
+                        total_batches += 1
+                        average_pesq_score = round(total_pesq_score / total_batches, 4)
+                        average_loss = round(total_loss / total_batches, 4)
+                        average_neg_si_snr_loss = round(total_neg_si_snr_loss / total_batches, 4)
+                        average_mask_loss = round(total_mask_loss / total_batches, 4)
+                        progress_bar_eval.update(1)
+                        progress_bar_eval.set_postfix({
+                            "lr": lr_scheduler.get_last_lr()[0],
+                            "pesq_score": average_pesq_score,
+                            "loss": average_loss,
+                            "neg_si_snr_loss": average_neg_si_snr_loss,
+                            "mask_loss": average_mask_loss,
+                        })
+                    total_pesq_score = 0.
+                    total_loss = 0.
+                    total_neg_si_snr_loss = 0.
+                    total_mask_loss = 0.
+                    total_batches = 0.
+                    progress_bar_eval.close()
+                    progress_bar_train = tqdm(
+                        initial=progress_bar_train.n,
+                        postfix=progress_bar_train.postfix,
+                        desc=progress_bar_train.desc,
+                    )
+                    # save path
+                    save_dir = serialization_dir / "steps-{}".format(step_idx)
+                    save_dir.mkdir(parents=True, exist_ok=False)
+                    # save models
+                    model.save_pretrained(save_dir.as_posix())
+                    model_list.append(save_dir)
+                    if len(model_list) >= args.num_serialized_models_to_keep:
+                        model_to_delete: Path = model_list.pop(0)
+                        shutil.rmtree(model_to_delete.as_posix())
+                    # save optim
+                    torch.save(optimizer.state_dict(), (save_dir / "optimizer.pth").as_posix())
+                    # save metric
+                    if best_metric is None:
+                        best_epoch_idx = epoch_idx
+                        best_step_idx = step_idx
+                        best_metric = average_pesq_score
+                    elif average_pesq_score > best_metric:
+                        # great is better.
+                        best_epoch_idx = epoch_idx
+                        best_step_idx = step_idx
+                        best_metric = average_pesq_score
+                    else:
+                        pass
+                    metrics = {
+                        "epoch_idx": epoch_idx,
+                        "best_epoch_idx": best_epoch_idx,
+                        "best_step_idx": best_step_idx,
+                        "pesq_score": average_pesq_score,
+                        "loss": average_loss,
+                        "neg_si_snr_loss": average_neg_si_snr_loss,
+                        "mask_loss": average_mask_loss,
+                    }
+                    metrics_filename = save_dir / "metrics_epoch.json"
+                    with open(metrics_filename, "w", encoding="utf-8") as f:
+                        json.dump(metrics, f, indent=4, ensure_ascii=False)
+                    # save best
+                    best_dir = serialization_dir / "best"
+                    if best_epoch_idx == epoch_idx and best_step_idx == step_idx:
+                        if best_dir.exists():
+                            shutil.rmtree(best_dir)
+                        shutil.copytree(save_dir, best_dir)
+                    # early stop
+                    early_stop_flag = False
+                    if best_epoch_idx == epoch_idx and best_step_idx == step_idx:
+                        patience_count = 0
+                    else:
+                        patience_count += 1
+                    if patience_count >= args.patience:
+                        early_stop_flag = True
+                    # early stop
+                    if early_stop_flag:
+                        break
+    return
+if __name__ == "__main__":
+    main()

examples/dfnet/yaml/config.yaml ADDED Viewed

	@@ -0,0 +1,53 @@

+model_name: "dfnet"
+# spec
+sample_rate: 8000
+n_fft: 512
+win_length: 200
+hop_length: 80
+spec_bins: 256
+# model
+conv_channels: 64
+conv_kernel_size_input:
+  - 3
+  - 3
+conv_kernel_size_inner:
+  - 1
+  - 3
+conv_lookahead: 0
+convt_kernel_size_inner:
+  - 1
+  - 3
+embedding_hidden_size: 256
+encoder_combine_op: "concat"
+encoder_emb_skip_op: "none"
+encoder_emb_linear_groups: 16
+encoder_emb_hidden_size: 256
+encoder_linear_groups: 32
+lsnr_max: 30
+lsnr_min: -15
+norm_tau: 1.
+decoder_emb_num_layers: 3
+decoder_emb_skip_op: "none"
+decoder_emb_linear_groups: 16
+decoder_emb_hidden_size: 256
+df_decoder_hidden_size: 256
+df_num_layers: 2
+df_order: 5
+df_bins: 96
+df_gru_skip: "grouped_linear"
+df_decoder_linear_groups: 16
+df_pathway_kernel_size_t: 5
+df_lookahead: 2
+# runtime
+use_post_filter: true

examples/frcrn/step_1_prepare_data.py CHANGED Viewed

@@ -39,7 +39,7 @@ def get_args():
     parser.add_argument("--target_sample_rate", default=8000, type=int)
-    parser.add_argument("--max_count", default=10000, type=int)
     args = parser.parse_args()
     return args
@@ -107,8 +107,9 @@ def main():
     process_bar = tqdm(desc="build dataset excel")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
         for noise, speech in zip(noise_generator, speech_generator):
-            if count >= args.max_count:
-                break
             noise_filename = noise["filename"]
             noise_raw_duration = noise["raw_duration"]
@@ -124,6 +125,8 @@ def main():
             random2 = random.random()
             row = {
                 "noise_filename": noise_filename,
                 "noise_raw_duration": noise_raw_duration,
                 "noise_offset": noise_offset,

     parser.add_argument("--target_sample_rate", default=8000, type=int)
+    parser.add_argument("--scale", default=1, type=float)
     args = parser.parse_args()
     return args
     process_bar = tqdm(desc="build dataset excel")
     with open(args.train_dataset, "w", encoding="utf-8") as ftrain, open(args.valid_dataset, "w", encoding="utf-8") as fvalid:
         for noise, speech in zip(noise_generator, speech_generator):
+            flag = random.random()
+            if flag > args.scale:
+                continue
             noise_filename = noise["filename"]
             noise_raw_duration = noise["raw_duration"]
             random2 = random.random()
             row = {
+                "count": count,
                 "noise_filename": noise_filename,
                 "noise_raw_duration": noise_raw_duration,
                 "noise_offset": noise_offset,

examples/mpnet/step_1_prepare_data.py CHANGED Viewed

@@ -119,6 +119,8 @@ def get_dataset(args):
         random2 = random.random()
         row = {
             "noise_filename": noise_filename,
             "noise_raw_duration": noise_raw_duration,
             "noise_offset": noise_offset,

         random2 = random.random()
         row = {
+            "count": count,
             "noise_filename": noise_filename,
             "noise_raw_duration": noise_raw_duration,
             "noise_offset": noise_offset,

toolbox/torch/utils/data/dataset/denoise_jsonl_dataset.py CHANGED Viewed

@@ -35,6 +35,8 @@ class DenoiseJsonlDataset(IterableDataset):
         self.buffer_samples: List[dict] = list()
     def __iter__(self):
         iterable_source = self.iterable_source()
         try:

         self.buffer_samples: List[dict] = list()
     def __iter__(self):
+        self.buffer_samples = list()
         iterable_source = self.iterable_source()
         try:

toolbox/torchaudio/models/dfnet/modeling_dfnet.py CHANGED Viewed

@@ -7,6 +7,7 @@ from typing import Any, Callable, Dict, Iterable, List, Optional, Tuple, Union
 import numpy as np
 import torch
 import torch.nn as nn
 import torchaudio
 from toolbox.torchaudio.configuration_utils import CONFIG_FILE
@@ -752,11 +753,11 @@ class DeepFiltering(nn.Module):
                 coefs: torch.Tensor,
                 ):
         # spec shape: [batch_size, 1, time_steps, spec_bins, 2]
-        spec_u = self.spec_unfold(torch.view_as_complex(spec))
         # spec_u shape: [batch_size, 1, time_steps, spec_bins, df_order]
         # coefs shape: [batch_size, df_order, time_steps, df_bins, 2]
-        coefs = torch.view_as_complex(coefs)
         # coefs shape: [batch_size, df_order, time_steps, df_bins]
         spec_f = spec_u.narrow(-2, 0, self.df_bins)
         # spec_f shape: [batch_size, 1, time_steps, df_bins, df_order]
@@ -789,6 +790,13 @@ class DfNet(nn.Module):
         super(DfNet, self).__init__()
         self.config = config
         self.stft = ConvSTFT(
             nfft=config.nfft,
             win_size=config.win_size,
@@ -820,32 +828,41 @@ class DfNet(nn.Module):
         self.mask = Mask(use_post_filter=config.use_post_filter)
     def forward(self,
-                spec_complex: torch.Tensor,
                 ):
-        feat_power = torch.square(torch.abs(spec_complex))
-        feat_power = feat_power.unsqueeze(1).permute(0, 1, 3, 2)
-        # feat_power shape: [batch_size, spec_bins, time_steps]
-        # feat_power shape: [batch_size, 1, spec_bins, time_steps]
         # feat_power shape: [batch_size, 1, time_steps, spec_bins]
-        feat_power = feat_power.detach()
-        # spec shape: [batch_size, spec_bins, time_steps]
-        feat_spec = torch.view_as_real(spec_complex)
-        # spec shape: [batch_size, spec_bins, time_steps, 2]
-        feat_spec = feat_spec.permute(0, 3, 2, 1)
-        # feat_spec shape: [batch_size, 2, time_steps, spec_bins]
         feat_spec = feat_spec[..., :self.df_decoder.df_bins]
         # feat_spec shape: [batch_size, 2, time_steps, df_bins]
-        feat_spec = feat_spec.detach()
-        # spec shape: [batch_size, spec_bins, time_steps]
-        spec = torch.unsqueeze(spec_complex, dim=1)
-        # spec shape: [batch_size, 1, spec_bins, time_steps]
-        spec = spec.permute(0, 1, 3, 2)
-        # spec shape: [batch_size, 1, time_steps, spec_bins]
-        spec = torch.view_as_real(spec)
-        # spec shape: [batch_size, 1, time_steps, spec_bins, 2]
-        spec = spec.detach()
         e0, e1, e2, e3, emb, c0, lsnr, h = self.encoder.forward(feat_power, feat_spec)
@@ -865,7 +882,7 @@ class DfNet(nn.Module):
         # df_coefs shape: [batch_size, df_order, time_steps, df_bins, 2]
         spec_e = self.df_op.forward(spec.clone(), df_coefs)
-        # spec_e shape: [batch_size, 1, time_steps, spec_bins, 2]
         spec_e[..., self.df_decoder.df_bins:, :] = spec_m[..., self.df_decoder.df_bins:, :]
@@ -874,10 +891,68 @@ class DfNet(nn.Module):
         # spec_e shape: [batch_size, spec_bins, time_steps, 2]
         mask = torch.squeeze(mask, dim=1)
-        mask = mask.permute(0, 2, 1)
         # mask shape: [batch_size, spec_bins, time_steps]
-        return spec_e, mask, lsnr
 class DfNetPretrainedModel(DfNet):
@@ -928,22 +1003,12 @@ class DfNetPretrainedModel(DfNet):
 def main():
-    transformer = torchaudio.transforms.Spectrogram(
-        n_fft=512,
-        win_length=200,
-        hop_length=80,
-        window_fn=torch.hamming_window,
-        power=None,
-    )
     config = DfNetConfig()
     model = DfNetPretrainedModel(config=config)
-    inputs = torch.randn(size=(1, 16000), dtype=torch.float32)
-    spec_complex = transformer.forward(inputs)
-    spec_complex = spec_complex[:, :-1, :]
-    output = model.forward(spec_complex)
     print(output[1].shape)
     return

 import numpy as np
 import torch
 import torch.nn as nn
+from torch.nn import functional as F
 import torchaudio
 from toolbox.torchaudio.configuration_utils import CONFIG_FILE
                 coefs: torch.Tensor,
                 ):
         # spec shape: [batch_size, 1, time_steps, spec_bins, 2]
+        spec_u = self.spec_unfold(torch.view_as_complex(spec.contiguous()))
         # spec_u shape: [batch_size, 1, time_steps, spec_bins, df_order]
         # coefs shape: [batch_size, df_order, time_steps, df_bins, 2]
+        coefs = torch.view_as_complex(coefs.contiguous())
         # coefs shape: [batch_size, df_order, time_steps, df_bins]
         spec_f = spec_u.narrow(-2, 0, self.df_bins)
         # spec_f shape: [batch_size, 1, time_steps, df_bins, df_order]
         super(DfNet, self).__init__()
         self.config = config
+        self.freq_bins = self.config.nfft // 2 + 1
+        self.nfft = config.nfft
+        self.win_size = config.win_size
+        self.hop_size = config.hop_size
+        self.win_type = config.win_type
         self.stft = ConvSTFT(
             nfft=config.nfft,
             win_size=config.win_size,
         self.mask = Mask(use_post_filter=config.use_post_filter)
     def forward(self,
+                noisy: torch.Tensor,
                 ):
+        if noisy.dim() == 2:
+            noisy = torch.unsqueeze(noisy, dim=1)
+        _, _, n_samples = noisy.shape
+        remainder = (n_samples - self.win_size) % self.hop_size
+        if remainder > 0:
+            n_samples_pad = self.hop_size - remainder
+            noisy = F.pad(noisy, pad=(0, n_samples_pad), mode="constant", value=0)
+        # [batch_size, freq_bins * 2, time_steps]
+        cmp_spec = self.stft.forward(noisy)
+        # [batch_size, 1, freq_bins * 2, time_steps]
+        cmp_spec = torch.unsqueeze(cmp_spec, 1)
+        # [batch_size, 2, freq_bins, time_steps]
+        cmp_spec = torch.cat([
+            cmp_spec[:, :, :self.freq_bins, :],
+            cmp_spec[:, :, self.freq_bins:, :],
+        ], dim=1)
+        # n//2+1 -> n//2; 257 -> 256
+        cmp_spec = cmp_spec[:, :, :-1, :]
+        spec = torch.unsqueeze(cmp_spec, dim=4)
+        # [batch_size, 2, freq_bins, time_steps, 1]
+        spec = spec.permute(0, 4, 3, 2, 1)
+        # spec shape: [batch_size, 1, time_steps, freq_bins, 2]
+        feat_power = torch.sum(torch.square(spec), dim=-1)
         # feat_power shape: [batch_size, 1, time_steps, spec_bins]
+        feat_spec = torch.transpose(cmp_spec, dim0=2, dim1=3)
+        # feat_spec shape: [batch_size, 2, time_steps, freq_bins]
         feat_spec = feat_spec[..., :self.df_decoder.df_bins]
         # feat_spec shape: [batch_size, 2, time_steps, df_bins]
         e0, e1, e2, e3, emb, c0, lsnr, h = self.encoder.forward(feat_power, feat_spec)
         # df_coefs shape: [batch_size, df_order, time_steps, df_bins, 2]
         spec_e = self.df_op.forward(spec.clone(), df_coefs)
+        # est_spec shape: [batch_size, 1, time_steps, spec_bins, 2]
         spec_e[..., self.df_decoder.df_bins:, :] = spec_m[..., self.df_decoder.df_bins:, :]
         # spec_e shape: [batch_size, spec_bins, time_steps, 2]
         mask = torch.squeeze(mask, dim=1)
+        est_mask = mask.permute(0, 2, 1)
         # mask shape: [batch_size, spec_bins, time_steps]
+        b, _, t, _ = spec_e.shape
+        est_spec = torch.cat(tensors=[
+            torch.concat(tensors=[
+                spec_e[..., 0],
+                torch.zeros(size=(b, 1, t), dtype=spec_e.dtype).to(spec_e.device)
+            ], dim=1),
+            torch.concat(tensors=[
+                spec_e[..., 1],
+                torch.zeros(size=(b, 1, t), dtype=spec_e.dtype).to(spec_e.device)
+            ], dim=1),
+        ], dim=1)
+        # est_spec shape: [b, n+2, t]
+        est_wav = self.istft.forward(est_spec)
+        est_wav = torch.squeeze(est_wav, dim=1)
+        est_wav = est_wav[:, :n_samples]
+        # est_wav shape: [b, n_samples]
+        return est_spec, est_wav, est_mask, lsnr
+    def mask_loss_fn(self, est_mask: torch.Tensor, clean: torch.Tensor, noisy: torch.Tensor):
+        """
+        :param est_mask: torch.Tensor, shape: [b, n+2, t]
+        :param clean:
+        :param noisy:
+        :return:
+        """
+        clean_stft = self.stft(clean)
+        clean_re = clean_stft[:, :self.freq_bins, :]
+        clean_im = clean_stft[:, self.freq_bins:, :]
+        noisy_stft = self.stft(noisy)
+        noisy_re = noisy_stft[:, :self.freq_bins, :]
+        noisy_im = noisy_stft[:, self.freq_bins:, :]
+        noisy_power = noisy_re ** 2 + noisy_im ** 2
+        sr = clean_re
+        yr = noisy_re
+        si = clean_im
+        yi = noisy_im
+        y_pow = noisy_power
+        # (Sr * Yr + Si * Yi) / (Y_pow + 1e-8)
+        gth_mask_re = (sr * yr + si * yi) / (y_pow + self.eps)
+        # (Si * Yr - Sr * Yi) / (Y_pow + 1e-8)
+        gth_mask_im = (sr * yr - si * yi) / (y_pow + self.eps)
+        gth_mask_re[gth_mask_re > 2] = 1
+        gth_mask_re[gth_mask_re < -2] = -1
+        gth_mask_im[gth_mask_im > 2] = 1
+        gth_mask_im[gth_mask_im < -2] = -1
+        mask_re = est_mask[:, :self.freq_bins, :]
+        mask_im = est_mask[:, self.freq_bins:, :]
+        loss_re = F.mse_loss(gth_mask_re, mask_re)
+        loss_im = F.mse_loss(gth_mask_im, mask_im)
+        loss = loss_re + loss_im
+        return loss
 class DfNetPretrainedModel(DfNet):
 def main():
     config = DfNetConfig()
     model = DfNetPretrainedModel(config=config)
+    noisy = torch.randn(size=(1, 16000), dtype=torch.float32)
+    output = model.forward(noisy)
     print(output[1].shape)
     return