Spaces:

qgyd2021
/

nx_denoise

Running

App Files Files Community

nx_denoise / toolbox /torchaudio /models /rnnoise /modeling_rnnoise.py

HoneyTian

update

35a4689 10 days ago

raw

history blame

13.8 kB

	#!/usr/bin/python3
	# -- coding: utf-8 --
	"""
	https://github.com/xiph/rnnoise
	https://github.com/xiph/rnnoise/blob/main/torch/rnnoise/rnnoise.py

	https://arxiv.org/abs/1709.08243

	"""
	import os
	from typing import Optional, Union, Tuple

	import torch
	import torch.nn as nn
	from torch.nn import functional as F

	from toolbox.torch.sparsification.gru_sparsifier import GRUSparsifier
	from toolbox.torchaudio.models.rnnoise.configuration_rnnoise import RNNoiseConfig
	from toolbox.torchaudio.configuration_utils import CONFIG_FILE
	from toolbox.torchaudio.modules.conv_stft import ConvSTFT, ConviSTFT
	from toolbox.torchaudio.modules.freq_bands.erb_bands import ErbBands


	sparsify_start = 6000
	sparsify_stop = 20000
	sparsify_interval = 100
	sparsify_exponent = 3


	sparse_params1 = {
	"W_hr" : (0.3, [8, 4], True),
	"W_hz" : (0.2, [8, 4], True),
	"W_hn" : (0.5, [8, 4], True),
	"W_ir" : (0.3, [8, 4], False),
	"W_iz" : (0.2, [8, 4], False),
	"W_in" : (0.5, [8, 4], False),
	}


	def init_weights(module):
	if isinstance(module, nn.GRU):
	for p in module.named_parameters():
	if p[0].startswith("weight_hh_"):
	nn.init.orthogonal_(p[1])


	class RNNoise(nn.Module):
	def __init__(self,
	sample_rate: int = 8000,
	nfft: int = 512,
	win_size: int = 512,
	hop_size: int = 256,
	win_type: str = "hann",
	erb_bins: int = 32,
	min_freq_bins_for_erb: int = 2,
	conv_size: int = 128,
	gru_size: int = 256,
	):
	super(RNNoise, self).__init__()
	self.sample_rate = sample_rate
	self.nfft = nfft
	self.win_size = win_size
	self.hop_size = hop_size
	self.win_type = win_type

	self.erb_bins = erb_bins
	self.min_freq_bins_for_erb = min_freq_bins_for_erb
	self.conv_size = conv_size
	self.gru_size = gru_size

	self.input_dim = nfft // 2 + 1

	self.eps = 1e-12

	self.erb_bands = ErbBands(
	sample_rate=self.sample_rate,
	nfft=self.nfft,
	erb_bins=self.erb_bins,
	min_freq_bins_for_erb=self.min_freq_bins_for_erb,
	)

	self.stft = ConvSTFT(
	nfft=self.nfft,
	win_size=self.win_size,
	hop_size=self.hop_size,
	win_type=self.win_type,
	power=None,
	requires_grad=False
	)
	self.istft = ConviSTFT(
	nfft=self.nfft,
	win_size=self.win_size,
	hop_size=self.hop_size,
	win_type=self.win_type,
	requires_grad=False
	)

	self.pad = nn.ConstantPad1d(padding=(2, 2), value=0)
	self.conv1 = nn.Conv1d(self.erb_bins, conv_size, kernel_size=3, padding="valid")
	self.conv2 = nn.Conv1d(conv_size, gru_size, kernel_size=3, padding="valid")

	self.gru1 = nn.GRU(self.gru_size, self.gru_size, batch_first=True)
	self.gru2 = nn.GRU(self.gru_size, self.gru_size, batch_first=True)
	self.gru3 = nn.GRU(self.gru_size, self.gru_size, batch_first=True)

	self.dense_out = nn.Linear(4*self.gru_size, self.erb_bins)

	nb_params = sum(p.numel() for p in self.parameters())
	print(f"model: {nb_params} weights")
	self.apply(init_weights)

	self.sparsifier = [
	GRUSparsifier(
	task_list=[(self.gru1, sparse_params1)],
	start=sparsify_start,
	stop=sparsify_stop,
	interval=sparsify_interval,
	exponent=sparsify_exponent,
	),
	GRUSparsifier(
	task_list=[(self.gru2, sparse_params1)],
	start=sparsify_start,
	stop=sparsify_stop,
	interval=sparsify_interval,
	exponent=sparsify_exponent,
	),
	GRUSparsifier(
	task_list=[(self.gru3, sparse_params1)],
	start=sparsify_start,
	stop=sparsify_stop,
	interval=sparsify_interval,
	exponent=sparsify_exponent,
	)
	]

	def sparsify(self):
	for sparsifier in self.sparsifier:
	sparsifier.step()

	def signal_prepare(self, signal: torch.Tensor) -> torch.Tensor:
	if signal.dim() == 2:
	signal = torch.unsqueeze(signal, dim=1)
	_, _, n_samples = signal.shape
	remainder = (n_samples - self.win_size) % self.hop_size
	if remainder > 0:
	n_samples_pad = self.hop_size - remainder
	signal = F.pad(signal, pad=(0, n_samples_pad), mode="constant", value=0)
	return signal

	def forward(self,
	noisy: torch.Tensor,
	states: Tuple[torch.Tensor, torch.Tensor, torch.Tensor] = None,
	):
	num_samples = noisy.shape[-1]
	noisy = self.signal_prepare(noisy)
	batch_size, _, num_samples_pad = noisy.shape
	# print(f"num_samples: {num_samples}, num_samples_pad: {num_samples_pad}")

	mag_noisy, pha_noisy = self.mag_pha_stft(noisy)
	# shape: (b, f, t)
	# t = (num_samples - win_size) / hop_size + 1

	mag_noisy_t = torch.transpose(mag_noisy, dim0=1, dim1=2)
	# shape: (b, t, f)
	mag_noisy_t_erb = self.erb_bands.erb_scale(mag_noisy_t, db=True)
	# shape: (b, t, erb_bins)
	mag_noisy_t_erb = torch.transpose(mag_noisy_t_erb, dim0=1, dim1=2)
	# shape: (b, erb_bins, t)

	mag_noisy_t_erb = self.pad(mag_noisy_t_erb)
	mag_noisy_t_erb = self.forward_conv(mag_noisy_t_erb)
	gru_out, states = self.forward_gru(mag_noisy_t_erb, states)
	# gru_out shape: [b, t, f]
	mask_erb = torch.sigmoid(self.dense_out(gru_out))
	# mask_erb shape: (b, t, erb_bins)

	mask = self.erb_bands.erb_scale_inv(mask_erb)
	# mask shape: (b, t, f)
	mask = torch.transpose(mask, dim0=1, dim1=2)
	# mask shape: (b, f, t)

	stft_denoise = self.do_mask(mag_noisy, pha_noisy, mask)
	denoise = self.istft.forward(stft_denoise)
	# denoise shape: [b, 1, num_samples_pad]

	denoise = denoise[:, :, :num_samples]
	# denoise shape: [b, 1, num_samples]
	return denoise, mask, states

	def forward_conv(self, mag_noisy: torch.Tensor):
	# mag_noisy shape: [b, f, t]
	tmp = mag_noisy
	# tmp shape: [b, f, t]
	tmp = torch.tanh(self.conv1(tmp))
	tmp = torch.tanh(self.conv2(tmp))
	# tmp shape: [b, f, t]
	return tmp

	def forward_gru(self,
	mag_noisy: torch.Tensor,
	states: Tuple[torch.Tensor, torch.Tensor, torch.Tensor] = None,
	):
	if states is None:
	gru1_state = None
	gru2_state = None
	gru3_state = None
	else:
	gru1_state = states[0]
	gru2_state = states[1]
	gru3_state = states[2]

	# mag_noisy shape: [b, f, t]
	tmp = mag_noisy.permute(0, 2, 1)
	# tmp shape: [b, t, f]

	gru1_out, gru1_state = self.gru1(tmp, gru1_state)
	gru2_out, gru2_state = self.gru2(gru1_out, gru2_state)
	gru3_out, gru3_state = self.gru3(gru2_out, gru3_state)
	new_states = [gru1_state, gru2_state, gru3_state]

	gru_out = torch.cat(tensors=[tmp, gru1_out, gru2_out, gru3_out], dim=-1)
	# gru_out shape: [b, t, f]
	return gru_out, new_states

	def forward_chunk_by_chunk(self,
	noisy: torch.Tensor,
	):
	noisy = self.signal_prepare(noisy)
	b, _, num_samples = noisy.shape
	t = (num_samples - self.win_size) / self.hop_size + 1

	waveform = torch.zeros(size=(b, 1, 0), dtype=torch.float32)

	states = None
	waveform_cache = None
	coff_cache = None

	cache_list = list()
	for i in range(int(t)):
	begin = i * self.hop_size
	end = begin + self.win_size
	sub_noisy = noisy[:, :, begin:end]
	mag_noisy, pha_noisy = self.mag_pha_stft(sub_noisy)
	mag_noisy_t = torch.transpose(mag_noisy, dim0=1, dim1=2)
	mag_noisy_t_erb = self.erb_bands.erb_scale(mag_noisy_t, db=True)
	mag_noisy_t_erb = torch.transpose(mag_noisy_t_erb, dim0=1, dim1=2)
	# mag_noisy_t_erb shape: (b, erb_bins, t)

	if len(cache_list) == 0:
	cache_list.extend([{
	"mag_noisy": torch.zeros_like(mag_noisy),
	"pha_noisy": torch.zeros_like(pha_noisy),
	"mag_noisy_t_erb": torch.zeros_like(mag_noisy_t_erb),
	}] * 2)
	cache_list.append({
	"mag_noisy": mag_noisy,
	"pha_noisy": pha_noisy,
	"mag_noisy_t_erb": mag_noisy_t_erb,
	})
	if len(cache_list) < 5:
	continue
	mag_noisy_t_erb = torch.concat(
	tensors=[c["mag_noisy_t_erb"] for c in cache_list],
	dim=-1
	)
	mag_noisy = cache_list[2]["mag_noisy"]
	pha_noisy = cache_list[2]["pha_noisy"]
	cache_list.pop(0)
	# mag_noisy_t_erb shape: [b, f, 5]
	mag_noisy_t_erb = self.forward_conv(mag_noisy_t_erb)
	# mag_noisy_t_erb shape: [b, f, 1]
	gru_out, states = self.forward_gru(mag_noisy_t_erb, states)
	mask_erb = torch.sigmoid(self.dense_out(gru_out))
	mask = self.erb_bands.erb_scale_inv(mask_erb)
	mask = torch.transpose(mask, dim0=1, dim1=2)
	stft_denoise = self.do_mask(mag_noisy, pha_noisy, mask)
	sub_waveform, waveform_cache, coff_cache = self.istft.forward_chunk(stft_denoise, waveform_cache, coff_cache)
	waveform = torch.concat(tensors=[waveform, sub_waveform], dim=-1)

	return waveform

	def do_mask(self,
	mag_noisy: torch.Tensor,
	pha_noisy: torch.Tensor,
	mask: torch.Tensor,
	):
	# (b, f, t)
	mag_denoise = mag_noisy * mask
	stft_denoise = mag_denoise * torch.exp((1j * pha_noisy))
	return stft_denoise

	def mag_pha_stft(self, noisy: torch.Tensor):
	# noisy shape: [b, num_samples]
	stft_noisy = self.stft.forward(noisy)
	# stft_noisy shape: [b, f, t], torch.complex64

	real = torch.real(stft_noisy)
	imag = torch.imag(stft_noisy)
	mag_noisy = torch.sqrt(real 2 + imag 2)
	pha_noisy = torch.atan2(imag, real)
	# shape: (b, f, t)
	return mag_noisy, pha_noisy


	MODEL_FILE = "model.pt"


	class RNNoisePretrainedModel(RNNoise):
	def __init__(self,
	config: RNNoiseConfig,
	):
	super(RNNoisePretrainedModel, self).__init__(
	sample_rate=config.sample_rate,
	nfft=config.nfft,
	win_size=config.win_size,
	hop_size=config.hop_size,
	win_type=config.win_type,
	erb_bins=config.erb_bins,
	min_freq_bins_for_erb=config.min_freq_bins_for_erb,
	conv_size=config.conv_size,
	gru_size=config.gru_size,
	)
	self.config = config

	@classmethod
	def from_pretrained(cls, pretrained_model_name_or_path, **kwargs):
	config = RNNoiseConfig.from_pretrained(pretrained_model_name_or_path, **kwargs)

	model = cls(config)

	if os.path.isdir(pretrained_model_name_or_path):
	ckpt_file = os.path.join(pretrained_model_name_or_path, MODEL_FILE)
	else:
	ckpt_file = pretrained_model_name_or_path

	with open(ckpt_file, "rb") as f:
	state_dict = torch.load(f, map_location="cpu", weights_only=True)
	model.load_state_dict(state_dict, strict=True)
	return model

	def save_pretrained(self,
	save_directory: Union[str, os.PathLike],
	state_dict: Optional[dict] = None,
	):

	model = self

	if state_dict is None:
	state_dict = model.state_dict()

	os.makedirs(save_directory, exist_ok=True)

	# save state dict
	model_file = os.path.join(save_directory, MODEL_FILE)
	torch.save(state_dict, model_file)

	# save config
	config_file = os.path.join(save_directory, CONFIG_FILE)
	self.config.to_yaml_file(config_file)
	return save_directory


	def main1():
	config = RNNoiseConfig()
	model = RNNoisePretrainedModel(config)
	model.eval()

	noisy = torch.randn(size=(1, 16000), dtype=torch.float32)
	noisy = model.signal_prepare(noisy)
	b, _, num_samples = noisy.shape
	t = (num_samples - config.win_size) / config.hop_size + 1

	waveform, mask, h_state = model.forward(noisy)
	print(f"waveform.shape: {waveform.shape}, waveform.dtype: {waveform.dtype}")
	print(waveform[:, :, 300: 302])

	return


	def main2():
	config = RNNoiseConfig()
	model = RNNoisePretrainedModel(config)
	model.eval()

	noisy = torch.randn(size=(1, 16000), dtype=torch.float32)
	noisy = model.signal_prepare(noisy)
	b, _, num_samples = noisy.shape
	t = (num_samples - config.win_size) / config.hop_size + 1

	waveform, mask, h_state = model.forward(noisy)
	print(f"waveform.shape: {waveform.shape}, waveform.dtype: {waveform.dtype}")
	print(waveform[:, :, 300: 302])

	waveform = model.forward_chunk_by_chunk(noisy)
	print(f"waveform.shape: {waveform.shape}, waveform.dtype: {waveform.dtype}")
	print(waveform[:, :, 300: 302])

	return


	if __name__ == "__main__":
	main2()