Spaces:

qgyd2021
/

nx_denoise

Running

App Files Files Community

HoneyTian commited on Feb 13

Commit

91e3fb3

1 Parent(s): decba93

update

Browse files

Files changed (1) hide show

toolbox/torchaudio/models/spectrum_dfnet/modeling_spectrum_dfnet.py +25 -23

toolbox/torchaudio/models/spectrum_dfnet/modeling_spectrum_dfnet.py CHANGED Viewed

@@ -386,11 +386,11 @@ class Encoder(nn.Module):
             nn.ReLU(inplace=True)
         )
-        if config.encoder_combine_op == "concat":
-            self.embedding_input_size *= 2
-            self.combine = Concat()
-        else:
-            self.combine = Add()
         # emb_gru
         if config.spec_bins % 8 != 0:
@@ -430,18 +430,18 @@ class Encoder(nn.Module):
         # e2 shape: [batch_size, channels, time_steps, spec_dim // 4]
         # e3 shape: [batch_size, channels, time_steps, spec_dim // 4]
-        # feat_spec, shape: (batch_size, 2, time_steps, df_bins)
-        c0 = self.df_conv0(feat_spec)
-        c1 = self.df_conv1(c0)
-        # c0 shape: [batch_size, channels, time_steps, df_bins]
-        # c1 shape: [batch_size, channels, time_steps, df_bins // 2]
-        cemb = c1.permute(0, 2, 3, 1)
-        # cemb shape: [batch_size, time_steps, df_bins // 2, channels]
-        cemb = cemb.flatten(2)
-        # cemb shape: [batch_size, time_steps, df_bins // 2 * channels]
-        cemb = self.df_fc_emb(cemb)
-        # cemb shape: [batch_size, time_steps, spec_dim // 4 * channels]
         # e3 shape: [batch_size, channels, time_steps, spec_dim // 4]
         emb = e3.permute(0, 2, 3, 1)
@@ -449,9 +449,9 @@ class Encoder(nn.Module):
         emb = emb.flatten(2)
         # emb shape: [batch_size, time_steps, spec_dim // 4 * channels]
-        emb = self.combine(emb, cemb)
-        # if concat; emb shape: [batch_size, time_steps, spec_dim // 4 * channels * 2]
-        # if add; emb shape: [batch_size, time_steps, spec_dim // 4 * channels]
         emb, h = self.emb_gru.forward(emb, hidden_state)
         # emb shape: [batch_size, time_steps, spec_dim // 4 * channels]
@@ -460,7 +460,8 @@ class Encoder(nn.Module):
         lsnr = self.lsnr_fc(emb) * self.lsnr_scale + self.lsnr_offset
         # lsnr shape: [batch_size, time_steps, 1]
-        return e0, e1, e2, e3, emb, c0, lsnr, h
 class Decoder(nn.Module):
@@ -828,7 +829,8 @@ class SpectrumDfNet(nn.Module):
         # # spec shape: [batch_size, 1, time_steps, spec_bins, 2]
         # spec = spec.detach()
-        e0, e1, e2, e3, emb, c0, lsnr, h = self.encoder.forward(feat_power, feat_spec)
         mask = self.decoder.forward(emb, e3, e2, e1, e0)
         # mask shape: [batch_size, 1, time_steps, spec_bins]
@@ -926,7 +928,7 @@ def main():
     spec_complex = spec_complex[:, :-1, :]
     output = model.forward(spec_complex)
-    print(output[0].shape)
     return

             nn.ReLU(inplace=True)
         )
+        # if config.encoder_combine_op == "concat":
+        #     self.embedding_input_size *= 2
+        #     self.combine = Concat()
+        # else:
+        #     self.combine = Add()
         # emb_gru
         if config.spec_bins % 8 != 0:
         # e2 shape: [batch_size, channels, time_steps, spec_dim // 4]
         # e3 shape: [batch_size, channels, time_steps, spec_dim // 4]
+        # # feat_spec, shape: (batch_size, 2, time_steps, df_bins)
+        # c0 = self.df_conv0(feat_spec)
+        # c1 = self.df_conv1(c0)
+        # # c0 shape: [batch_size, channels, time_steps, df_bins]
+        # # c1 shape: [batch_size, channels, time_steps, df_bins // 2]
+        #
+        # cemb = c1.permute(0, 2, 3, 1)
+        # # cemb shape: [batch_size, time_steps, df_bins // 2, channels]
+        # cemb = cemb.flatten(2)
+        # # cemb shape: [batch_size, time_steps, df_bins // 2 * channels]
+        # cemb = self.df_fc_emb(cemb)
+        # # cemb shape: [batch_size, time_steps, spec_dim // 4 * channels]
         # e3 shape: [batch_size, channels, time_steps, spec_dim // 4]
         emb = e3.permute(0, 2, 3, 1)
         emb = emb.flatten(2)
         # emb shape: [batch_size, time_steps, spec_dim // 4 * channels]
+        # emb = self.combine(emb, cemb)
+        # # if concat; emb shape: [batch_size, time_steps, spec_dim // 4 * channels * 2]
+        # # if add; emb shape: [batch_size, time_steps, spec_dim // 4 * channels]
         emb, h = self.emb_gru.forward(emb, hidden_state)
         # emb shape: [batch_size, time_steps, spec_dim // 4 * channels]
         lsnr = self.lsnr_fc(emb) * self.lsnr_scale + self.lsnr_offset
         # lsnr shape: [batch_size, time_steps, 1]
+        # return e0, e1, e2, e3, emb, c0, lsnr, h
+        return e0, e1, e2, e3, emb, lsnr, h
 class Decoder(nn.Module):
         # # spec shape: [batch_size, 1, time_steps, spec_bins, 2]
         # spec = spec.detach()
+        # e0, e1, e2, e3, emb, c0, lsnr, h = self.encoder.forward(feat_power, feat_spec)
+        e0, e1, e2, e3, emb, lsnr, h = self.encoder.forward(feat_power, feat_spec)
         mask = self.decoder.forward(emb, e3, e2, e1, e0)
         # mask shape: [batch_size, 1, time_steps, spec_bins]
     spec_complex = spec_complex[:, :-1, :]
     output = model.forward(spec_complex)
+    print(output[1].shape)
     return