Spaces:

hshr
/

DeepFilterNet

Runtime error

App Files Files Community

Hendrik Schroeter commited on Apr 11, 2022

Commit

e2efa2c

unverified ·

1 Parent(s): 5ce2a93

Resample enhanced audio to input sample rate

Browse files

Files changed (1) hide show

app.py +10 -3

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
-import math
 import tempfile
 import gradio
 import gradio.inputs
@@ -9,6 +9,7 @@ import markdown
 import numpy as np
 import torch
 from df import config
 from df.enhance import enhance, init_df, load_audio, save_audio
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -61,14 +62,17 @@ def mix_and_denoise(speech_rec, speech_upl, noise, snr):
     if speech_rec is None or "none" in speech_rec:
         speech = "samples/p232_013_clean.wav"
         if speech_upl is not None and "none" not in speech_upl:
-            print("using speech_alt")
             speech = speech_upl
     else:
         speech = speech_rec
         sp_kwargs = {"frame_offset": 4800}
-    speech, _ = load_audio(speech, sr, **sp_kwargs)
     print(f"Loaded speech with shape {speech.shape}")
     noise, _ = load_audio(noise, sr)
     print(f"Loaded noise with shape {noise.shape}")
     speech, noise, noisy = mix_at_snr(speech, noise, snr)
     print("Start denoising audio")
@@ -77,6 +81,9 @@ def mix_and_denoise(speech_rec, speech_upl, noise, snr):
     lim = torch.linspace(0.0, 1.0, int(sr * 0.15)).unsqueeze(0)
     lim = torch.cat((lim, torch.ones(1, enhanced.shape[1] - lim.shape[1])), dim=1)
     enhanced = enhanced * lim
     noisy_fn = tempfile.NamedTemporaryFile(suffix="noisy.wav", delete=False).name
     save_audio(noisy_fn, noisy, sr)
     enhanced_fn = tempfile.NamedTemporaryFile(suffix="enhanced.wav", delete=False).name

 import tempfile
+from df.utils import resample
 import gradio
 import gradio.inputs
 import numpy as np
 import torch
 from df import config
+import math
 from df.enhance import enhance, init_df, load_audio, save_audio
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     if speech_rec is None or "none" in speech_rec:
         speech = "samples/p232_013_clean.wav"
         if speech_upl is not None and "none" not in speech_upl:
+            print("using speech_upl")
             speech = speech_upl
     else:
         speech = speech_rec
         sp_kwargs = {"frame_offset": 4800}
+    speech, meta = load_audio(speech, sr, **sp_kwargs)
     print(f"Loaded speech with shape {speech.shape}")
     noise, _ = load_audio(noise, sr)
+    if meta.sample_rate != sr:
+        # Low pass filter by resampling
+        noise = resample(resample(noise, sr, meta.sample_rate), meta.sample_rate, sr)
     print(f"Loaded noise with shape {noise.shape}")
     speech, noise, noisy = mix_at_snr(speech, noise, snr)
     print("Start denoising audio")
     lim = torch.linspace(0.0, 1.0, int(sr * 0.15)).unsqueeze(0)
     lim = torch.cat((lim, torch.ones(1, enhanced.shape[1] - lim.shape[1])), dim=1)
     enhanced = enhanced * lim
+    if meta.sample_rate != sr:
+        enhanced = resample(enhanced, sr, meta.sample_rate)
+        noisy = resample(noisy, sr, meta.sample_rate)
     noisy_fn = tempfile.NamedTemporaryFile(suffix="noisy.wav", delete=False).name
     save_audio(noisy_fn, noisy, sr)
     enhanced_fn = tempfile.NamedTemporaryFile(suffix="enhanced.wav", delete=False).name