Spaces:

hshr
/

DeepFilterNet

Runtime error

App Files Files Community

Hendrik Schroeter commited on Apr 12, 2022

Commit

c8dbfb3

unverified ·

1 Parent(s): 4cf88e6

back to filepath input; huggingspace has no ffmpeg :(

Browse files

Files changed (1) hide show

app.py +43 -12

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import math
 import tempfile
-from typing import Tuple
 import gradio
 import gradio.inputs
@@ -9,12 +9,14 @@ import markdown
 import matplotlib.pyplot as plt
 import numpy as np
 import torch
 from loguru import logger
 from df import config
 from df.enhance import enhance, init_df, load_audio, save_audio
 from df.utils import resample
-from torchaudio.backend.common import AudioMetaData
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model, df, _ = init_df()
@@ -57,7 +59,40 @@ def mix_at_snr(clean, noise, snr, eps=1e-10):
     return clean, noise, mixture
-def mix_and_denoise(speech_rec: Tuple[int, np.ndarray], speech_upl: str, noise_fn: str, snr: int):
     sr = config("sr", 48000, int, section="df")
     logger.info(
         f"Got parameters speech_rec: {speech_rec}, speech_upl: {speech_upl}, noise: {noise_fn}, snr: {snr}"
@@ -71,14 +106,10 @@ def mix_and_denoise(speech_rec: Tuple[int, np.ndarray], speech_upl: str, noise_f
             speech_file = speech_upl
         speech, meta = load_audio(speech_file, sr)
     else:
-        meta.sample_rate, speech_rec_a = speech_rec
-        # Gradio documentation says, the shape is [samples, 2], but apparently sometimes its not.
-        speech_rec_a = speech_rec_a.reshape(speech_rec_a.shape[0], -1).T
-        if speech_rec_a.dtype == np.int16:
-            speech_rec_a = (speech_rec_a / (1 << 15)).astype(np.float32)
-        elif speech_rec_a.dtype == np.int32:
-            speech_rec_a = (speech_rec_a / (1 << 31)).astype(np.float32)
-        speech = resample(torch.from_numpy(speech_rec_a), meta.sample_rate, sr)
     logger.info(f"Loaded speech with shape {speech.shape}")
     noise, _ = load_audio(noise_fn, sr)  # type: ignore
     if meta.sample_rate != sr:
@@ -211,7 +242,7 @@ def spec_figure(
 inputs = [
     gradio.inputs.Audio(
         source="microphone",
-        type="numpy",
         optional=True,
         label="Record your own voice",
     ),

 import math
 import tempfile
+from typing import Optional, Tuple, Union
 import gradio
 import gradio.inputs
 import matplotlib.pyplot as plt
 import numpy as np
 import torch
+from icecream import ic
 from loguru import logger
+from torch import Tensor
+from torchaudio.backend.common import AudioMetaData
 from df import config
 from df.enhance import enhance, init_df, load_audio, save_audio
 from df.utils import resample
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model, df, _ = init_df()
     return clean, noise, mixture
+def load_audio_gradio(
+    audio_or_file: Union[None, str, Tuple[int, np.ndarray]], sr: int
+) -> Optional[Tuple[Tensor, AudioMetaData]]:
+    if audio_or_file is None:
+        return None
+    if isinstance(audio_or_file, str):
+        if  audio_or_file.lower()=="none":
+            return None
+        # First try default format
+        try:
+            audio, meta = load_audio(audio_or_file, sr)
+        except RuntimeError:
+            # Probably running in chrome which results in an webm/opus encoded '.wav' file - argggg
+            import shutil, os
+            audio_or_file = shutil.move(audio_or_file, os.path.splitext(audio_or_file)[0]+".opus")
+            print(audio_or_file)
+            audio, meta = load_audio(audio_or_file, sr)
+    else:
+        meta = AudioMetaData(-1, -1, -1, -1, "")
+        assert isinstance(audio_or_file, (tuple, list))
+        meta.sample_rate, audio_np = audio_or_file
+        # Gradio documentation says, the shape is [samples, 2], but apparently sometimes its not.
+        audio_np = audio_np.reshape(audio_np.shape[0], -1).T
+        if audio_np.dtype == np.int16:
+            audio_np = (audio_np / (1 << 15)).astype(np.float32)
+        elif audio_np.dtype == np.int32:
+            audio_np = (audio_np / (1 << 31)).astype(np.float32)
+        audio = resample(torch.from_numpy(audio_np), meta.sample_rate, sr)
+    return audio, meta
+def mix_and_denoise(
+    speech_rec: Union[str, Tuple[int, np.ndarray]], speech_upl: str, noise_fn: str, snr: int
+):
     sr = config("sr", 48000, int, section="df")
     logger.info(
         f"Got parameters speech_rec: {speech_rec}, speech_upl: {speech_upl}, noise: {noise_fn}, snr: {snr}"
             speech_file = speech_upl
         speech, meta = load_audio(speech_file, sr)
     else:
+        ic(speech_rec, sr)
+        tmp = load_audio_gradio(speech_rec, sr)
+        assert tmp is not None
+        speech, meta = tmp
     logger.info(f"Loaded speech with shape {speech.shape}")
     noise, _ = load_audio(noise_fn, sr)  # type: ignore
     if meta.sample_rate != sr:
 inputs = [
     gradio.inputs.Audio(
         source="microphone",
+        type="filepath",
         optional=True,
         label="Record your own voice",
     ),