Spaces:

teticio
/

audio-diffusion

Runtime error

App Files Files Community

teticio commited on Dec 2, 2022

Commit

d80e37b

1 Parent(s): f30235e

fix audio loading

Browse files

Files changed (1) hide show

notebooks/test_model.ipynb +7 -6

notebooks/test_model.ipynb CHANGED Viewed

@@ -46,6 +46,7 @@
    "source": [
     "import torch\n",
     "import random\n",
     "import numpy as np\n",
     "from datasets import load_dataset\n",
     "from IPython.display import Audio\n",
@@ -266,8 +267,8 @@
    "source": [
     "start_step = 500  #@param {type:\"slider\", min:0, max:1000, step:10}\n",
     "overlap_secs = 2  #@param {type:\"integer\"}\n",
-    "mel.load_audio(audio_file)\n",
-    "overlap_samples = overlap_secs * mel.get_sample_rate()\n",
     "slice_size = mel.x_res * mel.hop_length\n",
     "stride = slice_size - overlap_samples\n",
     "generator = torch.Generator(device=device)\n",
@@ -275,9 +276,9 @@
     "print(f'Seed = {seed}')\n",
     "track = np.array([])\n",
     "not_first = 0\n",
-    "for sample in range(len(mel.audio) // stride):\n",
     "    generator.manual_seed(seed)\n",
-    "    audio = np.array(mel.audio[sample * stride:sample * stride + slice_size])\n",
     "    if not_first:\n",
     "        # Normalize and re-insert generated audio\n",
     "        audio[:overlap_samples] = audio2[-overlap_samples:] * np.max(\n",
@@ -309,7 +310,7 @@
    "outputs": [],
    "source": [
     "slice = 3  #@param {type:\"integer\"}\n",
-    "raw_audio = mel.get_audio_slice(slice)\n",
     "_, (sample_rate,\n",
     "    audio2) = audio_diffusion.generate_spectrogram_and_audio_from_audio(\n",
     "        raw_audio=raw_audio,\n",
@@ -507,7 +508,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "model_id = \"teticio/latent-audio-diffusion-ddim-256-new\"  #@param [\"teticio/latent-audio-diffusion-256\", \"teticio/latent-audio-diffusion-ddim-256\"]"
    ]
   },
   {

    "source": [
     "import torch\n",
     "import random\n",
+    "import librosa\n",
     "import numpy as np\n",
     "from datasets import load_dataset\n",
     "from IPython.display import Audio\n",
    "source": [
     "start_step = 500  #@param {type:\"slider\", min:0, max:1000, step:10}\n",
     "overlap_secs = 2  #@param {type:\"integer\"}\n",
+    "track_audio, _ = librosa.load(audio_file, mono=True, sr=sample_rate)\n",
+    "overlap_samples = overlap_secs * sample_rate\n",
     "slice_size = mel.x_res * mel.hop_length\n",
     "stride = slice_size - overlap_samples\n",
     "generator = torch.Generator(device=device)\n",
     "print(f'Seed = {seed}')\n",
     "track = np.array([])\n",
     "not_first = 0\n",
+    "for sample in range(len(track_audio) // stride):\n",
     "    generator.manual_seed(seed)\n",
+    "    audio = np.array(track_audio[sample * stride:sample * stride + slice_size])\n",
     "    if not_first:\n",
     "        # Normalize and re-insert generated audio\n",
     "        audio[:overlap_samples] = audio2[-overlap_samples:] * np.max(\n",
    "outputs": [],
    "source": [
     "slice = 3  #@param {type:\"integer\"}\n",
+    "raw_audio = track_audio[sample * stride:sample * stride + slice_size]\n",
     "_, (sample_rate,\n",
     "    audio2) = audio_diffusion.generate_spectrogram_and_audio_from_audio(\n",
     "        raw_audio=raw_audio,\n",
    "metadata": {},
    "outputs": [],
    "source": [
+    "model_id = \"teticio/latent-audio-diffusion-ddim-256\"  #@param [\"teticio/latent-audio-diffusion-256\", \"teticio/latent-audio-diffusion-ddim-256\"]"
    ]
   },
   {