Spaces:

oniati
/

mrt

Runtime error

App Files Files Community

oniati commited on May 13, 2024

Commit

f88fd30

verified ·

1 Parent(s): 23bd4c2

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -13

app.py CHANGED Viewed

@@ -68,12 +68,10 @@ os.system("gsutil -q -m cp gs://magentadata/soundfonts/SGM-v2.01-Sal-Guit-Bass-V
 import functools
 import os
 import numpy as np
 import tensorflow.compat.v2 as tf
 import functools
@@ -85,24 +83,28 @@ import seqio
 import t5
 import t5x
-from mt3 import spectrograms
-from mt3 import vocabularies
 from mt3 import metrics_utils
 from mt3 import models
 from mt3 import network
 from mt3 import note_sequences
 from mt3 import preprocessors
 import nest_asyncio
 nest_asyncio.apply()
 SF2_PATH = 'SGM-v2.01-Sal-Guit-Bass-V1.3.sf2'
-def upload_audio(audio, sample_rate):
   return note_seq.audio_io.wav_data_to_samples_librosa(
-    audio, sample_rate=sample_rate)
@@ -123,16 +125,16 @@ class InferenceModel(object):
     else:
       raise ValueError('unknown model_type: %s' % model_type)
-    gin_files = ['/home/user/app/mt3/gin/model.gin',
-                 '/home/user/app/mt3/gin/mt3.gin']
     self.batch_size = 8
     self.outputs_length = 1024
-    self.sequence_length = {'inputs': self.inputs_length,
                             'targets': self.outputs_length}
     self.partitioner = t5x.partitioning.PjitPartitioner(
-        model_parallel_submesh=None, num_partitions=1)
     # Build Codecs and Vocabularies.
     self.spectrogram_config = spectrograms.SpectrogramConfig()
@@ -221,9 +223,10 @@ class InferenceModel(object):
   def __call__(self, audio):
     """Infer note sequence from audio samples.
     Args:
       audio: 1-d numpy array of audio samples (16kHz) for a single example.
     Returns:
       A note_sequence of the transcribed audio.
     """
@@ -312,6 +315,7 @@ class InferenceModel(object):
 inference_model = InferenceModel('/home/user/app/checkpoints/mt3/', 'mt3')

 import functools
 import os
 import numpy as np
 import tensorflow.compat.v2 as tf
 import functools
 import t5
 import t5x
 from mt3 import metrics_utils
 from mt3 import models
 from mt3 import network
 from mt3 import note_sequences
 from mt3 import preprocessors
+from mt3 import spectrograms
+from mt3 import vocabularies
 import nest_asyncio
 nest_asyncio.apply()
+SAMPLE_RATE = 16000
 SF2_PATH = 'SGM-v2.01-Sal-Guit-Bass-V1.3.sf2'
+def upload_audio(sample_rate):
+  data = list(files.upload().values())
+  if len(data) > 1:
+    print('Multiple files uploaded; using only one.')
   return note_seq.audio_io.wav_data_to_samples_librosa(
+    data[0], sample_rate=sample_rate)
     else:
       raise ValueError('unknown model_type: %s' % model_type)
+    gin_files = ['/content/mt3/gin/model.gin',
+                 f'/content/mt3/gin/{model_type}.gin']
     self.batch_size = 8
     self.outputs_length = 1024
+    self.sequence_length = {'inputs': self.inputs_length,
                             'targets': self.outputs_length}
     self.partitioner = t5x.partitioning.PjitPartitioner(
+        num_partitions=1)
     # Build Codecs and Vocabularies.
     self.spectrogram_config = spectrograms.SpectrogramConfig()
   def __call__(self, audio):
     """Infer note sequence from audio samples.
     Args:
       audio: 1-d numpy array of audio samples (16kHz) for a single example.
     Returns:
       A note_sequence of the transcribed audio.
     """
 inference_model = InferenceModel('/home/user/app/checkpoints/mt3/', 'mt3')