Spaces:

owaski-demo
/

Demo

Sleeping

chinmaydan commited on Feb 27, 2023

Commit

f370e2a

1 Parent(s): d37215e

changed froom large model to medium

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,24 @@ model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-medium")
 model.config.forced_decoder_ids = None
 def predict(audio, mic_audio=None):
     # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))

 model.config.forced_decoder_ids = None
+def process_audio(sampling_rate, waveform):
+    # convert from int16 to floating point
+    waveform = waveform / 32678.0
+    # convert to mono if stereo
+    if len(waveform.shape) > 1:
+        waveform = librosa.to_mono(waveform.T)
+    # resample to 16 kHz if necessary
+    if sampling_rate != 16000:
+        waveform = librosa.resample(waveform, orig_sr=sampling_rate, target_sr=16000)
+    # limit to 30 seconds
+    waveform = waveform[:16000*30]
+    # make PyTorch tensor
+    waveform = torch.tensor(waveform)
+    return waveform
 def predict(audio, mic_audio=None):
     # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))