Spaces:

owaski-demo
/

Demo

Sleeping

chinmaydan commited on Feb 27, 2023

Commit

b6907f5

1 Parent(s): ed9aac5

Trying a commit

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-import librosa
 import torch
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
@@ -9,24 +9,6 @@ model = SpeechT5ForSpeechToText.from_pretrained("openai/whisper-large")
 model.config.forced_decoder_ids = WhisperProcessor.get_decoder_prompt_ids(language="english", task="transcribe")
-def process_audio(sampling_rate, waveform):
-    # convert from int16 to floating point
-    waveform = waveform / 32678.0
-    # convert to mono if stereo
-    if len(waveform.shape) > 1:
-        waveform = librosa.to_mono(waveform.T)
-    # resample to 16 kHz if necessary
-    if sampling_rate != 16000:
-        waveform = librosa.resample(waveform, orig_sr=sampling_rate, target_sr=16000)
-    # limit to 30 seconds
-    waveform = waveform[:16000*30]
-    # make PyTorch tensor
-    waveform = torch.tensor(waveform)
-    return waveform
 def predict(audio, mic_audio=None):
     # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))

 import gradio as gr
+#import librosa
 import torch
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 model.config.forced_decoder_ids = WhisperProcessor.get_decoder_prompt_ids(language="english", task="transcribe")
 def predict(audio, mic_audio=None):
     # audio = tuple (sample_rate, frames) or (sample_rate, (frames, channels))