Spaces:

Tamerstito
/

translate-audio

Sleeping

Tamerstito commited on Mar 27

Commit

dc41b9b

verified ·

1 Parent(s): 5596c16

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,19 @@
-from nemo.collections.asr.models import EncDecMultiTaskModel
-# load model
-canary_model = EncDecMultiTaskModel.from_pretrained('nvidia/canary-1b-flash')
-# update decode params
-decode_cfg = canary_model.cfg.decoding
-decode_cfg.beam.beam_size = 1
-canary_model.change_decoding_strategy(decode_cfg)

+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+from datasets import load_dataset
+# load model and processor
+processor = WhisperProcessor.from_pretrained("openai/whisper-base")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
+model.config.forced_decoder_ids = None
+# load dummy dataset and read audio files
+ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
+sample = ds[0]["audio"]
+input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
+# generate token ids
+predicted_ids = model.generate(input_features)
+# decode token ids to text
+transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
+transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)