sts

Running

App Files Files Community

vineelpratap commited on Jun 24, 2024

Commit

90945f2

verified ·

1 Parent(s): 114efae

Update asr.py

Browse files

Files changed (1) hide show

asr.py +6 -10

asr.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import librosa
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torch
-import json
 import numpy as np
 from huggingface_hub import hf_hub_download
@@ -52,7 +51,7 @@ model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
 #         filename=decoding_config["lexiconfile"].rsplit("/", 1)[1],
 #         subfolder=decoding_config["lexiconfile"].rsplit("/", 1)[0],
 #     )
 # beam_search_decoder = ctc_decoder(
 #     lexicon=lexicon_file,
 #     tokens=token_file,
@@ -67,20 +66,17 @@ model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
 # )
-def transcribe(audio_data, lang="eng (English)"):
     if isinstance(audio_data, tuple):
         # microphone
         sr, audio_samples = audio_data
-        audio_samples = (audio_samples/32768.0).astype(np.float)
-        print("case1", audio_samples[:5])
         assert sr == ASR_SAMPLING_RATE, "Invalid sampling rate"
     else:
         # file upload
         isinstance(audio_data, str)
-        print("case2 1", audio_data)
-        audio_samples = librosa.load(audio_fp, sr=ASR_SAMPLING_RATE, mono=True)[0]
-        print("case2", audio_samples[:5])
     lang_code = lang.split()[0]
     processor.tokenizer.set_target_lang(lang_code)
@@ -112,7 +108,7 @@ def transcribe(audio_data, lang="eng (English)"):
         ids = torch.argmax(outputs, dim=-1)[0]
         transcription = processor.decode(ids)
     else:
-        assert False
         # beam_search_result = beam_search_decoder(outputs.to("cpu"))
         # transcription = " ".join(beam_search_result[0][0].words).strip()
@@ -128,4 +124,4 @@ ASR_EXAMPLES = [
 ASR_NOTE = """
 The above demo doesn't use beam-search decoding using a language model.
 Checkout the instructions [here](https://huggingface.co/facebook/mms-1b-all) on how to run LM decoding for better accuracy.
-"""

 import librosa
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torch
 import numpy as np
 from huggingface_hub import hf_hub_download
 #         filename=decoding_config["lexiconfile"].rsplit("/", 1)[1],
 #         subfolder=decoding_config["lexiconfile"].rsplit("/", 1)[0],
 #     )
 # beam_search_decoder = ctc_decoder(
 #     lexicon=lexicon_file,
 #     tokens=token_file,
 # )
+def transcribe(audio_data, lang="eng (English)"):
     if isinstance(audio_data, tuple):
         # microphone
         sr, audio_samples = audio_data
+        audio_samples = (audio_samples / 32768.0).astype(np.float)
         assert sr == ASR_SAMPLING_RATE, "Invalid sampling rate"
     else:
         # file upload
         isinstance(audio_data, str)
+        audio_samples = librosa.load(audio_data, sr=ASR_SAMPLING_RATE, mono=True)[0]
     lang_code = lang.split()[0]
     processor.tokenizer.set_target_lang(lang_code)
         ids = torch.argmax(outputs, dim=-1)[0]
         transcription = processor.decode(ids)
     else:
+        assert False
         # beam_search_result = beam_search_decoder(outputs.to("cpu"))
         # transcription = " ".join(beam_search_result[0][0].words).strip()
 ASR_NOTE = """
 The above demo doesn't use beam-search decoding using a language model.
 Checkout the instructions [here](https://huggingface.co/facebook/mms-1b-all) on how to run LM decoding for better accuracy.
+"""