Spaces:

LuisG07
/

ASR-Spanish

Sleeping

LuisG07 commited on May 8, 2022

Commit

34e7595

1 Parent(s): 577c3f8

fix numpy conversion

Files changed (1) hide show

app.py CHANGED Viewed

@@ -34,7 +34,7 @@ def predict_and_ctc_lm_decode(input_file, model_name):
   input_values = processor(speech, return_tensors="pt", sampling_rate=16000).input_values
   logits = model(input_values).logits.cpu().detach().numpy()[0]
-  pred = processor.batch_decode(logits.numpy()).text
   transcribed_text = fix_transcription_casing(pred[0].lower())
@@ -59,11 +59,11 @@ def return_all_predictions(input_file, model_name):
 gr.Interface(return_all_predictions,
-             inputs = [gr.inputs.Audio(source="microphone", type="filepath", label="Record/ Drop audio"), gr.inputs.Dropdown(["jonatasgrosman/wav2vec2-large-xlsr-53-spanish", "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"], label="Model Name")],
              outputs = [gr.outputs.Textbox(label="Beam CTC decoding w/ LM"), gr.outputs.Textbox(label="Greedy decoding")],
              title="ASR using Wav2Vec2 & pyctcdecode in spanish",
              description = "Comparing greedy decoder with beam search CTC decoder, record/ drop your audio!",
              layout = "horizontal",
-             examples = [["test1.wav", "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"], ["test2.wav", "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"]],
              theme="huggingface",
              enable_queue=True).launch()

   input_values = processor(speech, return_tensors="pt", sampling_rate=16000).input_values
   logits = model(input_values).logits.cpu().detach().numpy()[0]
+  pred = processor.batch_decode(logits).text
   transcribed_text = fix_transcription_casing(pred[0].lower())
 gr.Interface(return_all_predictions,
+             inputs = [gr.inputs.Audio(source="microphone", type="filepath", label="Record/ Drop audio"), gr.inputs.Dropdown(["jonatasgrosman/wav2vec2-large-xlsr-53-spanish", "jonatasgrosman/wav2vec2-xls-r-1b-spanish"], label="Model Name")],
              outputs = [gr.outputs.Textbox(label="Beam CTC decoding w/ LM"), gr.outputs.Textbox(label="Greedy decoding")],
              title="ASR using Wav2Vec2 & pyctcdecode in spanish",
              description = "Comparing greedy decoder with beam search CTC decoder, record/ drop your audio!",
              layout = "horizontal",
+             examples = [["test1.wav", "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"], ["test2.wav", "jonatasgrosman/wav2vec2-xls-r-1b-spanish"]],
              theme="huggingface",
              enable_queue=True).launch()