Spaces:

Norphel
/

s2s_translation_dz_en

Runtime error

Norphel commited on Feb 6

Commit

93df753

verified ·

1 Parent(s): 27ddc0e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,15 +2,19 @@ import numpy as np
 import gradio as gr
 from transformers import Wav2Vec2ForCTC,Wav2Vec2Processor
-# asr_model_id = "Norphel/wav2vec2-large-mms-1b-dzo-colab"
-# asr_model = Wav2Vec2ForCTC.from_pretrained(asr_model_id, target_lang="dzo")
-# asr_processor = Wav2Vec2Processor.from_pretrained(asr_model_id)
-# asr_processor.tokenizer.set_target_lang("dzo")
 def generate_text(audio):
     sr, data = audio
     print(data)
-    return (sr, np.flipud(data))
 input_audio = gr.Audio(
     sources=["microphone"],
@@ -22,9 +26,9 @@ input_audio = gr.Audio(
     ),
 )
 demo = gr.Interface(
-    fn=reverse_audio,
     inputs=input_audio,
-    outputs="audio"
 )
 if __name__ == "__main__":

 import gradio as gr
 from transformers import Wav2Vec2ForCTC,Wav2Vec2Processor
+asr_model_id = "Norphel/wav2vec2-large-mms-1b-dzo-colab"
+asr_model = Wav2Vec2ForCTC.from_pretrained(asr_model_id, target_lang="dzo")
+asr_processor = Wav2Vec2Processor.from_pretrained(asr_model_id)
+asr_processor.tokenizer.set_target_lang("dzo")
 def generate_text(audio):
     sr, data = audio
     print(data)
+    input_dict = asr_processor(aud_arr, sampling_rate=16_000, return_tensors="pt", padding=True)
+    logits = asr_model(input_dict.input_values.to("cuda")).logits
+    pred_ids = torch.argmax(logits, dim=-1)[0]
+    return asr_processor.decode(pred_ids)
 input_audio = gr.Audio(
     sources=["microphone"],
     ),
 )
 demo = gr.Interface(
+    fn=generate_text,
     inputs=input_audio,
+    outputs="text"
 )
 if __name__ == "__main__":