Spaces:

DigitalUmuganda
/

Kinyarwanda_ASR_with_Amasaku

Running

Kleber commited on Jun 20, 2024

Commit

681b48e

verified ·

1 Parent(s): 54e1781

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import nemo.collections.asr as nemo_asr
 import gradio as gr
 import pandas as pd
 asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="stt_rw_conformer_ctc_large")
 df = pd.read_csv("amasaku_data.tsv",sep='\t')
@@ -12,8 +13,14 @@ def transcribe(file):
     #if not audio:
     #    return {state_var: state, transcription_var: state}
-    print("filename: ",file)
-    transcription= asr_model.transcribe([file])
     transcription = transcription[0].lower().split()
     transcribed_with_amasaku = []
     for word in transcription:

 import nemo.collections.asr as nemo_asr
 import gradio as gr
 import pandas as pd
+from pydub import AudioSegment
 asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="stt_rw_conformer_ctc_large")
 df = pd.read_csv("amasaku_data.tsv",sep='\t')
     #if not audio:
     #    return {state_var: state, transcription_var: state}
+    #print("filename: ",file)
+    try:
+        audio = AudioSegment.from_file(file).set_frame_rate(16000).set_channels(1)
+        new_file_name = file.split(".")[0]+".wav"
+        audio.export(new_file_name,format)
+    except Exception as e:
+        print(e)
+    transcription= asr_model.transcribe([new_file_name])
     transcription = transcription[0].lower().split()
     transcribed_with_amasaku = []
     for word in transcription: