Spaces:

ixxan
/

uyghur-speech-models

Running

Irpan commited on Dec 22, 2024

Commit

70da837

1 Parent(s): cafc4cf

asr

Files changed (1) hide show

asr.py CHANGED Viewed

@@ -32,11 +32,11 @@ models_info = {
         "model": AutoModelForCTC.from_pretrained("facebook/mms-1b-all", target_lang='uig-script_arabic', ignore_mismatched_sizes=True),
         "ctc_model": True
     },
-    # "ixxan/wav2vec2-large-mms-1b-uyghur-latin": {
-    #     "processor": Wav2Vec2Processor.from_pretrained("ixxan/wav2vec2-large-mms-1b-uyghur-latin", target_lang='uig-script_latin'),
-    #     "model": Wav2Vec2ForCTC.from_pretrained("ixxan/wav2vec2-large-mms-1b-uyghur-latin"),
-    #     "ctc_model": True
-    # },
 }
 def transcribe(audio_data, model_id) -> str:
@@ -76,7 +76,7 @@ def transcribe(audio_data, model_id) -> str:
         audio_input = resampler(audio_input)
     # Preprocess the audio input
-    inputs = processor(audio_input.squeeze(), sampling_rate=target_sr, return_tensors="pt", padding=True)
     # Move model to GPU if available
     device = "cuda" if torch.cuda.is_available() else "cpu"

         "model": AutoModelForCTC.from_pretrained("facebook/mms-1b-all", target_lang='uig-script_arabic', ignore_mismatched_sizes=True),
         "ctc_model": True
     },
+    "ixxan/wav2vec2-large-mms-1b-uyghur-latin": {
+        "processor": Wav2Vec2Processor.from_pretrained("ixxan/wav2vec2-large-mms-1b-uyghur-latin", target_lang='uig-script_latin'),
+        "model": Wav2Vec2ForCTC.from_pretrained("ixxan/wav2vec2-large-mms-1b-uyghur-latin", target_lang='uig-script_latin'),
+        "ctc_model": True
+    },
 }
 def transcribe(audio_data, model_id) -> str:
         audio_input = resampler(audio_input)
     # Preprocess the audio input
+    inputs = processor(audio_input.squeeze(), sampling_rate=target_sr, return_tensors="pt")
     # Move model to GPU if available
     device = "cuda" if torch.cuda.is_available() else "cpu"