Spaces:

ixxan
/

uyghur-speech-models

Running

ixxan commited on Nov 24, 2024

Commit

7a0f405

verified ·

1 Parent(s): 64601f3

Update asr.py

Files changed (1) hide show

asr.py CHANGED Viewed

@@ -1,24 +1,38 @@
 import torchaudio
 import torch
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 # Load processor and model
 processor = AutoProcessor.from_pretrained("ixxan/whisper-small-ug-cv-15")
 model = AutoModelForSpeechSeq2Seq.from_pretrained("ixxan/whisper-small-ug-cv-15")
-def transcribe(audio_data: tuple) -> str:
     """
     Transcribes audio to text using the Whisper model for Uyghur.
     Args:
-    - audio_data (tuple): Gradio audio input (file path and sample rate).
     Returns:
     - str: The transcription of the audio.
     """
-    audio_path = audio_data[0]  # Extract the file path from the tuple
     # Load audio file
-    audio_input, sampling_rate = torchaudio.load(audio_path)
     # Resample if needed
     if sampling_rate != processor.feature_extractor.sampling_rate:

 import torchaudio
 import torch
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+import numpy as np
 # Load processor and model
 processor = AutoProcessor.from_pretrained("ixxan/whisper-small-ug-cv-15")
 model = AutoModelForSpeechSeq2Seq.from_pretrained("ixxan/whisper-small-ug-cv-15")
+def transcribe(audio_data) -> str:
     """
     Transcribes audio to text using the Whisper model for Uyghur.
     Args:
+    - audio_data: Gradio audio input
     Returns:
     - str: The transcription of the audio.
     """
     # Load audio file
+    if not audio_data:
+        return "<<ERROR: Empty Audio Input>>"
+    if isinstance(audio_data, tuple):
+        # microphone
+        sampling_rate, audio_input = audio_data
+        audio_input = (audio_input / 32768.0).astype(np.float32)
+    if isinstance(audio_data, str):
+        # file upload
+        audio_input, sampling_rate = torchaudio.load(audio_data)
+    else:
+        return "<<ERROR: Invalid Audio Input Instance: {}>>".format(type(audio_data))
     # Resample if needed
     if sampling_rate != processor.feature_extractor.sampling_rate: