Spaces:

oza75
/

bambara-asr

Sleeping

App Files Files Community

oza75 commited on Feb 1

Commit

3b2d585

1 Parent(s): dbf668e

add multiples language choice

Browse files

Files changed (1) hide show

app.py +8 -4

app.py CHANGED Viewed

@@ -38,13 +38,14 @@ revision = None
 #language = "swahili"
 model_checkpoint = "oza75/bm-whisper-large-turbo-v4"
-language = "sundanese"
 # Load the custom tokenizer designed for Bambara and the ASR model
 #tokenizer = BambaraWhisperTokenizer.from_pretrained(model_checkpoint, language=language, device=device)
-tokenizer = WhisperTokenizer.from_pretrained(model_checkpoint, language=language, device=device)
 pipe = pipeline("automatic-speech-recognition", model=model_checkpoint, tokenizer=tokenizer, device=device, revision=revision)
 def resample_audio(audio_path, target_sample_rate=16000):
     """
@@ -66,7 +67,7 @@ def resample_audio(audio_path, target_sample_rate=16000):
     return waveform, target_sample_rate
 @spaces.GPU()
-def transcribe(audio, task_type):
     """
     Transcribes the provided audio file into text using the configured ASR pipeline.
@@ -79,6 +80,8 @@ def transcribe(audio, task_type):
     # Convert the audio to 16000 Hz
     waveform, sample_rate = resample_audio(audio)
     # Use the pipeline to perform transcription
     sample = {"array": waveform.squeeze().numpy(), "sampling_rate": sample_rate}
     text = pipe(sample, generate_kwargs={"task": task_type, "language": language})["text"]
@@ -99,7 +102,7 @@ def get_wav_files(directory):
     files = os.listdir(directory)
     # Filter for .wav files and create absolute paths
     wav_files = [os.path.abspath(os.path.join(directory, file)) for file in files if file.endswith('.wav')]
-    wav_files = [[f, "transcribe"] for f in wav_files]
     return wav_files
@@ -112,6 +115,7 @@ def main():
         fn=transcribe,
         inputs=[
             gr.Audio(type="filepath", value=example_files[0][0]),
             gr.Radio(choices=["transcribe"], label="Task Type", value="transcribe")
         ],
         outputs="text",

 #language = "swahili"
 model_checkpoint = "oza75/bm-whisper-large-turbo-v4"
+# language = "sundanese"
 # Load the custom tokenizer designed for Bambara and the ASR model
 #tokenizer = BambaraWhisperTokenizer.from_pretrained(model_checkpoint, language=language, device=device)
+tokenizer = WhisperTokenizer.from_pretrained(model_checkpoint, device=device)
 pipe = pipeline("automatic-speech-recognition", model=model_checkpoint, tokenizer=tokenizer, device=device, revision=revision)
+LANGUAGES = {"bambara": "sundanese", "french": "french", "english": "english"}
 def resample_audio(audio_path, target_sample_rate=16000):
     """
     return waveform, target_sample_rate
 @spaces.GPU()
+def transcribe(audio, task_type, language):
     """
     Transcribes the provided audio file into text using the configured ASR pipeline.
     # Convert the audio to 16000 Hz
     waveform, sample_rate = resample_audio(audio)
+    language = LANGUAGES[language]
     # Use the pipeline to perform transcription
     sample = {"array": waveform.squeeze().numpy(), "sampling_rate": sample_rate}
     text = pipe(sample, generate_kwargs={"task": task_type, "language": language})["text"]
     files = os.listdir(directory)
     # Filter for .wav files and create absolute paths
     wav_files = [os.path.abspath(os.path.join(directory, file)) for file in files if file.endswith('.wav')]
+    wav_files = [[f, "transcribe", "bambara"] for f in wav_files]
     return wav_files
         fn=transcribe,
         inputs=[
             gr.Audio(type="filepath", value=example_files[0][0]),
+            gr.Dropdown(choices=LANGUAGES.keys(), label="Language", value="bambara"),
             gr.Radio(choices=["transcribe"], label="Task Type", value="transcribe")
         ],
         outputs="text",