Spaces:

DebasishDhal99
/

all-in-one-translation

Running

DebasishDhal99 commited on Jan 31

Commit

1571261

1 Parent(s): 5d4c1da

Add model size options for whisper

Files changed (2) hide show

app.py CHANGED Viewed

@@ -45,7 +45,12 @@ description_audio = "Upload an audio file to extract text and translate it to En
 audio_interface = gr.Interface(
     fn=src_audio_to_eng_translator,
-    inputs=gr.Audio(label="Upload an Audio file", type="filepath"),
     outputs=gr.Textbox(label="Translated Text in English"),
     title=heading_audio,
     description=description_audio

 audio_interface = gr.Interface(
     fn=src_audio_to_eng_translator,
+    inputs=[gr.Audio(label="Upload an Audio file", type="filepath"),
+            gr.Dropdown(
+            choices=["turbo", "base", "tiny", "small", "medium", "large"],
+            label="Select Whisper Model size",
+        )
+            ],
     outputs=gr.Textbox(label="Translated Text in English"),
     title=heading_audio,
     description=description_audio

backend/audio_to_tgt.py CHANGED Viewed

@@ -10,10 +10,10 @@ def audio_to_numpy(audio_file_input):
     return samples / np.iinfo(audio.array_type).max
-def src_audio_to_eng_translator(audio_file_input):
     audio_data = audio_to_numpy(audio_file_input)
-    model = whisper.load_model("turbo")
     result = model.transcribe(audio_data)
     translated_text = GoogleTranslator(source='auto', target='en').translate(result["text"])

     return samples / np.iinfo(audio.array_type).max
+def src_audio_to_eng_translator(audio_file_input, model_size = "turbo"):
     audio_data = audio_to_numpy(audio_file_input)
+    model = whisper.load_model(model_size)
     result = model.transcribe(audio_data)
     translated_text = GoogleTranslator(source='auto', target='en').translate(result["text"])