vepp-whispering

Runtime error

anzorq commited on Oct 14, 2022

Commit

492c47b

1 Parent(s): 2bf0c14

+ moel size selection

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,12 +4,17 @@ import whisper
 from whisper import tokenizer
 import time
-model = whisper.load_model("base")
 AUTO_DETECT_LANG = "Auto Detect"
-def transcribe(audio, state={}, delay=1.2, lang=None, translate=False):
     time.sleep(delay - 1)
     transcription = model.transcribe(
         audio,
         language = lang if lang != AUTO_DETECT_LANG else None
@@ -27,11 +32,13 @@ def transcribe(audio, state={}, delay=1.2, lang=None, translate=False):
         state['translation'] += translation.text + " "
     return state['transcription'], state['translation'], state, f"detected language: {transcription['language']}"
 title = "OpenAI's Whisper Real-time Demo"
 description = "A simple demo of OpenAI's [**Whisper**](https://github.com/openai/whisper) speech recognition model."
 delay_slider = gr.inputs.Slider(minimum=1, maximum=5, default=1.2, label="Rate of transcription")
 available_languages = sorted(tokenizer.TO_LANGUAGE_CODE.keys())
@@ -58,6 +65,7 @@ gr.Interface(
     inputs=[
         gr.Audio(source="microphone", type="filepath", streaming=True),
         state,
         delay_slider,
         lang_dropdown,
         translate_checkbox

 from whisper import tokenizer
 import time
+current_size = 'base'
+model = whisper.load_model(current_size)
 AUTO_DETECT_LANG = "Auto Detect"
+def transcribe(audio, state={}, model_size='base', delay=1.2, lang=None, translate=False):
     time.sleep(delay - 1)
+    if model_size != current_size:
+        model = whisper.load_model(model_size)
+        current_size = model_size
     transcription = model.transcribe(
         audio,
         language = lang if lang != AUTO_DETECT_LANG else None
         state['translation'] += translation.text + " "
     return state['transcription'], state['translation'], state, f"detected language: {transcription['language']}"
 title = "OpenAI's Whisper Real-time Demo"
 description = "A simple demo of OpenAI's [**Whisper**](https://github.com/openai/whisper) speech recognition model."
+model_size = gr.Dropdown(label="Model size", choices=['base', 'tiny', 'small', 'medium', 'large'], value='base')
 delay_slider = gr.inputs.Slider(minimum=1, maximum=5, default=1.2, label="Rate of transcription")
 available_languages = sorted(tokenizer.TO_LANGUAGE_CODE.keys())
     inputs=[
         gr.Audio(source="microphone", type="filepath", streaming=True),
         state,
+        model_size,
         delay_slider,
         lang_dropdown,
         translate_checkbox