openai_whisper_stt

Runtime error

App Files Files Community

anzorq commited on Oct 9, 2022

Commit

9b33f31

1 Parent(s): d411901

Update app.py

Browse files

load lang list dynamically from tokenizer

Files changed (1) hide show

app.py +9 -37

app.py CHANGED Viewed

@@ -1,9 +1,11 @@
 import os
 import gradio as gr
 import whisper
 import time
 model = whisper.load_model("base")
 def transcribe(audio, state={}, delay=0.2, lang=None, translate=False):
     time.sleep(delay)
@@ -31,43 +33,13 @@ title = "OpenAI's Whisper Real-time Demo"
 description = "A simple demo of OpenAI's [**Whisper**](https://github.com/openai/whisper) speech recognition model."
 delay_slider = gr.inputs.Slider(minimum=0, maximum=5, default=0.2, label="Rate of transcription (1 sec + this value)")
-lang_dropdown = gr.inputs.Dropdown(choices=["auto", "english", "afrikaans",
-                                            "albanian", "amharic", "arabic",
-                                            "armenian", "assamese", "azerbaijani",
-                                            "bashkir", "basque", "belarusian",
-                                            "bengali", "bosnian", "breton",
-                                            "bulgarian", "catalan", "chinese",
-                                            "croatian", "czech", "danish",
-                                            "dutch", "estonian", "faroese",
-                                            "finnish", "french", "galician",
-                                            "georgian", "german", "greek",
-                                            "gujarati", "haitian creole", "hausa",
-                                            "hawaiian", "hebrew", "hindi",
-                                            "hungarian", "icelandic", "indonesian",
-                                            "italian", "japanese", "javanese",
-                                            "kannada", "kazakh", "khmer",
-                                            "korean", "kyrgyz", "lao",
-                                            "latin", "latvian", "lingala",
-                                            "lithuanian", "luxembourgish", "macedonian",
-                                            "malagasy", "malay", "malayalam",
-                                            "maltese", "maori", "marathi",
-                                            "mongolian", "myanmar", "nepali",
-                                            "norwegian", "nyanja", "nynorsk",
-                                            "occitan", "oriya", "pashto",
-                                            "persian", "polish", "portuguese",
-                                            "punjabi", "romanian", "russian",
-                                            "sanskrit", "sardinian", "serbian",
-                                            "shona", "sindhi", "sinhala",
-                                            "slovak", "slovenian", "somali",
-                                            "spanish", "sundanese", "swahili",
-                                            "swedish", "tagalog", "tajik",
-                                            "tamil", "tatar", "telugu",
-                                            "thai", "tigrinya", "tibetan",
-                                            "turkish", "turkmen", "ukrainian",
-                                            "urdu", "uzbek", "vietnamese",
-                                            "welsh", "xhosa", "yiddish",
-                                            "yoruba"],
-                                   label="Language", default="auto", type="value")
 translate_checkbox = gr.inputs.Checkbox(label="Translate to English", default=False)

 import os
 import gradio as gr
 import whisper
+from whisper import tokenizer
 import time
 model = whisper.load_model("base")
+AUTO_DETECT_LANG = "Auto Detect"
 def transcribe(audio, state={}, delay=0.2, lang=None, translate=False):
     time.sleep(delay)
 description = "A simple demo of OpenAI's [**Whisper**](https://github.com/openai/whisper) speech recognition model."
 delay_slider = gr.inputs.Slider(minimum=0, maximum=5, default=0.2, label="Rate of transcription (1 sec + this value)")
+available_languages = sorted(tokenizer.TO_LANGUAGE_CODE.keys())
+available_languages = [AUTO_DETECT_LANG]+available_languages
+lang_dropdown = gr.inputs.Dropdown(choices=available_languages, label="Language", default=AUTO_DETECT_LANG, type="value")
+if lang_dropdown==AUTO_DETECT_LANG:
+    lang_dropdown=None
 translate_checkbox = gr.inputs.Checkbox(label="Translate to English", default=False)