Spaces:

nvidia
/

multilingual-voice-4B-demo

Runtime error

App Files Files Community

huckiyang commited on Mar 11

Commit

00839fe

1 Parent(s): 0304b8c

[zh] add options for zh

Browse files

Files changed (2) hide show

app.py +87 -12
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -26,6 +26,17 @@ try:
         subprocess.check_call([sys.executable, "-m", "pip", "install", "-U", "espnet_model_zoo"])
         import espnet_model_zoo
         print("espnet_model_zoo installed successfully.")
 except ModuleNotFoundError as e:
     missing_module = str(e).split("'")[1]
     print(f"Installing missing module: {missing_module}")
@@ -48,6 +59,15 @@ except ModuleNotFoundError as e:
             print("Installing espnet_model_zoo. This may take a few minutes...")
             subprocess.check_call([sys.executable, "-m", "pip", "install", "-U", "espnet_model_zoo"])
             import espnet_model_zoo
         print("All required packages installed successfully.")
     except ModuleNotFoundError as e:
         print(f"Failed to install {str(e).split('No module named ')[1]}. Please install manually.")
@@ -121,8 +141,29 @@ def transcribe_english(audio_file):
     return transcribe_audio(audio_file, "<eng>")
 # Function to handle Chinese transcription
-def transcribe_chinese(audio_file):
-    return transcribe_audio(audio_file, "<zho>")
 # Function to handle Japanese transcription
 def transcribe_japanese(audio_file):
@@ -186,6 +227,24 @@ with demo:
                 value="English"
             )
             with gr.Row():
                 with gr.Column():
                     mic_input = gr.Audio(sources=["microphone"], type="filepath", label="Record Audio")
@@ -200,7 +259,7 @@ with demo:
                 mic_feedback_btn = gr.Button("Submit Feedback")
             mic_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
-            def transcribe_mic(audio, lang):
                 lang_map = {
                     "English": "<eng>",
                     "Mandarin": "<zho>",
@@ -210,18 +269,23 @@ with demo:
                     "Italian": "<ita>",
                     "German": "<deu>"
                 }
                 return transcribe_audio(audio, lang_map.get(lang, "<eng>"))
-            mic_button.click(fn=transcribe_mic, inputs=[mic_input, language_mic], outputs=mic_output)
             # Add feedback submission function
-            def submit_mic_feedback(transcription, rating, language):
                 lang_name = language  # Already a string like "English"
-                return save_feedback(transcription, rating, lang_name)
             mic_feedback_btn.click(
                 fn=submit_mic_feedback,
-                inputs=[mic_output, mic_rating, language_mic],
                 outputs=mic_feedback_msg
             )
@@ -260,6 +324,13 @@ with demo:
             )
         with gr.TabItem("Mandarin"):
             with gr.Row():
                 with gr.Column():
                     zh_input = gr.Audio(sources=["upload"], type="filepath", label="Upload Audio")
@@ -281,15 +352,19 @@ with demo:
                     inputs=zh_input
                 )
-            zh_button.click(fn=transcribe_chinese, inputs=zh_input, outputs=zh_output)
-            # Add feedback submission
-            def submit_zh_feedback(transcription, rating, audio_path):
-                return save_feedback(transcription, rating, "Mandarin", audio_path)
             zh_feedback_btn.click(
                 fn=submit_zh_feedback,
-                inputs=[zh_output, zh_rating, zh_input],
                 outputs=zh_feedback_msg
             )

         subprocess.check_call([sys.executable, "-m", "pip", "install", "-U", "espnet_model_zoo"])
         import espnet_model_zoo
         print("espnet_model_zoo installed successfully.")
+    # Check for opencc-python-reimplemented
+    try:
+        from opencc import OpenCC
+        print("OpenCC already installed.")
+    except ModuleNotFoundError:
+        print("Installing opencc-python-reimplemented. This may take a moment...")
+        subprocess.check_call([sys.executable, "-m", "pip", "install", "opencc-python-reimplemented"])
+        from opencc import OpenCC
+        print("OpenCC installed successfully.")
 except ModuleNotFoundError as e:
     missing_module = str(e).split("'")[1]
     print(f"Installing missing module: {missing_module}")
             print("Installing espnet_model_zoo. This may take a few minutes...")
             subprocess.check_call([sys.executable, "-m", "pip", "install", "-U", "espnet_model_zoo"])
             import espnet_model_zoo
+        # Also check for OpenCC
+        try:
+            from opencc import OpenCC
+        except ModuleNotFoundError:
+            print("Installing opencc-python-reimplemented. This may take a moment...")
+            subprocess.check_call([sys.executable, "-m", "pip", "install", "opencc-python-reimplemented"])
+            from opencc import OpenCC
         print("All required packages installed successfully.")
     except ModuleNotFoundError as e:
         print(f"Failed to install {str(e).split('No module named ')[1]}. Please install manually.")
     return transcribe_audio(audio_file, "<eng>")
 # Function to handle Chinese transcription
+def transcribe_chinese(audio_file, chinese_variant="Traditional"):
+    """
+    Process the audio file and return Chinese transcription in simplified or traditional characters
+    Args:
+        audio_file: Path to the audio file
+        chinese_variant: Either "Simplified" or "Traditional"
+    """
+    # First get the base transcription
+    asr_text = transcribe_audio(audio_file, "<zho>")
+    # Convert between simplified and traditional Chinese if needed
+    if chinese_variant == "Traditional":
+        # Convert simplified to traditional
+        cc = OpenCC('s2twp')  # s2twp: Simplified to Traditional (Taiwan standard with phrases)
+        asr_text = cc.convert(asr_text)
+    elif chinese_variant == "Simplified" and not asr_text.isascii():
+        # If the text contains non-ASCII characters, it might be traditional
+        # Convert traditional to simplified just to be safe
+        cc = OpenCC('tw2sp')  # tw2sp: Traditional (Taiwan standard) to Simplified with phrases
+        asr_text = cc.convert(asr_text)
+    return asr_text
 # Function to handle Japanese transcription
 def transcribe_japanese(audio_file):
                 value="English"
             )
+            # Add Chinese variant selection that appears only when Mandarin is selected
+            chinese_variant_mic = gr.Radio(
+                ["Simplified", "Traditional"],
+                label="Chinese Character Variant",
+                value="Traditional",
+                visible=False
+            )
+            # Make Chinese variant selection visible only when Mandarin is selected
+            def update_chinese_variant_visibility(lang):
+                return gr.update(visible=(lang == "Mandarin"))
+            language_mic.change(
+                fn=update_chinese_variant_visibility,
+                inputs=language_mic,
+                outputs=chinese_variant_mic
+            )
             with gr.Row():
                 with gr.Column():
                     mic_input = gr.Audio(sources=["microphone"], type="filepath", label="Record Audio")
                 mic_feedback_btn = gr.Button("Submit Feedback")
             mic_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
+            def transcribe_mic(audio, lang, chinese_variant=None):
                 lang_map = {
                     "English": "<eng>",
                     "Mandarin": "<zho>",
                     "Italian": "<ita>",
                     "German": "<deu>"
                 }
+                # Special handling for Chinese with variant selection
+                if lang == "Mandarin" and chinese_variant:
+                    return transcribe_chinese(audio, chinese_variant.lower())
                 return transcribe_audio(audio, lang_map.get(lang, "<eng>"))
+            mic_button.click(fn=transcribe_mic, inputs=[mic_input, language_mic, chinese_variant_mic], outputs=mic_output)
             # Add feedback submission function
+            def submit_mic_feedback(transcription, rating, language, chinese_variant):
                 lang_name = language  # Already a string like "English"
+                return save_feedback(transcription, rating, f"{lang_name} ({chinese_variant})", None)
             mic_feedback_btn.click(
                 fn=submit_mic_feedback,
+                inputs=[mic_output, mic_rating, language_mic, chinese_variant_mic],
                 outputs=mic_feedback_msg
             )
             )
         with gr.TabItem("Mandarin"):
+            # Add Chinese variant selection
+            chinese_variant = gr.Radio(
+                ["Simplified", "Traditional"],
+                label="Chinese Character Variant",
+                value="Simplified"
+            )
             with gr.Row():
                 with gr.Column():
                     zh_input = gr.Audio(sources=["upload"], type="filepath", label="Upload Audio")
                     inputs=zh_input
                 )
+            # Update the click function to include the Chinese variant
+            def transcribe_chinese_with_variant(audio_file, variant):
+                return transcribe_chinese(audio_file, variant.lower())
+            zh_button.click(fn=transcribe_chinese_with_variant, inputs=[zh_input, chinese_variant], outputs=zh_output)
+            # Update feedback submission to include variant
+            def submit_zh_feedback(transcription, rating, audio_path, variant):
+                return save_feedback(transcription, rating, f"Mandarin ({variant})", audio_path)
             zh_feedback_btn.click(
                 fn=submit_zh_feedback,
+                inputs=[zh_output, zh_rating, zh_input, chinese_variant],
                 outputs=zh_feedback_msg
             )

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 gradio
 espnet_model_zoo
 espnet

+opencc-python-reimplemented
 gradio
 espnet_model_zoo
 espnet