Spaces:

nvidia
/

multilingual-voice-4B-demo

Runtime error

App Files Files Community

huckiyang commited on Mar 11

Commit

1dad4ac

1 Parent(s): 746a0c3

[test] translation output

Browse files

Files changed (1) hide show

app.py +130 -12

app.py CHANGED Viewed

@@ -123,6 +123,7 @@ def transcribe_audio(audio_file, language):
     # Update the language symbol if needed
     model.beam_search.hyps = None
     model.beam_search.pre_beam_score_key = None
     if language != None:
         model.lang_sym = language
@@ -136,6 +137,44 @@ def transcribe_audio(audio_file, language):
     return text
 # Function to handle English transcription
 def transcribe_english(audio_file):
     return transcribe_audio(audio_file, "<eng>")
@@ -252,6 +291,7 @@ with demo:
                     mic_button = gr.Button("Transcribe Recording")
                 with gr.Column():
                     mic_output = gr.Textbox(label="Transcription")
             # Add feedback components
             with gr.Row():
@@ -273,11 +313,32 @@ with demo:
                 # Special handling for Chinese with variant selection
                 if lang == "Mandarin" and chinese_variant:
-                    return transcribe_chinese(audio, chinese_variant.lower())
-                return transcribe_audio(audio, lang_map.get(lang, "<eng>"))
-            mic_button.click(fn=transcribe_mic, inputs=[mic_input, language_mic, chinese_variant_mic], outputs=mic_output)
             # Add feedback submission function
             def submit_mic_feedback(transcription, rating, language, chinese_variant):
@@ -338,6 +399,7 @@ with demo:
                     zh_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     zh_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
@@ -353,11 +415,17 @@ with demo:
                     inputs=zh_input
                 )
-            # Update the click function to include the Chinese variant
             def transcribe_chinese_with_variant(audio_file, variant):
-                return transcribe_chinese(audio_file, variant.lower())
-            zh_button.click(fn=transcribe_chinese_with_variant, inputs=[zh_input, chinese_variant], outputs=zh_output)
             # Update feedback submission to include variant
             def submit_zh_feedback(transcription, rating, audio_path, variant):
@@ -376,6 +444,7 @@ with demo:
                     jp_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     jp_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
@@ -391,7 +460,16 @@ with demo:
                     inputs=jp_input
                 )
-            jp_button.click(fn=transcribe_japanese, inputs=jp_input, outputs=jp_output)
             # Add feedback submission
             def submit_jp_feedback(transcription, rating, audio_path):
@@ -410,6 +488,7 @@ with demo:
                     kr_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     kr_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
@@ -425,7 +504,16 @@ with demo:
                     inputs=kr_input
                 )
-            kr_button.click(fn=transcribe_korean, inputs=kr_input, outputs=kr_output)
             # Add feedback submission
             def submit_kr_feedback(transcription, rating, audio_path):
@@ -444,6 +532,7 @@ with demo:
                     th_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     th_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
@@ -459,7 +548,16 @@ with demo:
                     inputs=th_input
                 )
-            th_button.click(fn=transcribe_thai, inputs=th_input, outputs=th_output)
             # Add feedback submission
             def submit_th_feedback(transcription, rating, audio_path):
@@ -478,6 +576,7 @@ with demo:
                     it_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     it_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
@@ -493,7 +592,16 @@ with demo:
                     inputs=it_input
                 )
-            it_button.click(fn=transcribe_italian, inputs=it_input, outputs=it_output)
             # Add feedback submission
             def submit_it_feedback(transcription, rating, audio_path):
@@ -512,6 +620,7 @@ with demo:
                     de_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     de_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
@@ -527,7 +636,16 @@ with demo:
                     inputs=de_input
                 )
-            de_button.click(fn=transcribe_german, inputs=de_input, outputs=de_output)
             # Add feedback submission
             def submit_de_feedback(transcription, rating, audio_path):

     # Update the language symbol if needed
     model.beam_search.hyps = None
     model.beam_search.pre_beam_score_key = None
+    model.task_sym = "<asr>"  # Set default task to ASR
     if language != None:
         model.lang_sym = language
     return text
+# New function for speech translation to English
+def translate_to_english(audio_file, source_language):
+    """Process the audio file and return the English translation"""
+    if audio_file is None:
+        return "Please upload an audio file or record audio."
+    # If audio is a tuple (from microphone recording)
+    if isinstance(audio_file, tuple):
+        sr, audio_data = audio_file
+        # Create a temporary file to save the audio
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_audio:
+            temp_path = temp_audio.name
+            sf.write(temp_path, audio_data, sr)
+            audio_file = temp_path
+    # Load and resample the audio file to 16kHz
+    speech, _ = librosa.load(audio_file, sr=16000)
+    # Reset beam search state
+    model.beam_search.hyps = None
+    model.beam_search.pre_beam_score_key = None
+    # Set task to speech translation to English
+    model.task_sym = "<st_eng>"
+    # Set source language
+    if source_language != None:
+        model.lang_sym = source_language
+    # Perform speech translation
+    translation, *_ = model(speech)[0]
+    # Clean up temporary file if created
+    if isinstance(audio_file, str) and audio_file.startswith(tempfile.gettempdir()):
+        os.unlink(audio_file)
+    return translation
 # Function to handle English transcription
 def transcribe_english(audio_file):
     return transcribe_audio(audio_file, "<eng>")
                     mic_button = gr.Button("Transcribe Recording")
                 with gr.Column():
                     mic_output = gr.Textbox(label="Transcription")
+                    mic_translation = gr.Textbox(label="English Translation", visible=False)
             # Add feedback components
             with gr.Row():
                 # Special handling for Chinese with variant selection
                 if lang == "Mandarin" and chinese_variant:
+                    transcription = transcribe_chinese(audio, chinese_variant)
+                else:
+                    transcription = transcribe_audio(audio, lang_map.get(lang, "<eng>"))
+                # Get translation if not English
+                translation = ""
+                if lang != "English":
+                    translation = translate_to_english(audio, lang_map.get(lang, "<eng>"))
+                return transcription, translation, gr.update(visible=(lang != "English"))
+            mic_button.click(
+                fn=transcribe_mic,
+                inputs=[mic_input, language_mic, chinese_variant_mic],
+                outputs=[mic_output, mic_translation, mic_translation]
+            )
+            # Update the visibility of translation box when language changes
+            def update_translation_visibility(lang):
+                return gr.update(visible=(lang == "Mandarin")), gr.update(visible=(lang != "English"))
+            language_mic.change(
+                fn=update_translation_visibility,
+                inputs=language_mic,
+                outputs=[chinese_variant_mic, mic_translation]
+            )
             # Add feedback submission function
             def submit_mic_feedback(transcription, rating, language, chinese_variant):
                     zh_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     zh_output = gr.Textbox(label="Speech Transcription")
+                    zh_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
                     inputs=zh_input
                 )
+            # Update the click function to include the Chinese variant and translation
             def transcribe_chinese_with_variant(audio_file, variant):
+                transcription = transcribe_chinese(audio_file, variant)
+                translation = translate_to_english(audio_file, "<zho>")
+                return transcription, translation
+            zh_button.click(
+                fn=transcribe_chinese_with_variant,
+                inputs=[zh_input, chinese_variant],
+                outputs=[zh_output, zh_translation]
+            )
             # Update feedback submission to include variant
             def submit_zh_feedback(transcription, rating, audio_path, variant):
                     jp_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     jp_output = gr.Textbox(label="Speech Transcription")
+                    jp_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
                     inputs=jp_input
                 )
+            def transcribe_and_translate_japanese(audio_file):
+                transcription = transcribe_japanese(audio_file)
+                translation = translate_to_english(audio_file, "<jpn>")
+                return transcription, translation
+            jp_button.click(
+                fn=transcribe_and_translate_japanese,
+                inputs=jp_input,
+                outputs=[jp_output, jp_translation]
+            )
             # Add feedback submission
             def submit_jp_feedback(transcription, rating, audio_path):
                     kr_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     kr_output = gr.Textbox(label="Speech Transcription")
+                    kr_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
                     inputs=kr_input
                 )
+            def transcribe_and_translate_korean(audio_file):
+                transcription = transcribe_korean(audio_file)
+                translation = translate_to_english(audio_file, "<kor>")
+                return transcription, translation
+            kr_button.click(
+                fn=transcribe_and_translate_korean,
+                inputs=kr_input,
+                outputs=[kr_output, kr_translation]
+            )
             # Add feedback submission
             def submit_kr_feedback(transcription, rating, audio_path):
                     th_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     th_output = gr.Textbox(label="Speech Transcription")
+                    th_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
                     inputs=th_input
                 )
+            def transcribe_and_translate_thai(audio_file):
+                transcription = transcribe_thai(audio_file)
+                translation = translate_to_english(audio_file, "<tha>")
+                return transcription, translation
+            th_button.click(
+                fn=transcribe_and_translate_thai,
+                inputs=th_input,
+                outputs=[th_output, th_translation]
+            )
             # Add feedback submission
             def submit_th_feedback(transcription, rating, audio_path):
                     it_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     it_output = gr.Textbox(label="Speech Transcription")
+                    it_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
                     inputs=it_input
                 )
+            def transcribe_and_translate_italian(audio_file):
+                transcription = transcribe_italian(audio_file)
+                translation = translate_to_english(audio_file, "<ita>")
+                return transcription, translation
+            it_button.click(
+                fn=transcribe_and_translate_italian,
+                inputs=it_input,
+                outputs=[it_output, it_translation]
+            )
             # Add feedback submission
             def submit_it_feedback(transcription, rating, audio_path):
                     de_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     de_output = gr.Textbox(label="Speech Transcription")
+                    de_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
                     inputs=de_input
                 )
+            def transcribe_and_translate_german(audio_file):
+                transcription = transcribe_german(audio_file)
+                translation = translate_to_english(audio_file, "<deu>")
+                return transcription, translation
+            de_button.click(
+                fn=transcribe_and_translate_german,
+                inputs=de_input,
+                outputs=[de_output, de_translation]
+            )
             # Add feedback submission
             def submit_de_feedback(transcription, rating, audio_path):