Spaces:

nvidia
/

multilingual-voice-4B-demo

Runtime error

App Files Files Community

huckiyang commited on 16 days ago

Commit

838f0a0

1 Parent(s): f95bbb9

Revert "[test] translation output"

Browse files

This reverts commit 1dad4ac0a0ba28c8ec20e577e133a18b8a3e4853.

Files changed (1) hide show

app.py +12 -130

app.py CHANGED Viewed

@@ -123,7 +123,6 @@ def transcribe_audio(audio_file, language):
     # Update the language symbol if needed
     model.beam_search.hyps = None
     model.beam_search.pre_beam_score_key = None
-    model.task_sym = "<asr>"  # Set default task to ASR
     if language != None:
         model.lang_sym = language
@@ -137,44 +136,6 @@ def transcribe_audio(audio_file, language):
     return text
-# New function for speech translation to English
-def translate_to_english(audio_file, source_language):
-    """Process the audio file and return the English translation"""
-    if audio_file is None:
-        return "Please upload an audio file or record audio."
-    # If audio is a tuple (from microphone recording)
-    if isinstance(audio_file, tuple):
-        sr, audio_data = audio_file
-        # Create a temporary file to save the audio
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_audio:
-            temp_path = temp_audio.name
-            sf.write(temp_path, audio_data, sr)
-            audio_file = temp_path
-    # Load and resample the audio file to 16kHz
-    speech, _ = librosa.load(audio_file, sr=16000)
-    # Reset beam search state
-    model.beam_search.hyps = None
-    model.beam_search.pre_beam_score_key = None
-    # Set task to speech translation to English
-    model.task_sym = "<st_eng>"
-    # Set source language
-    if source_language != None:
-        model.lang_sym = source_language
-    # Perform speech translation
-    translation, *_ = model(speech)[0]
-    # Clean up temporary file if created
-    if isinstance(audio_file, str) and audio_file.startswith(tempfile.gettempdir()):
-        os.unlink(audio_file)
-    return translation
 # Function to handle English transcription
 def transcribe_english(audio_file):
     return transcribe_audio(audio_file, "<eng>")
@@ -291,7 +252,6 @@ with demo:
                     mic_button = gr.Button("Transcribe Recording")
                 with gr.Column():
                     mic_output = gr.Textbox(label="Transcription")
-                    mic_translation = gr.Textbox(label="English Translation", visible=False)
             # Add feedback components
             with gr.Row():
@@ -313,32 +273,11 @@ with demo:
                 # Special handling for Chinese with variant selection
                 if lang == "Mandarin" and chinese_variant:
-                    transcription = transcribe_chinese(audio, chinese_variant)
-                else:
-                    transcription = transcribe_audio(audio, lang_map.get(lang, "<eng>"))
-                # Get translation if not English
-                translation = ""
-                if lang != "English":
-                    translation = translate_to_english(audio, lang_map.get(lang, "<eng>"))
-                return transcription, translation, gr.update(visible=(lang != "English"))
-            mic_button.click(
-                fn=transcribe_mic,
-                inputs=[mic_input, language_mic, chinese_variant_mic],
-                outputs=[mic_output, mic_translation, mic_translation]
-            )
-            # Update the visibility of translation box when language changes
-            def update_translation_visibility(lang):
-                return gr.update(visible=(lang == "Mandarin")), gr.update(visible=(lang != "English"))
-            language_mic.change(
-                fn=update_translation_visibility,
-                inputs=language_mic,
-                outputs=[chinese_variant_mic, mic_translation]
-            )
             # Add feedback submission function
             def submit_mic_feedback(transcription, rating, language, chinese_variant):
@@ -399,7 +338,6 @@ with demo:
                     zh_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     zh_output = gr.Textbox(label="Speech Transcription")
-                    zh_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
@@ -415,17 +353,11 @@ with demo:
                     inputs=zh_input
                 )
-            # Update the click function to include the Chinese variant and translation
             def transcribe_chinese_with_variant(audio_file, variant):
-                transcription = transcribe_chinese(audio_file, variant)
-                translation = translate_to_english(audio_file, "<zho>")
-                return transcription, translation
-            zh_button.click(
-                fn=transcribe_chinese_with_variant,
-                inputs=[zh_input, chinese_variant],
-                outputs=[zh_output, zh_translation]
-            )
             # Update feedback submission to include variant
             def submit_zh_feedback(transcription, rating, audio_path, variant):
@@ -444,7 +376,6 @@ with demo:
                     jp_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     jp_output = gr.Textbox(label="Speech Transcription")
-                    jp_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
@@ -460,16 +391,7 @@ with demo:
                     inputs=jp_input
                 )
-            def transcribe_and_translate_japanese(audio_file):
-                transcription = transcribe_japanese(audio_file)
-                translation = translate_to_english(audio_file, "<jpn>")
-                return transcription, translation
-            jp_button.click(
-                fn=transcribe_and_translate_japanese,
-                inputs=jp_input,
-                outputs=[jp_output, jp_translation]
-            )
             # Add feedback submission
             def submit_jp_feedback(transcription, rating, audio_path):
@@ -488,7 +410,6 @@ with demo:
                     kr_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     kr_output = gr.Textbox(label="Speech Transcription")
-                    kr_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
@@ -504,16 +425,7 @@ with demo:
                     inputs=kr_input
                 )
-            def transcribe_and_translate_korean(audio_file):
-                transcription = transcribe_korean(audio_file)
-                translation = translate_to_english(audio_file, "<kor>")
-                return transcription, translation
-            kr_button.click(
-                fn=transcribe_and_translate_korean,
-                inputs=kr_input,
-                outputs=[kr_output, kr_translation]
-            )
             # Add feedback submission
             def submit_kr_feedback(transcription, rating, audio_path):
@@ -532,7 +444,6 @@ with demo:
                     th_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     th_output = gr.Textbox(label="Speech Transcription")
-                    th_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
@@ -548,16 +459,7 @@ with demo:
                     inputs=th_input
                 )
-            def transcribe_and_translate_thai(audio_file):
-                transcription = transcribe_thai(audio_file)
-                translation = translate_to_english(audio_file, "<tha>")
-                return transcription, translation
-            th_button.click(
-                fn=transcribe_and_translate_thai,
-                inputs=th_input,
-                outputs=[th_output, th_translation]
-            )
             # Add feedback submission
             def submit_th_feedback(transcription, rating, audio_path):
@@ -576,7 +478,6 @@ with demo:
                     it_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     it_output = gr.Textbox(label="Speech Transcription")
-                    it_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
@@ -592,16 +493,7 @@ with demo:
                     inputs=it_input
                 )
-            def transcribe_and_translate_italian(audio_file):
-                transcription = transcribe_italian(audio_file)
-                translation = translate_to_english(audio_file, "<ita>")
-                return transcription, translation
-            it_button.click(
-                fn=transcribe_and_translate_italian,
-                inputs=it_input,
-                outputs=[it_output, it_translation]
-            )
             # Add feedback submission
             def submit_it_feedback(transcription, rating, audio_path):
@@ -620,7 +512,6 @@ with demo:
                     de_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     de_output = gr.Textbox(label="Speech Transcription")
-                    de_translation = gr.Textbox(label="English Translation")
             # Add feedback components
             with gr.Row():
@@ -636,16 +527,7 @@ with demo:
                     inputs=de_input
                 )
-            def transcribe_and_translate_german(audio_file):
-                transcription = transcribe_german(audio_file)
-                translation = translate_to_english(audio_file, "<deu>")
-                return transcription, translation
-            de_button.click(
-                fn=transcribe_and_translate_german,
-                inputs=de_input,
-                outputs=[de_output, de_translation]
-            )
             # Add feedback submission
             def submit_de_feedback(transcription, rating, audio_path):

     # Update the language symbol if needed
     model.beam_search.hyps = None
     model.beam_search.pre_beam_score_key = None
     if language != None:
         model.lang_sym = language
     return text
 # Function to handle English transcription
 def transcribe_english(audio_file):
     return transcribe_audio(audio_file, "<eng>")
                     mic_button = gr.Button("Transcribe Recording")
                 with gr.Column():
                     mic_output = gr.Textbox(label="Transcription")
             # Add feedback components
             with gr.Row():
                 # Special handling for Chinese with variant selection
                 if lang == "Mandarin" and chinese_variant:
+                    return transcribe_chinese(audio, chinese_variant.lower())
+                return transcribe_audio(audio, lang_map.get(lang, "<eng>"))
+            mic_button.click(fn=transcribe_mic, inputs=[mic_input, language_mic, chinese_variant_mic], outputs=mic_output)
             # Add feedback submission function
             def submit_mic_feedback(transcription, rating, language, chinese_variant):
                     zh_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     zh_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
                     inputs=zh_input
                 )
+            # Update the click function to include the Chinese variant
             def transcribe_chinese_with_variant(audio_file, variant):
+                return transcribe_chinese(audio_file, variant.lower())
+            zh_button.click(fn=transcribe_chinese_with_variant, inputs=[zh_input, chinese_variant], outputs=zh_output)
             # Update feedback submission to include variant
             def submit_zh_feedback(transcription, rating, audio_path, variant):
                     jp_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     jp_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
                     inputs=jp_input
                 )
+            jp_button.click(fn=transcribe_japanese, inputs=jp_input, outputs=jp_output)
             # Add feedback submission
             def submit_jp_feedback(transcription, rating, audio_path):
                     kr_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     kr_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
                     inputs=kr_input
                 )
+            kr_button.click(fn=transcribe_korean, inputs=kr_input, outputs=kr_output)
             # Add feedback submission
             def submit_kr_feedback(transcription, rating, audio_path):
                     th_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     th_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
                     inputs=th_input
                 )
+            th_button.click(fn=transcribe_thai, inputs=th_input, outputs=th_output)
             # Add feedback submission
             def submit_th_feedback(transcription, rating, audio_path):
                     it_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     it_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
                     inputs=it_input
                 )
+            it_button.click(fn=transcribe_italian, inputs=it_input, outputs=it_output)
             # Add feedback submission
             def submit_it_feedback(transcription, rating, audio_path):
                     de_button = gr.Button("Transcribe Speech")
                 with gr.Column():
                     de_output = gr.Textbox(label="Speech Transcription")
             # Add feedback components
             with gr.Row():
                     inputs=de_input
                 )
+            de_button.click(fn=transcribe_german, inputs=de_input, outputs=de_output)
             # Add feedback submission
             def submit_de_feedback(transcription, rating, audio_path):