Spaces:

nvidia
/

multilingual-voice-4B-demo

Runtime error

App Files Files Community

huckiyang commited on Mar 10

Commit

bbb81f1

1 Parent(s): d2783ab

[demo] feedbacks

Browse files

Files changed (1) hide show

app.py +167 -1

app.py CHANGED Viewed

@@ -9,6 +9,9 @@ import librosa
 import torch
 import torch.cuda
 import gc
 # Check if required packages are installed, if not install them
 try:
@@ -141,6 +144,32 @@ def transcribe_italian(audio_file):
 def transcribe_german(audio_file):
     return transcribe_audio(audio_file, "<deu>")
 # Create the Gradio interface with tabs
 demo = gr.Blocks(title="NVIDIA Research Multilingual Demo")
@@ -151,7 +180,7 @@ with demo:
     with gr.Tabs():
         with gr.TabItem("Microphone Recording"):
             language_mic = gr.Radio(
-                ["English", "Mandarin", "Japanese", "Korean", "Thai", "Italian", "German"],
                 label="Select Language",
                 value="English"
             )
@@ -163,6 +192,13 @@ with demo:
                 with gr.Column():
                     mic_output = gr.Textbox(label="Transcription")
             def transcribe_mic(audio, lang):
                 lang_map = {
                     "English": "<eng>",
@@ -176,6 +212,17 @@ with demo:
                 return transcribe_audio(audio, lang_map.get(lang, "<eng>"))
             mic_button.click(fn=transcribe_mic, inputs=[mic_input, language_mic], outputs=mic_output)
         with gr.TabItem("English"):
             with gr.Row():
@@ -185,6 +232,13 @@ with demo:
                 with gr.Column():
                     en_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_en_sample_48k.wav"):
                 gr.Examples(
@@ -194,6 +248,16 @@ with demo:
             en_button.click(fn=transcribe_english, inputs=en_input, outputs=en_output)
         with gr.TabItem("Mandarin"):
             with gr.Row():
                 with gr.Column():
@@ -202,6 +266,13 @@ with demo:
                 with gr.Column():
                     zh_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_zh_tw_sample_16k.wav"):
                 gr.Examples(
@@ -211,6 +282,16 @@ with demo:
             zh_button.click(fn=transcribe_chinese, inputs=zh_input, outputs=zh_output)
         with gr.TabItem("Japanese"):
             with gr.Row():
                 with gr.Column():
@@ -219,6 +300,13 @@ with demo:
                 with gr.Column():
                     jp_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_jp_sample_48k.wav"):
                 gr.Examples(
@@ -228,6 +316,16 @@ with demo:
             jp_button.click(fn=transcribe_japanese, inputs=jp_input, outputs=jp_output)
         with gr.TabItem("Korean"):
             with gr.Row():
                 with gr.Column():
@@ -236,6 +334,13 @@ with demo:
                 with gr.Column():
                     kr_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_kr_sample_48k.wav"):
                 gr.Examples(
@@ -245,6 +350,16 @@ with demo:
             kr_button.click(fn=transcribe_korean, inputs=kr_input, outputs=kr_output)
         with gr.TabItem("Thai"):
             with gr.Row():
                 with gr.Column():
@@ -253,6 +368,13 @@ with demo:
                 with gr.Column():
                     th_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_thai_sample.wav"):
                 gr.Examples(
@@ -262,6 +384,16 @@ with demo:
             th_button.click(fn=transcribe_thai, inputs=th_input, outputs=th_output)
         with gr.TabItem("Italian"):
             with gr.Row():
                 with gr.Column():
@@ -270,6 +402,13 @@ with demo:
                 with gr.Column():
                     it_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_it_sample.wav"):
                 gr.Examples(
@@ -278,6 +417,16 @@ with demo:
                 )
             it_button.click(fn=transcribe_italian, inputs=it_input, outputs=it_output)
         with gr.TabItem("German"):
             with gr.Row():
@@ -287,6 +436,13 @@ with demo:
                 with gr.Column():
                     de_output = gr.Textbox(label="Speech Transcription")
             # Add example if the file exists
             if os.path.exists("wav_de_sample.wav"):
                 gr.Examples(
@@ -295,6 +451,16 @@ with demo:
                 )
             de_button.click(fn=transcribe_german, inputs=de_input, outputs=de_output)
 # Launch the app with Hugging Face Spaces compatible settings
 if __name__ == "__main__":

 import torch
 import torch.cuda
 import gc
+import json
+import datetime
+from pathlib import Path
 # Check if required packages are installed, if not install them
 try:
 def transcribe_german(audio_file):
     return transcribe_audio(audio_file, "<deu>")
+# Create a function to save feedback
+def save_feedback(transcription, rating, language, audio_path=None):
+    """Save user feedback to a JSON file"""
+    # Create feedback directory if it doesn't exist
+    feedback_dir = Path("feedback_data")
+    feedback_dir.mkdir(exist_ok=True)
+    # Create a unique filename based on timestamp
+    timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
+    feedback_file = feedback_dir / f"feedback_{timestamp}.json"
+    # Prepare feedback data
+    feedback_data = {
+        "timestamp": timestamp,
+        "language": language,
+        "transcription": transcription,
+        "rating": rating,
+        "audio_path": str(audio_path) if audio_path else None
+    }
+    # Save to JSON file
+    with open(feedback_file, "w", encoding="utf-8") as f:
+        json.dump(feedback_data, f, ensure_ascii=False, indent=2)
+    return "Thank you for your feedback!"
 # Create the Gradio interface with tabs
 demo = gr.Blocks(title="NVIDIA Research Multilingual Demo")
     with gr.Tabs():
         with gr.TabItem("Microphone Recording"):
             language_mic = gr.Radio(
+                ["English", "English-Mandarin", "Japanese", "Korean", "Thai", "Italian", "German"],
                 label="Select Language",
                 value="English"
             )
                 with gr.Column():
                     mic_output = gr.Textbox(label="Transcription")
+            # Add feedback components
+            with gr.Row():
+                mic_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                      label="Rate the transcription quality (1=worst, 5=best)")
+                mic_feedback_btn = gr.Button("Submit Feedback")
+            mic_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             def transcribe_mic(audio, lang):
                 lang_map = {
                     "English": "<eng>",
                 return transcribe_audio(audio, lang_map.get(lang, "<eng>"))
             mic_button.click(fn=transcribe_mic, inputs=[mic_input, language_mic], outputs=mic_output)
+            # Add feedback submission function
+            def submit_mic_feedback(transcription, rating, language):
+                lang_name = language  # Already a string like "English"
+                return save_feedback(transcription, rating, lang_name)
+            mic_feedback_btn.click(
+                fn=submit_mic_feedback,
+                inputs=[mic_output, mic_rating, language_mic],
+                outputs=mic_feedback_msg
+            )
         with gr.TabItem("English"):
             with gr.Row():
                 with gr.Column():
                     en_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                en_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                en_feedback_btn = gr.Button("Submit Feedback")
+            en_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_en_sample_48k.wav"):
                 gr.Examples(
             en_button.click(fn=transcribe_english, inputs=en_input, outputs=en_output)
+            # Add feedback submission
+            def submit_en_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "English", audio_path)
+            en_feedback_btn.click(
+                fn=submit_en_feedback,
+                inputs=[en_output, en_rating, en_input],
+                outputs=en_feedback_msg
+            )
         with gr.TabItem("Mandarin"):
             with gr.Row():
                 with gr.Column():
                 with gr.Column():
                     zh_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                zh_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                zh_feedback_btn = gr.Button("Submit Feedback")
+            zh_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_zh_tw_sample_16k.wav"):
                 gr.Examples(
             zh_button.click(fn=transcribe_chinese, inputs=zh_input, outputs=zh_output)
+            # Add feedback submission
+            def submit_zh_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "Mandarin", audio_path)
+            zh_feedback_btn.click(
+                fn=submit_zh_feedback,
+                inputs=[zh_output, zh_rating, zh_input],
+                outputs=zh_feedback_msg
+            )
         with gr.TabItem("Japanese"):
             with gr.Row():
                 with gr.Column():
                 with gr.Column():
                     jp_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                jp_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                jp_feedback_btn = gr.Button("Submit Feedback")
+            jp_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_jp_sample_48k.wav"):
                 gr.Examples(
             jp_button.click(fn=transcribe_japanese, inputs=jp_input, outputs=jp_output)
+            # Add feedback submission
+            def submit_jp_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "Japanese", audio_path)
+            jp_feedback_btn.click(
+                fn=submit_jp_feedback,
+                inputs=[jp_output, jp_rating, jp_input],
+                outputs=jp_feedback_msg
+            )
         with gr.TabItem("Korean"):
             with gr.Row():
                 with gr.Column():
                 with gr.Column():
                     kr_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                kr_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                kr_feedback_btn = gr.Button("Submit Feedback")
+            kr_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_kr_sample_48k.wav"):
                 gr.Examples(
             kr_button.click(fn=transcribe_korean, inputs=kr_input, outputs=kr_output)
+            # Add feedback submission
+            def submit_kr_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "Korean", audio_path)
+            kr_feedback_btn.click(
+                fn=submit_kr_feedback,
+                inputs=[kr_output, kr_rating, kr_input],
+                outputs=kr_feedback_msg
+            )
         with gr.TabItem("Thai"):
             with gr.Row():
                 with gr.Column():
                 with gr.Column():
                     th_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                th_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                th_feedback_btn = gr.Button("Submit Feedback")
+            th_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_thai_sample.wav"):
                 gr.Examples(
             th_button.click(fn=transcribe_thai, inputs=th_input, outputs=th_output)
+            # Add feedback submission
+            def submit_th_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "Thai", audio_path)
+            th_feedback_btn.click(
+                fn=submit_th_feedback,
+                inputs=[th_output, th_rating, th_input],
+                outputs=th_feedback_msg
+            )
         with gr.TabItem("Italian"):
             with gr.Row():
                 with gr.Column():
                 with gr.Column():
                     it_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                it_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                it_feedback_btn = gr.Button("Submit Feedback")
+            it_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_it_sample.wav"):
                 gr.Examples(
                 )
             it_button.click(fn=transcribe_italian, inputs=it_input, outputs=it_output)
+            # Add feedback submission
+            def submit_it_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "Italian", audio_path)
+            it_feedback_btn.click(
+                fn=submit_it_feedback,
+                inputs=[it_output, it_rating, it_input],
+                outputs=it_feedback_msg
+            )
         with gr.TabItem("German"):
             with gr.Row():
                 with gr.Column():
                     de_output = gr.Textbox(label="Speech Transcription")
+            # Add feedback components
+            with gr.Row():
+                de_rating = gr.Slider(minimum=1, maximum=5, step=1, value=3,
+                                     label="Rate the transcription quality (1=worst, 5=best)")
+                de_feedback_btn = gr.Button("Submit Feedback")
+            de_feedback_msg = gr.Textbox(label="Feedback Status", visible=True)
             # Add example if the file exists
             if os.path.exists("wav_de_sample.wav"):
                 gr.Examples(
                 )
             de_button.click(fn=transcribe_german, inputs=de_input, outputs=de_output)
+            # Add feedback submission
+            def submit_de_feedback(transcription, rating, audio_path):
+                return save_feedback(transcription, rating, "German", audio_path)
+            de_feedback_btn.click(
+                fn=submit_de_feedback,
+                inputs=[de_output, de_rating, de_input],
+                outputs=de_feedback_msg
+            )
 # Launch the app with Hugging Face Spaces compatible settings
 if __name__ == "__main__":