Spaces:

facebook
/

seamless_m4t

Runtime error

App Files Files Community

reach-vb HF Staff

hysts HF Staff commited on Aug 22, 2023

Commit

4936337

1 Parent(s): df28e5a

Add examples and description (#2)

Browse files

- Add examples and description (4ec7561ba4cb2c54cae93fd0e488e9968db8b902)

Co-authored-by: hysts <[email protected]>

Files changed (1) hide show

app.py +153 -8

app.py CHANGED Viewed

@@ -14,7 +14,16 @@ from lang_list import (
     TEXT_SOURCE_LANGUAGE_NAMES,
 )
-DESCRIPTION = "# SeamlessM4T"
 TASK_NAMES = [
     "S2ST (Speech to Speech translation)",
@@ -23,10 +32,8 @@ TASK_NAMES = [
     "T2TT (Text to Text translation)",
     "ASR (Automatic Speech Recognition)",
 ]
 AUDIO_SAMPLE_RATE = 16000.0
 MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "French"
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
@@ -41,14 +48,14 @@ translator = Translator(
 def predict(
     task_name: str,
     audio_source: str,
-    input_audio_mic: str,
-    input_audio_file: str,
-    input_text: str,
-    source_language: str,
     target_language: str,
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
     task_name = task_name.split()[0]
-    source_language_code = LANGUAGE_NAME_TO_CODE[source_language]
     target_language_code = LANGUAGE_NAME_TO_CODE[target_language]
     if task_name in ["S2ST", "S2TT", "ASR"]:
@@ -78,6 +85,66 @@ def predict(
         return None, text_out
 def update_audio_ui(audio_source: str) -> tuple[dict, dict]:
     mic = audio_source == "microphone"
     return (
@@ -153,6 +220,17 @@ def update_output_ui(task_name: str) -> tuple[dict, dict]:
         raise ValueError(f"Unknown task: {task_name}")
 with gr.Blocks(css="style.css") as demo:
     gr.Markdown(DESCRIPTION)
     gr.DuplicateButton(
@@ -207,6 +285,61 @@ with gr.Blocks(css="style.css") as demo:
             )
             output_text = gr.Textbox(label="Translated text")
     audio_source.change(
         fn=update_audio_ui,
         inputs=audio_source,
@@ -234,6 +367,18 @@ with gr.Blocks(css="style.css") as demo:
         outputs=[output_audio, output_text],
         queue=False,
         api_name=False,
     )
     btn.click(

     TEXT_SOURCE_LANGUAGE_NAMES,
 )
+DESCRIPTION = """# SeamlessM4T
+[SeamlessM4T](https://github.com/facebookresearch/seamless_communication) is designed to provide high-quality
+translation, allowing people from different linguistic communities to communicate effortlessly through speech and text.
+This unified model enables multiple tasks like Speech-to-Speech (S2ST), Speech-to-Text (S2TT), Text-to-Speech (T2ST)
+translation and more, without relying on multiple separate models.
+"""
+CACHE_EXAMPLES = os.getenv("CACHE_EXAMPLES") == "1"
 TASK_NAMES = [
     "S2ST (Speech to Speech translation)",
     "T2TT (Text to Text translation)",
     "ASR (Automatic Speech Recognition)",
 ]
 AUDIO_SAMPLE_RATE = 16000.0
 MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "French"
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 def predict(
     task_name: str,
     audio_source: str,
+    input_audio_mic: str | None,
+    input_audio_file: str | None,
+    input_text: str | None,
+    source_language: str | None,
     target_language: str,
 ) -> tuple[tuple[int, np.ndarray] | None, str]:
     task_name = task_name.split()[0]
+    source_language_code = LANGUAGE_NAME_TO_CODE.get(source_language, None)
     target_language_code = LANGUAGE_NAME_TO_CODE[target_language]
     if task_name in ["S2ST", "S2TT", "ASR"]:
         return None, text_out
+def process_s2st_example(input_audio_file: str, target_language: str) -> tuple[str, str]:
+    return predict(
+        task_name="S2ST",
+        audio_source="file",
+        input_audio_mic=None,
+        input_audio_file=input_audio_file,
+        input_text=None,
+        source_language=None,
+        target_language=target_language,
+    )
+def process_s2tt_example(input_audio_file: str, target_language: str) -> tuple[str, str]:
+    return predict(
+        task_name="S2TT",
+        audio_source="file",
+        input_audio_mic=None,
+        input_audio_file=input_audio_file,
+        input_text=None,
+        source_language=None,
+        target_language=target_language,
+    )
+def process_t2st_example(input_text: str, source_language: str, target_language: str) -> tuple[str, str]:
+    return predict(
+        task_name="T2ST",
+        audio_source="",
+        input_audio_mic=None,
+        input_audio_file=None,
+        input_text=input_text,
+        source_language=source_language,
+        target_language=target_language,
+    )
+def process_t2tt_example(input_text: str, source_language: str, target_language: str) -> tuple[str, str]:
+    return predict(
+        task_name="T2TT",
+        audio_source="",
+        input_audio_mic=None,
+        input_audio_file=None,
+        input_text=input_text,
+        source_language=source_language,
+        target_language=target_language,
+    )
+def process_asr_example(input_audio_file: str, target_language: str) -> tuple[str, str]:
+    return predict(
+        task_name="ASR",
+        audio_source="file",
+        input_audio_mic=None,
+        input_audio_file=input_audio_file,
+        input_text=None,
+        source_language=None,
+        target_language=target_language,
+    )
 def update_audio_ui(audio_source: str) -> tuple[dict, dict]:
     mic = audio_source == "microphone"
     return (
         raise ValueError(f"Unknown task: {task_name}")
+def update_example_ui(task_name: str) -> tuple[dict, dict, dict, dict, dict]:
+    task_name = task_name.split()[0]
+    return (
+        gr.update(visible=task_name == "S2ST"),  # s2st_example_row
+        gr.update(visible=task_name == "S2TT"),  # s2tt_example_row
+        gr.update(visible=task_name == "T2ST"),  # t2st_example_row
+        gr.update(visible=task_name == "T2TT"),  # t2tt_example_row
+        gr.update(visible=task_name == "ASR"),  # asr_example_row
+    )
 with gr.Blocks(css="style.css") as demo:
     gr.Markdown(DESCRIPTION)
     gr.DuplicateButton(
             )
             output_text = gr.Textbox(label="Translated text")
+    with gr.Row(visible=True) as s2st_example_row:
+        s2st_examples = gr.Examples(
+            examples=[
+                ["assets/sample_input.mp3", "French"],
+                ["assets/sample_input.mp3", "Mandarin Chinese"],
+            ],
+            inputs=[input_audio_file, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_s2st_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as s2tt_example_row:
+        s2tt_examples = gr.Examples(
+            examples=[
+                ["assets/sample_input.mp3", "French"],
+                ["assets/sample_input.mp3", "Mandarin Chinese"],
+            ],
+            inputs=[input_audio_file, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_s2tt_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as t2st_example_row:
+        t2st_examples = gr.Examples(
+            examples=[
+                ["My favorite animal is the elephant.", "English", "French"],
+                ["My favorite animal is the elephant.", "English", "Mandarin Chinese"],
+            ],
+            inputs=[input_text, source_language, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_t2st_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as t2tt_example_row:
+        t2tt_examples = gr.Examples(
+            examples=[
+                ["My favorite animal is the elephant.", "English", "French"],
+                ["My favorite animal is the elephant.", "English", "Mandarin Chinese"],
+            ],
+            inputs=[input_text, source_language, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_t2tt_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
+    with gr.Row(visible=False) as asr_example_row:
+        asr_examples = gr.Examples(
+            examples=[
+                ["assets/sample_input.mp3", "English"],
+            ],
+            inputs=[input_audio_file, target_language],
+            outputs=[output_audio, output_text],
+            fn=process_asr_example,
+            cache_examples=CACHE_EXAMPLES,
+        )
     audio_source.change(
         fn=update_audio_ui,
         inputs=audio_source,
         outputs=[output_audio, output_text],
         queue=False,
         api_name=False,
+    ).then(
+        fn=update_example_ui,
+        inputs=task_name,
+        outputs=[
+            s2st_example_row,
+            s2tt_example_row,
+            t2st_example_row,
+            t2tt_example_row,
+            asr_example_row,
+        ],
+        queue=False,
+        api_name=False,
     )
     btn.click(