Spaces:

Jaward
/

optimus

Sleeping

App Files Files Community

Jaward commited on Aug 15, 2024

Commit

81e33eb

verified ·

1 Parent(s): 8da7d41

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -19

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ from streaming_stt_nemo import Model
 import torch
 import random
 from openai import OpenAI
-from transformers import AutoProcessor, SeamlessM4TModel
 default_lang = "en"
@@ -91,22 +91,41 @@ async def respond(audio, model, seed):
         await communicate.save(tmp_path)
     yield tmp_path
-# Load the Seamless Streaming model and processor
-processor = AutoProcessor.from_pretrained("facebook/seamless-streaming")
-seamless_model = SeamlessM4TModel.from_pretrained("facebook/seamless-streaming")
-def translate_speech(audio, target_lang):
-    if audio is None:
-        return ""
-    audio_array, sample_rate = audio
-    inputs = processor(audios=audio_array, return_tensors="pt", sampling_rate=sample_rate)
-    with torch.no_grad():
-        generated_speech = seamless_model.generate(**inputs, tgt_lang=target_lang)
-    translated_text = processor.batch_decode(generated_speech, skip_special_tokens=True)[0]
-    return translated_text
 DESCRIPTION = """ # <center><b>Hello, I am Optimus Prime your personal AI voice assistant</b></center>"""
@@ -146,18 +165,21 @@ with gr.Blocks(css="style.css") as demo:
             )
         with gr.TabItem("Speech Translation"):
-            input_audio = gr.Audio(label="Input Speech", sources="microphone", type="numpy", streaming=True)
             target_lang = gr.Dropdown(
-                choices=["spa", "fra", "deu", "ita", "jpn", "kor", "cmn"],
-                value="spa",
                 label="Target Language"
             )
-            output_text = gr.Textbox(label="Translated Text")
             gr.Interface(
                 fn=translate_speech,
                 inputs=[input_audio, target_lang],
-                outputs=[output_text],
                 live=True
             )

 import torch
 import random
 from openai import OpenAI
+import subprocess
 default_lang = "en"
         await communicate.save(tmp_path)
     yield tmp_path
+# Supported languages for seamless-expressive
+LANGUAGE_CODES = {
+    "English": "eng",
+    "Spanish": "spa",
+    "French": "fra",
+    "German": "deu",
+    "Italian": "ita",
+    "Chinese": "cmn"
+}
+def translate_speech(audio_file, target_language):
+    """
+    Translate input speech (audio file) to the specified target language.
+    """
+    language_code = LANGUAGE_CODES[target_language]
+    output_file = "translated_audio.wav"
+    command = [
+        "expressivity_predict",
+        audio_file,
+        "--tgt_lang", language_code,
+        "--model_name", "seamless_expressivity",
+        "--vocoder_name", "vocoder_pretssel",
+        "--gated-model-dir", "seamlessmodel",
+        "--output_path", output_file
+    ]
+    subprocess.run(command, check=True)
+    if os.path.exists(output_file):
+        print(f"File created successfully: {output_file}")
+    else:
+        print(f"File not found: {output_file}")
+    return output_file
 DESCRIPTION = """ # <center><b>Hello, I am Optimus Prime your personal AI voice assistant</b></center>"""
             )
         with gr.TabItem("Speech Translation"):
+            input_audio = gr.Audio(label="User", sources="microphone", type="filepath", waveform_options=False)
             target_lang = gr.Dropdown(
+                choices=list(LANGUAGE_CODES.keys()),
+                value="Spanish",
                 label="Target Language"
             )
+            output_audio = gr.Audio(label="Translated Audio",
+                                    interactive=False,
+                                    autoplay=True,
+                                    elem_classes="audio")
             gr.Interface(
                 fn=translate_speech,
                 inputs=[input_audio, target_lang],
+                outputs=[output_audio],
                 live=True
             )