Spaces:

tonyliu404
/

Audio-to-text-Translated

Sleeping

App Files Files Community

tonyliu404 commited on Oct 29, 2024

Commit

dd4fe31

verified ·

1 Parent(s): a45489b

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -12

app.py CHANGED Viewed

@@ -4,9 +4,15 @@ import numpy as np
 import librosa
 import gradio as gr
 from IPython.display import Audio as IPythonAudio
 asr = pipeline("automatic-speech-recognition", model="distil-whisper/distil-small.en") #sound to text model
 demo = gr.Blocks()
 def transcribe_long_form(filepath):
     if filepath is None:
@@ -28,30 +34,32 @@ def transcribe_long_form(filepath):
       chunk_length_s=30,
       batch_size=12,
     )
-    return output["text"]
 mic_transcribe = gr.Interface(
     fn=transcribe_long_form,
     inputs=gr.Audio(sources="microphone",
                     type="filepath"),
-    outputs=gr.Textbox(label="Transcription",
-                       lines=3),
     allow_flagging="never")
 file_transcribe = gr.Interface(
     fn=transcribe_long_form,
     inputs=gr.Audio(sources="upload",
                     type="filepath"),
-    outputs=gr.Textbox(label="Transcription",
-                       lines=3),
     allow_flagging="never",
 )
-with demo:
-    gr.TabbedInterface(
-        [mic_transcribe,
-         file_transcribe],
-        ["Transcribe Microphone",
-         "Transcribe Audio File"],
-    )
 demo.launch()

 import librosa
 import gradio as gr
 from IPython.display import Audio as IPythonAudio
+import torch
+import tempfile
 asr = pipeline("automatic-speech-recognition", model="distil-whisper/distil-small.en") #sound to text model
+tr = pipeline("translation", model="facebook/nllb-200-distilled-600M", torch_dtype=torch.bfloat16) #text translator model
+narrator = pipeline("text-to-speech", model="facebook/mms-tts-spa") #text to speech spanish
 demo = gr.Blocks()
 def transcribe_long_form(filepath):
     if filepath is None:
       chunk_length_s=30,
       batch_size=12,
     )
+    text_translated = tr(output["text"],
+                             src_lang="eng_Latn",
+                             tgt_lang="spa_Latn")
+    completed_translation = text_translated[0]['translation_text']
+    narrated_text = narrator(completed_translation)
+    # Save the narrated audio to a temporary file
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmpfile:
+        sf.write(tmpfile.name, narrated_text['audio'][0], narrated_text['sampling_rate'])
+        return tmpfile.name
 mic_transcribe = gr.Interface(
     fn=transcribe_long_form,
     inputs=gr.Audio(sources="microphone",
                     type="filepath"),
+    outputs=gr.Audio(label="Translated Audio"),
     allow_flagging="never")
 file_transcribe = gr.Interface(
     fn=transcribe_long_form,
     inputs=gr.Audio(sources="upload",
                     type="filepath"),
+    outputs=gr.Audio(label="Translated Audio"),
     allow_flagging="never",
 )
 demo.launch()