speech-to-speech-translation

Runtime error

umarigan commited on Sep 21, 2024

Commit

7e4cf57

verified ·

1 Parent(s): 4d94c68

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,16 +9,15 @@ device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # Load Whisper large-v2 model for multilingual speech translation
 asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-large-v2", device=device)
-# Load MMS TTS model for multilingual text-to-speech
-processor = SpeechT5Processor.from_pretrained("facebook/mms-tts-eng")
-model = SpeechT5ForTextToSpeech.from_pretrained("facebook/mms-tts-eng").to(device)
-vocoder = SpeechT5HifiGan.from_pretrained("facebook/mms-tts-eng").to(device)
-# Define supported languages
 LANGUAGES = {
-    "French": "fra", "German": "deu", "Spanish": "spa", "Italian": "ita",
-    "Portuguese": "por", "Dutch": "nld", "Russian": "rus", "Chinese": "cmn",
-    "Japanese": "jpn", "Korean": "kor"
 }
 def translate(audio, source_lang, target_lang):
@@ -38,11 +37,11 @@ def translate(audio, source_lang, target_lang):
 def synthesise(text, target_lang):
     inputs = processor(text=text, return_tensors="pt")
-    speech = model.generate_speech(inputs["input_ids"].to(device), vocoder=vocoder, language=target_lang)
     return speech.cpu()
 def speech_to_speech_translation(audio, source_lang, target_lang):
-    translated_text = translate(audio, source_lang, target_lang)
     synthesised_speech = synthesise(translated_text, target_lang)
     synthesised_speech = (synthesised_speech.numpy() * 32767).astype(np.int16)
     return 16000, synthesised_speech

 # Load Whisper large-v2 model for multilingual speech translation
 asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-large-v2", device=device)
+# Load MMS TTS model for multilingual text-to-speech (using German model as base)
+processor = SpeechT5Processor.from_pretrained("facebook/mms-tts-deu")
+model = SpeechT5ForTextToSpeech.from_pretrained("facebook/mms-tts-deu").to(device)
+vocoder = SpeechT5HifiGan.from_pretrained("facebook/mms-tts-deu").to(device)
+# Define supported languages (adjust based on the languages supported by the model)
 LANGUAGES = {
+    "German": "deu", "English": "eng", "French": "fra", "Spanish": "spa",
+    "Italian": "ita", "Portuguese": "por", "Polish": "pol", "Turkish": "tur"
 }
 def translate(audio, source_lang, target_lang):
 def synthesise(text, target_lang):
     inputs = processor(text=text, return_tensors="pt")
+    speech = model.generate_speech(inputs["input_ids"].to(device), vocoder=vocoder, language=LANGUAGES[target_lang])
     return speech.cpu()
 def speech_to_speech_translation(audio, source_lang, target_lang):
+    translated_text = translate(audio, LANGUAGES[source_lang], LANGUAGES[target_lang])
     synthesised_speech = synthesise(translated_text, target_lang)
     synthesised_speech = (synthesised_speech.numpy() * 32767).astype(np.int16)
     return 16000, synthesised_speech