Spaces:

DebasishDhal99
/

all-in-one-translation

Running

DebasishDhal99 commited on Feb 2

Commit

087b372

1 Parent(s): dcd3020

Add target lang option to audio translation

Files changed (2) hide show

app.py CHANGED Viewed

@@ -74,7 +74,7 @@ audio_interface = gr.Interface(
     title=heading_audio,
     description=description_audio,
     examples=[
-        ["examples/audios/russian_sample_audio.mp3", "turbo"]
     ]
 )
 combined_interface = gr.TabbedInterface(

     title=heading_audio,
     description=description_audio,
     examples=[
+        ["examples/audios/russian_sample_audio.mp3", "turbo", "English"]
     ]
 )
 combined_interface = gr.TabbedInterface(

backend/audio_to_tgt.py CHANGED Viewed

@@ -2,7 +2,14 @@ import whisper
 import numpy as np
 from pydub import AudioSegment
 import langcodes
-from deep_translator import GoogleTranslator
 def audio_to_numpy(audio_file_input):
     audio = AudioSegment.from_file(audio_file_input)
@@ -11,14 +18,16 @@ def audio_to_numpy(audio_file_input):
     return samples / np.iinfo(audio.array_type).max
-def src_audio_to_eng_translator(audio_file_input, model_size = "turbo"):
     audio_data = audio_to_numpy(audio_file_input)
     model = whisper.load_model(model_size)
     result = model.transcribe(audio_data)
     input_text = result["text"]
     language_code = result["language"]
     language_name = langcodes.get(language_code).language_name()
-    translated_text = GoogleTranslator(source='auto', target='en').translate(input_text)
-    return input_text, translated_text, language_name
     # return result['text']

 import numpy as np
 from pydub import AudioSegment
 import langcodes
+from deep_translator import GoogleTranslator, detection
+import os
+available_languages = GoogleTranslator().get_supported_languages(as_dict=True)
+formatted_languages = {key.title(): value for key, value in available_languages.items()}
+formatted_codes = {value: key.title() for key, value in available_languages.items()}
+lang_detect_key = os.getenv("detect_language_api_key")
 def audio_to_numpy(audio_file_input):
     audio = AudioSegment.from_file(audio_file_input)
     return samples / np.iinfo(audio.array_type).max
+def src_audio_to_eng_translator(audio_file_input, model_size = "turbo", target_lang = "English"):
     audio_data = audio_to_numpy(audio_file_input)
     model = whisper.load_model(model_size)
     result = model.transcribe(audio_data)
     input_text = result["text"]
     language_code = result["language"]
+    src_lang_code = detection.single_detection(input_text, api_key = lang_detect_key)
+    src_lang = formatted_codes.get(src_lang_code, 'Source language not detected')
     language_name = langcodes.get(language_code).language_name()
+    translated_text = GoogleTranslator(source='auto', target=src_lang_code).translate(input_text)
+    return input_text, translated_text, src_lang
     # return result['text']