Spaces:

DebasishDhal99
/

all-in-one-translation

Running

DebasishDhal99 commited on Feb 2

Commit

29b5120

1 Parent(s): 1d62a43

Simplifying dependencies in audio part

Files changed (2) hide show

app.py CHANGED Viewed

@@ -62,12 +62,20 @@ description_audio = "Upload an audio file to extract text and translate it to En
 audio_interface = gr.Interface(
     fn=src_audio_to_eng_translator,
-    inputs=[gr.Audio(label="Upload an Audio file", type="filepath"),
             gr.Dropdown(
-            choices=["turbo", "base", "tiny", "small", "medium", "large"],
-            label="Select Whisper Model size",
-        ),
-            gr.Dropdown(choices=language_list, label="Select Target Language", interactive=True)
             ],
     outputs=[gr.Textbox(label="Original text"),
              gr.Textbox(label="Translated text"),

 audio_interface = gr.Interface(
     fn=src_audio_to_eng_translator,
+    inputs=[
+            gr.Audio(
+                label="Upload an Audio file",
+                type="filepath"
+            ),
+            gr.Dropdown(
+                choices=["turbo", "base", "tiny", "small", "medium", "large"],
+                label="Select Whisper Model size",
+            ),
             gr.Dropdown(
+                choices=language_list,
+                label="Select Target Language",
+                interactive=True
+            )
             ],
     outputs=[gr.Textbox(label="Original text"),
              gr.Textbox(label="Translated text"),

backend/audio_to_tgt.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import whisper
 import numpy as np
 from pydub import AudioSegment
-import langcodes
 from deep_translator import GoogleTranslator, detection
 import os
@@ -24,10 +23,9 @@ def src_audio_to_eng_translator(audio_file_input, model_size = "turbo", target_l
     model = whisper.load_model(model_size)
     result = model.transcribe(audio_data)
     input_text = result["text"]
-    language_code = result["language"]
     src_lang_code = detection.single_detection(input_text, api_key = lang_detect_key)
-    src_lang = formatted_codes.get(src_lang_code, 'Source language not detected')
-    language_name = langcodes.get(language_code).language_name()
-    translated_text = GoogleTranslator(source='auto', target=src_lang_code).translate(input_text)
-    return input_text, translated_text, src_lang
-    # return result['text']

 import whisper
 import numpy as np
 from pydub import AudioSegment
 from deep_translator import GoogleTranslator, detection
 import os
     model = whisper.load_model(model_size)
     result = model.transcribe(audio_data)
     input_text = result["text"]
     src_lang_code = detection.single_detection(input_text, api_key = lang_detect_key)
+    src_lang = formatted_languages.get(src_lang_code, 'Source language not detected')
+    target_lang_code = formatted_languages.get(target_lang, 'en')
+    translated_text = GoogleTranslator(source='auto', target=target_lang_code).translate(input_text)
+    return input_text, translated_text, src_lang