Spaces:

Kr08
/

ASR

Build error

Kr08 commited on Aug 18, 2024

Commit

a5753ad

verified ·

1 Parent(s): 7d9c19a

Update app.py: added language detection module and subsequent forced decoder

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import torch
 import streamlit as st
 import torchaudio as ta
@@ -43,7 +44,14 @@ submit_button = st.sidebar.button("Submit")
 #     except sr.RequestError as e:
 #         return f"Could not request results; {e}"
 if submit_button and uploaded_files is not None:
     st.write("Files uploaded successfully!")
@@ -62,13 +70,16 @@ if submit_button and uploaded_files is not None:
         input_features = processor(resampled_inp[0], sampling_rate=16000, return_tensors='pt').input_features
-        ## Here Generate specific language!!!
-        forced_decoder_ids = processor.get_decoder_prompt_ids(language="french", task="translate")
         if task == "translate":
             predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
         else:
             predicted_ids = model.generate(input_features)

 import torch
+import pickle
 import streamlit as st
 import torchaudio as ta
 #     except sr.RequestError as e:
 #         return f"Could not request results; {e}"
+def detect_language(audio_file):
+    whisper_model = whisper.load_model("base")
+    mel = whisper.log_mel_spectrogram(trimmed_audio).to(whisper_model.device)
+    # detect the spoken language
+    _, probs = whisper_model.detect_language(mel)
+    print(f"Detected language: {max(probs[0], key=probs[0].get)}")
+    return max(probs[0], key=probs[0].get)
 if submit_button and uploaded_files is not None:
     st.write("Files uploaded successfully!")
         input_features = processor(resampled_inp[0], sampling_rate=16000, return_tensors='pt').input_features
+        lang = detect_language(input_features)
+        with open('languages.pkl', 'rb') as f:
+            lang_dict = pickle.load(f)
+        detected_language = lang_dict[lang]
         if task == "translate":
+            ## Here Generate specific language!!!
+            forced_decoder_ids = processor.get_decoder_prompt_ids(language=detected_language, task="translate")
             predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
         else:
             predicted_ids = model.generate(input_features)