Spaces:

LAP-DEV
/

Demo

Running

LAP-DEV commited on Jan 6

Commit

3fd20ac

verified ·

1 Parent(s): ae8920e

Update modules/whisper/whisper_base.py

Files changed (1) hide show

modules/whisper/whisper_base.py CHANGED Viewed

@@ -224,7 +224,10 @@ class WhisperBase(ABC):
                 files = [files]
             if files and isinstance(files[0], gr.utils.NamedString):
                 files = [file.name for file in files]
             ## Load model to detect language
             model = whisper.load_model("base")
@@ -235,8 +238,6 @@ class WhisperBase(ABC):
             for file in files:
                 ## Detect language
-                #params = WhisperParameters.as_value(*whisper_params)
-                #model = whisper.load_model(params.model_size)
                 mel = whisper.log_mel_spectrogram(whisper.pad_or_trim(whisper.load_audio(file))).to(model.device)
                 _, probs = model.detect_language(mel)
                 file_language = ""
@@ -274,7 +275,8 @@ class WhisperBase(ABC):
                         input_list_dict=transcribed_segments,
                         model_size=translate_model,
                         src_lang=file_language,
-                        tgt_lang=target_lang
                     )
                 ## Get preview as txt

                 files = [files]
             if files and isinstance(files[0], gr.utils.NamedString):
                 files = [file.name for file in files]
+            ## Load parameters related with whisper
+            params = WhisperParameters.as_value(*whisper_params)
             ## Load model to detect language
             model = whisper.load_model("base")
             for file in files:
                 ## Detect language
                 mel = whisper.log_mel_spectrogram(whisper.pad_or_trim(whisper.load_audio(file))).to(model.device)
                 _, probs = model.detect_language(mel)
                 file_language = ""
                         input_list_dict=transcribed_segments,
                         model_size=translate_model,
                         src_lang=file_language,
+                        tgt_lang=target_lang,
+                        speaker_diarization=params.is_diarize
                     )
                 ## Get preview as txt