Spaces:

LAP-DEV
/

Demo

Running

LAP-DEV commited on Feb 17

Commit

87fbd2b

verified ·

1 Parent(s): 2fe9892

Update modules/vad/silero_vad.py

Files changed (1) hide show

modules/vad/silero_vad.py CHANGED Viewed

@@ -106,10 +106,17 @@ class SileroVAD:
         min_silence_samples_at_max_speech = self.sampling_rate * 98 / 1000
         audio_length_samples = len(audio)
-        padded_audio = np.pad(audio, (0, window_size_samples - audio.shape[0] % window_size_samples))
-        padded_audio = padded_audio.reshape(1, -1)
-        speech_probs = self.model(padded_audio).squeeze(0)
         triggered = False
         speeches = []

         min_silence_samples_at_max_speech = self.sampling_rate * 98 / 1000
         audio_length_samples = len(audio)
+        state, context = self.model.get_initial_states(batch_size=1)
+        speech_probs = []
+        for current_start_sample in range(0, audio_length_samples, window_size_samples):
+            progress(current_start_sample/audio_length_samples, desc="Detecting speeches only using VAD...")
+            chunk = audio[current_start_sample: current_start_sample + window_size_samples]
+            if len(chunk) < window_size_samples:
+                chunk = np.pad(chunk, (0, int(window_size_samples - len(chunk))))
+            speech_prob, state, context = self.model(chunk, state, context, sampling_rate)
+            speech_probs.append(speech_prob)
         triggered = False
         speeches = []