MoYoYoTech
/

Translator

ONNX

GGUF

conversational

Model card Files Files and versions

xet

Community

Xin Zhang commited on Apr 23

Commit

750e8d5

1 Parent(s): 0c9fcfc

[fix]: parameter.

Browse files

Files changed (1) hide show

transcribe/pipelines/pipe_vad.py +11 -11

transcribe/pipelines/pipe_vad.py CHANGED Viewed

@@ -18,25 +18,25 @@ class VadPipe(BasePipe):
         super().__init__(in_queue, out_queue)
         self._offset = 0 # 处理的frame size offset
         self._status = 'END'
     def reset(self):
-        self._offset = 0
         self._status = 'END'
     @classmethod
     def init(cls):
         if cls.vac is None:
             cls.vac = FixedVADIterator(
-                threshold=0.3,
-                sampling_rate=cls.sample_rate,
                 # speech_pad_ms=10
-                min_silence_duration_ms = 100,
                 # speech_pad_ms = 30,
-                max_speech_duration_s=15
                 )
             cls.vac.reset_states()
     # def reduce_noise(self, data):
     #     return nr.reduce_noise(y=data, sr=self.sample_rate)
@@ -52,16 +52,16 @@ class VadPipe(BasePipe):
             if end_frame:
                 relative_end_frame = end_frame - self._offset
             return relative_start_frame, relative_end_frame
     def process(self, in_data: MetaItem) -> MetaItem:
         if self._offset == 0:
             self.vac.reset_states()
         # silence_audio_100ms = np.zeros(int(0.1*self.sample_rate))
         source_audio = np.frombuffer(in_data.source_audio, dtype=np.float32)
         speech_data  = self._process_speech_chunk(source_audio)
         if speech_data: # 表示有音频的变化点出现
-            rel_start_frame, rel_end_frame = speech_data
             if rel_start_frame is not None and rel_end_frame is None:
                 self._status = "START" # 语音开始
                 target_audio = source_audio[rel_start_frame:]

         super().__init__(in_queue, out_queue)
         self._offset = 0 # 处理的frame size offset
         self._status = 'END'
     def reset(self):
+        self._offset = 0
         self._status = 'END'
     @classmethod
     def init(cls):
         if cls.vac is None:
             cls.vac = FixedVADIterator(
+                threshold=0.5,
+                sampling_rate=cls.sample_rate,
                 # speech_pad_ms=10
+                min_silence_duration_ms = 150,
                 # speech_pad_ms = 30,
+                max_speech_duration_s=5.0,
                 )
             cls.vac.reset_states()
     # def reduce_noise(self, data):
     #     return nr.reduce_noise(y=data, sr=self.sample_rate)
             if end_frame:
                 relative_end_frame = end_frame - self._offset
             return relative_start_frame, relative_end_frame
     def process(self, in_data: MetaItem) -> MetaItem:
         if self._offset == 0:
             self.vac.reset_states()
         # silence_audio_100ms = np.zeros(int(0.1*self.sample_rate))
         source_audio = np.frombuffer(in_data.source_audio, dtype=np.float32)
         speech_data  = self._process_speech_chunk(source_audio)
         if speech_data: # 表示有音频的变化点出现
+            rel_start_frame, rel_end_frame = speech_data
             if rel_start_frame is not None and rel_end_frame is None:
                 self._status = "START" # 语音开始
                 target_audio = source_audio[rel_start_frame:]