Merge branch 'vad'

* vad:
add words ignore
update vad min_silence_duration_ms to 100
update prompt for en
update prompt for en
fix bug of queue lock

Files changed (4) hide show

config/keywords.txt +1 -5
config/prompt.py +9 -15
transcribe/pipelines/pipe_vad.py +1 -1
transcribe/serve.py +54 -44

config/keywords.txt CHANGED Viewed

@@ -1,8 +1,4 @@
 OpenAGI
-GOSIM
-Rust
 LLaMA Factory
 OPENGL
-GPU
-Web3
-DeepSeek

 OpenAGI
 LLaMA Factory
 OPENGL
+Web3

config/prompt.py CHANGED Viewed

@@ -18,33 +18,27 @@ hotwords_json = json.loads((CONFIG_DIR / 'hotwords.json').read_text())
 keywords_list = [i.strip() for i in (CONFIG_DIR / 'keywords.txt').read_text().split('\n') if i.strip()]
 keywords_mapping_string = '\n'.join([f'  * {value}: {value}' for value in keywords_list ])
-LLM_SYS_7B_PROMPT_EN = """
 你是一名专业的同声传译员，正在为 GOSIM 会议提供中英/英中翻译服务。你的任务是准确、流畅地翻译发言内容。
 请遵循以下要求：
-1. **语言风格：** 翻译成中文时，请使用自然、流畅、符合现代汉语口语习惯的表达方式。避免生硬、逐字翻译的痕迹，要让听众容易理解。
-2. **专业术语：** 必须准确保留或翻译计算机相关的专业术语和技术词汇**请优先参考下方提供的术语对照表进行翻译。** 对于对照表中未包含的术语，如果该术语有公认的标准翻译，请使用标准翻译；如果没有或不确定，可以保留英文原文或提供最贴切的翻译。不要用通俗词汇替代专业术语。
-3. **专有名词：** 对于专有名词，如会议名称 "GOSIM"、人名、公司名、项目名、特定技术名称等，请保留其原始英文不做翻译。优先保持一致性和清晰度。
-4. **流畅性与准确性：** 在追求口语化的同时，务必保证信息传达的准确性。
-5. **输出：** 请直接输出翻译结果，不要添加任何额外的解释或说明。
-**专业术语对照表（请优先使用此表中的翻译）：**
-* Simulation: 仿真
-* Modeling: 建模
 * driver: 驱动
 * bus: 总线
 * mask: 掩码
 * preemption: 抢占
 * register: 寄存器
-* Servo: Servo
 {keywords_mapping_string}
 现在，请将以下内容翻译成中文：
 """.format(keywords_mapping_string=keywords_mapping_string)
 LLM_SYS_7B_PROMPT_ZH = """

 keywords_list = [i.strip() for i in (CONFIG_DIR / 'keywords.txt').read_text().split('\n') if i.strip()]
 keywords_mapping_string = '\n'.join([f'  * {value}: {value}' for value in keywords_list ])
+LLM_SYS_7B_PROMPT_EN= """
 你是一名专业的同声传译员，正在为 GOSIM 会议提供中英/英中翻译服务。你的任务是准确、流畅地翻译发言内容。
 请遵循以下要求：
+1. 语言风格：翻译成中文时，请使用自然、流畅、符合现代汉语口语习惯的表达方式。避免生硬、逐字翻译的痕迹，要让听众容易理解。
+2. 专业术语：**请优先参考下方提供的术语对照表进行翻译。** 对于对照表中未包含的术语，如果该术语有公认的标准翻译，请使用标准翻译；如果没有或不确定，可以保留英文原文或提供最贴切的翻译。不要用通俗词汇替代专业术语。
+3. 专有名词：对于专有名词，如会议名称 "GOSIM"、人名、公司名、项目名、特定技术名称等，请保留其原始英文不做翻译。
+4. 流畅性与准确性：在追求口语化的同时，务必保证信息传达的准确性。
+5. 输出：请直接输出翻译结果，不要添加任何额外的解释或说明。
+**专业术语对照表：**
 * driver: 驱动
 * bus: 总线
 * mask: 掩码
 * preemption: 抢占
 * register: 寄存器
+* Library: 库
+* biases: 偏移
 {keywords_mapping_string}
 现在，请将以下内容翻译成中文：
 """.format(keywords_mapping_string=keywords_mapping_string)
 LLM_SYS_7B_PROMPT_ZH = """

transcribe/pipelines/pipe_vad.py CHANGED Viewed

@@ -31,7 +31,7 @@ class VadPipe(BasePipe):
                 threshold=0.6,
                 sampling_rate=cls.sample_rate,
                 # speech_pad_ms=10
-                min_silence_duration_ms = 80,
                 # speech_pad_ms = 30,
                 )
             cls.vac.reset_states()

                 threshold=0.6,
                 sampling_rate=cls.sample_rate,
                 # speech_pad_ms=10
+                min_silence_duration_ms = 100,
                 # speech_pad_ms = 30,
                 )
             cls.vac.reset_states()

transcribe/serve.py CHANGED Viewed

@@ -37,7 +37,8 @@ class WhisperTranscriptionService:
         # 音频处理相关
         self.sample_rate = config.SAMPLE_RATE
-        self.lock = threading.Lock()
         # 文本分隔符，根据语言设置
         self.text_separator = get_text_separator(language)
         self.loop = asyncio.get_event_loop()
@@ -72,61 +73,70 @@ class WhisperTranscriptionService:
     def _read_frame_processing_loop(self) -> None:
         """从队列获取音频帧并合并到缓冲区"""
         while not self._stop.is_set():
-            try:
-                frame_np = self.frame_queue.get(timeout=0.1)
-                frame_np, speech_status = self._apply_voice_activity_detection(frame_np)
-                if frame_np is None:
-                    continue
-                # logger.critical(f"frame np:{frame_np.shape}, {speech_status}")
-                with self.lock:
-                    self.frames_np = np.append(self.frames_np, frame_np)
-                     # 音频开始时间节点 用来统计时间来 达到最小断句时间长度
-                    if speech_status == "START" and self.frames_np_start_timestamp is None:
-                        self.frames_np_start_timestamp = time.time()
-                    # 音频最长时间缓冲区限制，超过了就强制断句
-                    if len(self.frames_np) >= self.sample_rate * config.MAX_SPEECH_DURATION_S:
                         audio_array=self.frames_np.copy()
-                        self.full_segments_queue.appendleft(audio_array) # 根据时间是否满足三秒长度 来整合音频块
-                        self.frames_np_start_timestamp = time.time()
                         self.frames_np = np.array([], dtype=np.float32)
-                    # 音频结束信号的时候 整合当前缓冲区
-                    #   START -- END -- START -- END 通常
-                    #   START -- END -- END  end块带有音频信息的通常是4096内断的一个短音
-                    elif speech_status == "END" and len(self.frames_np) > 0 and self.frames_np_start_timestamp:
-                        time_diff = time.time() - self.frames_np_start_timestamp
-                        if time_diff >= config.FRAME_SCOPE_TIME_THRESHOLD:
-                            audio_array=self.frames_np.copy()
-                            self.full_segments_queue.appendleft(audio_array) # 根据时间是否满足三秒长度 来整合音频块
-                            self.frames_np_start_timestamp = None
-                            self.frames_np = np.array([], dtype=np.float32)
-                        else:
-                            logger.debug(f"🥳 当前时间与上一句的时间差: {time_diff:.2f}s,继续保留在缓冲区")
-            except queue.Empty:
-                pass
     def _transcription_processing_loop(self) -> None:
         """主转录处理循环"""
         frame_epoch = 1
         while not self._stop.is_set():
-            if len(self.frames_np) ==0:
-                time.sleep(0.1)
-                continue
-            with self.lock:
-                if len(self.full_segments_queue) > 0:
-                    audio_buffer = self.full_segments_queue.pop()
-                    partial = False
-                else:
                     audio_buffer = self.frames_np[:int(frame_epoch * 1.5 * self.sample_rate)].copy()# 获取 1.5s * epoch 个音频长度
                     partial = True
             if len(audio_buffer) < int(self.sample_rate):
                 # Add a small buffer (e.g., 10ms worth of samples) to be safe
                 padding_samples = int(self.sample_rate * 0.01) # e.g., 160 samples for 10ms at 16kHz
@@ -137,7 +147,7 @@ class WhisperTranscriptionService:
                 silence_audio[-copy_length:] = audio_buffer[-copy_length:] # Copy from the end of audio_buffer
                 audio_buffer = silence_audio
-            logger.debug(f"audio buffer size: {len(audio_buffer) / self.sample_rate:.2f}s")
             meta_item = self._transcribe_audio(audio_buffer)
             segments = meta_item.segments
             logger.debug(f"Segments: {segments}")
@@ -145,7 +155,7 @@ class WhisperTranscriptionService:
             if len(segments):
                 seg_text = self.text_separator.join(seg.text for seg in segments)
-                if not seg_text.strip(): # 过滤空字符
                     continue
                 # 整行
                 if not partial:

         # 音频处理相关
         self.sample_rate = config.SAMPLE_RATE
+        self.frame_lock = threading.Lock()
+        self.segment_lock = threading.Lock()
         # 文本分隔符，根据语言设置
         self.text_separator = get_text_separator(language)
         self.loop = asyncio.get_event_loop()
     def _read_frame_processing_loop(self) -> None:
         """从队列获取音频帧并合并到缓冲区"""
         while not self._stop.is_set():
+            frame_np = self.frame_queue.get()
+            frame_np, speech_status = self._apply_voice_activity_detection(frame_np)
+            if frame_np is None:
+                continue
+            with self.frame_lock:
+                self.frames_np = np.append(self.frames_np, frame_np)
+                # 音频开始时间节点 用来统计时间来 达到最小断句时间长度
+            if speech_status == "START" and self.frames_np_start_timestamp is None:
+                self.frames_np_start_timestamp = time.time()
+            # 音频最长时间缓冲区限制，超过了就强制断句
+            if len(self.frames_np) >= self.sample_rate * config.MAX_SPEECH_DURATION_S:
+                audio_array=self.frames_np.copy()
+                with self.segment_lock:
+                    self.full_segments_queue.appendleft(audio_array) # 根据时间是否满足三秒长度 来整合音频块
+                self.frames_np_start_timestamp = time.time()
+                with self.frame_lock:
+                    self.frames_np = np.array([], dtype=np.float32)
+            # 音频结束信号的时候 整合当前缓冲区
+            #   START -- END -- START -- END 通常
+            #   START -- END -- END  end块带有音频信息的通常是4096内断的一个短音
+            if speech_status == "END" and len(self.frames_np) > 0 and self.frames_np_start_timestamp:
+                time_diff = time.time() - self.frames_np_start_timestamp
+                if time_diff >= config.FRAME_SCOPE_TIME_THRESHOLD:
+                    with self.frame_lock:
                         audio_array=self.frames_np.copy()
                         self.frames_np = np.array([], dtype=np.float32)
+                    with self.segment_lock:
+                        self.full_segments_queue.appendleft(audio_array) # 根据时间是否满足三秒长度 来整合音频块
+                    logger.debug(f"🥳 增加整句到队列")
+                    self.frames_np_start_timestamp = None
+                else:
+                    logger.debug(f"🥳 当前时间与上一句的时间差: {time_diff:.2f}s,继续保留在缓冲区")
     def _transcription_processing_loop(self) -> None:
         """主转录处理循环"""
         frame_epoch = 1
         while not self._stop.is_set():
+            time.sleep(0.1)
+            with self.segment_lock:
+                segment_length = len(self.full_segments_queue)
+            if segment_length > 0:
+                audio_buffer = self.full_segments_queue.pop()
+                partial = False
+            else:
+                with self.frame_lock:
+                    if len(self.frames_np) ==0:
+                        continue
                     audio_buffer = self.frames_np[:int(frame_epoch * 1.5 * self.sample_rate)].copy()# 获取 1.5s * epoch 个音频长度
                     partial = True
+            logger.debug(f"full_segments_queue size: {segment_length}")
+            logger.debug(f"audio buffer size: {len(self.frames_np) / self.sample_rate:.2f}s")
             if len(audio_buffer) < int(self.sample_rate):
                 # Add a small buffer (e.g., 10ms worth of samples) to be safe
                 padding_samples = int(self.sample_rate * 0.01) # e.g., 160 samples for 10ms at 16kHz
                 silence_audio[-copy_length:] = audio_buffer[-copy_length:] # Copy from the end of audio_buffer
                 audio_buffer = silence_audio
             meta_item = self._transcribe_audio(audio_buffer)
             segments = meta_item.segments
             logger.debug(f"Segments: {segments}")
             if len(segments):
                 seg_text = self.text_separator.join(seg.text for seg in segments)
+                if seg_text.strip() in ['', '.', '-']: # 过滤空字符
                     continue
                 # 整行
                 if not partial: