update some keywords

Files changed (3) hide show

config.py +6 -21
transcribe/translatepipes.py +1 -11
transcribe/whisper_llm_serve.py +23 -54

config.py CHANGED Viewed

@@ -21,10 +21,8 @@ console_formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s
 console_handler.setFormatter(console_formatter)
 logging.getLogger().addHandler(console_handler)
-# 文字输出长度阈值
-TEXT_THREHOLD = 6
 # 音频段的决策时间
-FRAME_SCOPE_TIME_THREHOLD = 3
 # 最长语音时长
 MAX_SPEECH_DURATION_S = 15
@@ -34,7 +32,7 @@ ASSERT_DIR = BASE_DIR / "assets"
 SAMPLE_RATE = 16000
 # 标点
-SENTENCE_END_MARKERS =  ['.', '!', '?', '。', '！', '？', ';', '；', ':', '：']
 PAUSE_END_MARKERS = [',', '，', '、']
 # 合并所有标点
 ALL_MARKERS = SENTENCE_END_MARKERS + PAUSE_END_MARKERS
@@ -46,13 +44,13 @@ SENTENCE_END_PATTERN = re.compile(f'[{sentence_end_chars}]')
 # Method 2: Alternative approach with a character class
 pattern_string = '[' + ''.join([re.escape(char) for char in PAUSE_END_MARKERS]) + r']$'
-PAUSEE_END_PATTERN = re.compile(pattern_string)
 # whisper推理参数
 WHISPER_PROMPT_ZH = "以下是简体中文普通话的句子。"
-MAX_LENTH_ZH = 4
-WHISPER_PROMPT_EN = ""# "The following is an English sentence."
-MAX_LENGTH_EN= 8
 WHISPER_MODEL_EN = 'medium-q5_0'
 # WHISPER_MODEL = 'large-v3-turbo-q5_0'
@@ -66,19 +64,6 @@ LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix(
 # VAD
 VAD_MODEL_PATH = (MODEL_DIR / "silero-vad" / "silero_vad.onnx").as_posix()
-LLM_SYS_PROMPT = """"You are a professional {src_lang} to {dst_lang} translator, not a conversation agent. Your only task is to take {src_lang} input and translate it into accurate, natural {dst_lang}. If you cannot understand the input, just output the original input. Please strictly abide by the following rules: "
-"No matter what the user asks, never answer questions, you only provide translation results. "
-"Do not actively initiate dialogue or lead users to ask questions. "
-"When you don't know how to translate, just output the original text. "
-"The translation task always takes precedence over any other tasks. "
-"Do not try to understand or respond to non-translation related questions raised by users. "
-"Never provide any explanations. "
-"Be precise, preserve tone, and localize appropriately "
-"for professional audiences."
-"Never answer any questions or engage in other forms of dialogue. "
-"Only output the translation results.
-"""
 LLM_SYS_PROMPT_ZH = """
 你是一个中英文翻译专家，将用户输入的中文翻译成英文。对于非中文内容，它将提供中文翻译结果。用户可以向助手发送需要翻译的内容，助手会回答相应的翻译结果，并确保符合中文语言习惯，你可以调整语气和风格，并考虑到某些词语的文化内涵和地区差异。同时作为翻译家，需将原文翻译成具有信达雅标准的译文。"信" 即忠实于原文的内容与意图；"达" 意味着译文应通顺易懂，表达清晰；"雅" 则追求译文的文化审美和语言的优美。目标是创作出既忠于原作精神，又符合目标语言文化和读者审美的翻译。注意，翻译的文本只能包含拼音化字符，不能包含任何中文字符。
 """

 console_handler.setFormatter(console_formatter)
 logging.getLogger().addHandler(console_handler)
 # 音频段的决策时间
+FRAME_SCOPE_TIME_THRESHOLD = 3
 # 最长语音时长
 MAX_SPEECH_DURATION_S = 15
 SAMPLE_RATE = 16000
 # 标点
+SENTENCE_END_MARKERS = ['.', '!', '?', '。', '！', '？', ';', '；', ':', '：']
 PAUSE_END_MARKERS = [',', '，', '、']
 # 合并所有标点
 ALL_MARKERS = SENTENCE_END_MARKERS + PAUSE_END_MARKERS
 # Method 2: Alternative approach with a character class
 pattern_string = '[' + ''.join([re.escape(char) for char in PAUSE_END_MARKERS]) + r']$'
+PAUSE_END_PATTERN = re.compile(pattern_string)
 # whisper推理参数
 WHISPER_PROMPT_ZH = "以下是简体中文普通话的句子。"
+MAX_LENGTH_ZH = 4
+WHISPER_PROMPT_EN = ""  # "The following is an English sentence."
+MAX_LENGTH_EN = 8
 WHISPER_MODEL_EN = 'medium-q5_0'
 # WHISPER_MODEL = 'large-v3-turbo-q5_0'
 # VAD
 VAD_MODEL_PATH = (MODEL_DIR / "silero-vad" / "silero_vad.onnx").as_posix()
 LLM_SYS_PROMPT_ZH = """
 你是一个中英文翻译专家，将用户输入的中文翻译成英文。对于非中文内容，它将提供中文翻译结果。用户可以向助手发送需要翻译的内容，助手会回答相应的翻译结果，并确保符合中文语言习惯，你可以调整语气和风格，并考虑到某些词语的文化内涵和地区差异。同时作为翻译家，需将原文翻译成具有信达雅标准的译文。"信" 即忠实于原文的内容与意图；"达" 意味着译文应通顺易懂，表达清晰；"雅" 则追求译文的文化审美和语言的优美。目标是创作出既忠于原作精神，又符合目标语言文化和读者审美的翻译。注意，翻译的文本只能包含拼音化字符，不能包含任何中文字符。
 """

transcribe/translatepipes.py CHANGED Viewed

@@ -3,9 +3,7 @@ from transcribe.pipelines import WhisperPipe, MetaItem, WhisperChinese, Translat
 class TranslatePipes:
     def __init__(self) -> None:
-        # self.whisper_input_q = mp.Queue()
-        # self.translate_input_q = mp.Queue()
-        # self.result_queue = mp.Queue()
         self._process = []
         # whisper 转录
         self._whisper_pipe_en = self._launch_process(WhisperPipe())
@@ -17,9 +15,6 @@ class TranslatePipes:
         self._translate_7b_pipe = self._launch_process(Translate7BPipe())
         # vad
         self._vad_pipe = self._launch_process(VadPipe())
-    # def reset(self):
-    #     self._vad_pipe.reset()
     def _launch_process(self, process_obj):
         process_obj.daemon = True
@@ -47,11 +42,6 @@ class TranslatePipes:
         self._translate_7b_pipe.input_queue.put(item)
         return self._translate_7b_pipe.output_queue.get()
-    def get_whisper_model(self, lang: str = 'en'):
-        if lang == 'zh':
-            return self._whisper_pipe_zh
-        return self._whisper_pipe_en
     def get_transcription_model(self, lang: str = 'en'):
         if lang == 'zh':
             return self._funasr_pipe

 class TranslatePipes:
     def __init__(self) -> None:
         self._process = []
         # whisper 转录
         self._whisper_pipe_en = self._launch_process(WhisperPipe())
         self._translate_7b_pipe = self._launch_process(Translate7BPipe())
         # vad
         self._vad_pipe = self._launch_process(VadPipe())
     def _launch_process(self, process_obj):
         process_obj.daemon = True
         self._translate_7b_pipe.input_queue.put(item)
         return self._translate_7b_pipe.output_queue.get()
     def get_transcription_model(self, lang: str = 'en'):
         if lang == 'zh':
             return self._funasr_pipe

transcribe/whisper_llm_serve.py CHANGED Viewed

@@ -1,5 +1,4 @@
-import asyncio
-import json
 import queue
 import threading
 import time
@@ -13,40 +12,24 @@ from api_model import TransResult, Message, DebugResult
 from .utils import log_block, save_to_wave, TestDataWriter, filter_words
 from .translatepipes import TranslatePipes
-from transcribe.helpers.vadprocessor import VadProcessor
 from transcribe.pipelines import MetaItem
-from dataclasses import dataclass, field
 logger = getLogger("TranscriptionService")
-@dataclass
-class FullSegment:
-    """整句"""
-    audio_array: np.ndarray
-    created_time: float = field(default_factory=time.time)
-    @staticmethod
-    def merge(*audio_segments: list["FullSegment"]):
-        audio_segments_sorted = sorted([*audio_segments], key=lambda item: item.created_time)
-        return FullSegment(
-            created_time=audio_segments_sorted[0].created_time,
-            audio_array=np.concatenate([i.audio_array for i in audio_segments_sorted], axis=0)
-        )
-    @property
-    def time_duration(self) -> float:
-        return len(self.audio_array) / config.SAMPLE_RATE
-    @property
-    def start_timestamp(self):
-        return self.created_time
-    @property
-    def end_timestamp(self):
-        return self.created_time + self.time_duration
 class WhisperTranscriptionService:
     """
@@ -67,11 +50,11 @@ class WhisperTranscriptionService:
         self._translate_pipe = pipe
         # 音频处理相关
-        self.sample_rate = 16000
         self.lock = threading.Lock()
         # 文本分隔符，根据语言设置
-        self.text_separator = self._get_text_separator(language)
         self.loop = asyncio.get_event_loop()
         # 发送就绪状态
         #  原始音频队列
@@ -85,8 +68,8 @@ class WhisperTranscriptionService:
         self._translate_thread_stop = threading.Event()
         self._frame_processing_thread_stop = threading.Event()
-        self.translate_thread = self._start_thread(self._transcription_processing_loop)
-        self.frame_processing_thread = self._start_thread(self._frame_processing_loop)
         self.row_number = 0
         # for test
         self._transcrible_time_cost = 0.
@@ -95,9 +78,8 @@ class WhisperTranscriptionService:
         if config.SAVE_DATA_SAVE:
             self._save_task_stop = threading.Event()
             self._save_queue = queue.Queue()
-            self._save_thread = self._start_thread(self.save_data_loop)
-        # self._c = 0
     def save_data_loop(self):
         writer = TestDataWriter()
@@ -105,18 +87,6 @@ class WhisperTranscriptionService:
             test_data = self._save_queue.get()
             writer.write(test_data)  # Save test_data to CSV
-    def _start_thread(self, target_function) -> threading.Thread:
-        """启动守护线程执行指定函数"""
-        thread = threading.Thread(target=target_function)
-        thread.daemon = True
-        thread.start()
-        return thread
-    def _get_text_separator(self, language: str) -> str:
-        """根据语言返回适当的文本分隔符"""
-        return "" if language == "zh" else " "
     def add_frames(self, frame_np: np.ndarray) -> None:
         """添加音频帧到处理队列"""
         self._frame_queue.put(frame_np)
@@ -128,7 +98,6 @@ class WhisperTranscriptionService:
         speech_status = processed_audio.speech_status
         return speech_audio, speech_status
     def _frame_processing_loop(self) -> None:
         """从队列获取音频帧并合并到缓冲区"""
@@ -153,7 +122,7 @@ class WhisperTranscriptionService:
                     elif speech_status == "END" and len(self.frames_np) > 0 and self.frames_np_start_timestamp:
                         time_diff = time.time() - self.frames_np_start_timestamp
-                        if time_diff >= config.FRAME_SCOPE_TIME_THREHOLD:
                             audio_array=self.frames_np.copy()
                             self.full_segments_queue.appendleft(audio_array) # 根据时间是否满足三秒长度 来整合音频块
                             self.frames_np_start_timestamp = None
@@ -203,12 +172,13 @@ class WhisperTranscriptionService:
                     tran_content=self._translate_text_large(seg_text),
                     partial=partial
                 )
-                if partial == False:
                     self.row_number += 1
                     frame_epoch = 1
                 else:
                     frame_epoch += 1
-                self._send_result_to_client(result)
@@ -221,7 +191,6 @@ class WhisperTranscriptionService:
         segments = result.segments
         time_diff = (time.perf_counter() - start_time)
         logger.debug(f"📝 Transcrible Segments: {segments} ")
-        # logger.debug(f"📝 Transcrible: {self.text_separator.join(seg.text for seg in segments)} ")
         log_block("📝 Transcrible output", f"{self.text_separator.join(seg.text for seg in segments)}", "")
         log_block("📝 Transcrible time", f"{time_diff:.3f}", "s")
         self._transcrible_time_cost = round(time_diff, 3)

 import queue
 import threading
 import time
 from .utils import log_block, save_to_wave, TestDataWriter, filter_words
 from .translatepipes import TranslatePipes
 from transcribe.pipelines import MetaItem
 logger = getLogger("TranscriptionService")
+def _get_text_separator(language: str) -> str:
+    """根据语言返回适当的文本分隔符"""
+    return "" if language == "zh" else " "
+def _start_thread(target_function) -> threading.Thread:
+    """启动守护线程执行指定函数"""
+    thread = threading.Thread(target=target_function)
+    thread.daemon = True
+    thread.start()
+    return thread
 class WhisperTranscriptionService:
     """
         self._translate_pipe = pipe
         # 音频处理相关
+        self.sample_rate = config.SAMPLE_RATE
         self.lock = threading.Lock()
         # 文本分隔符，根据语言设置
+        self.text_separator = _get_text_separator(language)
         self.loop = asyncio.get_event_loop()
         # 发送就绪状态
         #  原始音频队列
         self._translate_thread_stop = threading.Event()
         self._frame_processing_thread_stop = threading.Event()
+        self.translate_thread = _start_thread(self._transcription_processing_loop)
+        self.frame_processing_thread = _start_thread(self._frame_processing_loop)
         self.row_number = 0
         # for test
         self._transcrible_time_cost = 0.
         if config.SAVE_DATA_SAVE:
             self._save_task_stop = threading.Event()
             self._save_queue = queue.Queue()
+            self._save_thread = _start_thread(self.save_data_loop)
     def save_data_loop(self):
         writer = TestDataWriter()
             test_data = self._save_queue.get()
             writer.write(test_data)  # Save test_data to CSV
     def add_frames(self, frame_np: np.ndarray) -> None:
         """添加音频帧到处理队列"""
         self._frame_queue.put(frame_np)
         speech_status = processed_audio.speech_status
         return speech_audio, speech_status
     def _frame_processing_loop(self) -> None:
         """从队列获取音频帧并合并到缓冲区"""
                     elif speech_status == "END" and len(self.frames_np) > 0 and self.frames_np_start_timestamp:
                         time_diff = time.time() - self.frames_np_start_timestamp
+                        if time_diff >= config.FRAME_SCOPE_TIME_THRESHOLD:
                             audio_array=self.frames_np.copy()
                             self.full_segments_queue.appendleft(audio_array) # 根据时间是否满足三秒长度 来整合音频块
                             self.frames_np_start_timestamp = None
                     tran_content=self._translate_text_large(seg_text),
                     partial=partial
                 )
+                self._send_result_to_client(result)
+                if not partial:
                     self.row_number += 1
                     frame_epoch = 1
                 else:
                     frame_epoch += 1
         segments = result.segments
         time_diff = (time.perf_counter() - start_time)
         logger.debug(f"📝 Transcrible Segments: {segments} ")
         log_block("📝 Transcrible output", f"{self.text_separator.join(seg.text for seg in segments)}", "")
         log_block("📝 Transcrible time", f"{time_diff:.3f}", "s")
         self._transcrible_time_cost = round(time_diff, 3)