change config folder structures

Files changed (8) hide show

config/__init__.py +2 -0
{moyoyo_asr_models → config}/hotwords.json +0 -0
{moyoyo_asr_models → config}/hotwords.txt +0 -0
config/keyword_list.txt +0 -0
config.py → config/prompt.py +21 -83
config/settings.py +67 -0
transcribe/pipelines/pipe_translate.py +2 -2
transcribe/whisper_llm_serve.py +4 -2

config/__init__.py ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ from .settings import *
2	+ from .prompt import *

{moyoyo_asr_models → config}/hotwords.json RENAMED Viewed

File without changes

{moyoyo_asr_models → config}/hotwords.txt RENAMED Viewed

File without changes

config/keyword_list.txt ADDED Viewed

File without changes

config.py → config/prompt.py RENAMED Viewed

@@ -1,71 +1,6 @@
-import pathlib
-import re
-import logging
 import json
-DEBUG = False
-LOG_LEVEL = logging.DEBUG if DEBUG else logging.WARNING
-logging.getLogger("pywhispercpp").setLevel(logging.WARNING)
-logging.basicConfig(
-    level=LOG_LEVEL,
-    format="%(asctime)s - %(levelname)s - %(message)s",
-    filename='translator.log',
-    datefmt="%H:%M:%S"
-)
-# save pipelines data to disk
-SAVE_DATA_SAVE = False
-# Add terminal log
-console_handler = logging.StreamHandler()
-console_handler.setLevel(LOG_LEVEL)
-console_formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
-console_handler.setFormatter(console_formatter)
-logging.getLogger().addHandler(console_handler)
-# 音频段的决策时间
-FRAME_SCOPE_TIME_THRESHOLD = 4
-# 最长语音时长
-MAX_SPEECH_DURATION_S = 15
-BASE_DIR = pathlib.Path(__file__).parent
-MODEL_DIR = BASE_DIR / "moyoyo_asr_models"
-ASSERT_DIR = BASE_DIR / "assets"
-SAMPLE_RATE = 16000
-# 标点
-SENTENCE_END_MARKERS = ['.', '!', '?', '。', '！', '？', ';', '；', ':', '：']
-PAUSE_END_MARKERS = [',', '，', '、']
-# 合并所有标点
-ALL_MARKERS = SENTENCE_END_MARKERS + PAUSE_END_MARKERS
-# 构造正则表达式字符类
-REGEX_MARKERS = re.compile(r'[' + re.escape(''.join(ALL_MARKERS)) + r']$')
-sentence_end_chars = ''.join([re.escape(char) for char in SENTENCE_END_MARKERS])
-SENTENCE_END_PATTERN = re.compile(f'[{sentence_end_chars}]')
-# Method 2: Alternative approach with a character class
-pattern_string = '[' + ''.join([re.escape(char) for char in PAUSE_END_MARKERS]) + r']$'
-PAUSE_END_PATTERN = re.compile(pattern_string)
-# whisper推理参数
-WHISPER_PROMPT_ZH = "以下是简体中文普通话的句子。"
-MAX_LENGTH_ZH = 4
-WHISPER_PROMPT_EN = ""  # "The following is an English sentence."
-MAX_LENGTH_EN = 8
-WHISPER_MODEL_EN = 'medium-q5_0'
-# WHISPER_MODEL = 'large-v3-turbo-q5_0'
-# WHISPER_MODEL_ZH = 'small'
-WHISPER_MODEL_ZH = 'large-v3-turbo-q5_0'
-# LLM
-LLM_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix()
-LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix()
-# LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-7b-instruct-q5_0-00001-of-00002.gguf").as_posix()
-# VAD
-VAD_MODEL_PATH = (MODEL_DIR / "silero-vad" / "silero_vad.onnx").as_posix()
 LLM_SYS_PROMPT_ZH = """
 你是一个中英文翻译专家，将用户输入的中文翻译成英文。对于非中文内容，它将提供中文翻译结果。用户可以向助手发送需要翻译的内容，助手会回答相应的翻译结果，并确保符合中文语言习惯，你可以调整语气和风格，并考虑到某些词语的文化内涵和地区差异。同时作为翻译家，需将原文翻译成具有信达雅标准的译文。"信" 即忠实于原文的内容与意图；"达" 意味着译文应通顺易懂，表达清晰；"雅" 则追求译文的文化审美和语言的优美。目标是创作出既忠于原作精神，又符合目标语言文化和读者审美的翻译。注意，翻译的文本只能包含拼音化字符，不能包含任何中文字符。
 """
@@ -74,29 +9,32 @@ LLM_SYS_PROMPT_EN = """
 你是一个英中文翻译专家，将用户输入的英文翻译成中文，用户可以向助手发送需要翻译的内容，助手会回答相应的翻译结果，并确保符合英文语言习惯，你可以调整语气和风格，并考虑到某些词语的文化内涵和地区差异。同时作为翻译家，需将英文翻译成具有信达雅标准的中文。"信" 即忠实于原文的内容与意图；"达" 意味着译文应通顺易懂，表达清晰；"雅" 则追求译文的文化审美和语言的优美。目标是创作出既忠于原作精神，又符合目标语言文化和读者审美的翻译。
 """
-hotwords_file = MODEL_DIR / 'hotwords.txt'
-hotwords_json = json.loads((MODEL_DIR / 'hotwords.json').read_text())
-keywords_mapping = {
-    "Go Sim": "GOSIM"
-}
 keywords_mapping_string = '\n'.join([
-    f'- {key}:{value}'
-    for key,value in keywords_mapping.items()
 ])
 LLM_SYS_7B_PROMPT_EN = """
-你是一个中英文翻译专家，请将以下英文文本翻译成中文，保持原文的意思、语气和格式。对于翻译过程中的关键词，请参考下方提供的词汇对照表进行准确翻译。
-关键词对照表：
-{keywords_mapping_string}
-...
-请注意以下要求：
-1. 保持专业术语的准确性，严格按照关键词对照表翻译
-2. 保持原文的段落结构和格式
-3. 翻译应当流畅自然，符合英语表达习惯
-4. 如遇到关键词对照表中未包含的专业术语，请尽量使用通用翻译
 文本：
 """.format(keywords_mapping_string=keywords_mapping_string)
@@ -115,4 +53,4 @@ LLM_SYS_7B_PROMPT_ZH = """
    - 翻译内容符合中文表达习惯
    - 保持专业性和准确性
 如遇到难以判断是否需要保留英文的情况，请优先保留原始英文形式。
-文本："""

+from .settings import CONFIG_DIR
 import json
 LLM_SYS_PROMPT_ZH = """
 你是一个中英文翻译专家，将用户输入的中文翻译成英文。对于非中文内容，它将提供中文翻译结果。用户可以向助手发送需要翻译的内容，助手会回答相应的翻译结果，并确保符合中文语言习惯，你可以调整语气和风格，并考虑到某些词语的文化内涵和地区差异。同时作为翻译家，需将原文翻译成具有信达雅标准的译文。"信" 即忠实于原文的内容与意图；"达" 意味着译文应通顺易懂，表达清晰；"雅" 则追求译文的文化审美和语言的优美。目标是创作出既忠于原作精神，又符合目标语言文化和读者审美的翻译。注意，翻译的文本只能包含拼音化字符，不能包含任何中文字符。
 """
 你是一个英中文翻译专家，将用户输入的英文翻译成中文，用户可以向助手发送需要翻译的内容，助手会回答相应的翻译结果，并确保符合英文语言习惯，你可以调整语气和风格，并考虑到某些词语的文化内涵和地区差异。同时作为翻译家，需将英文翻译成具有信达雅标准的中文。"信" 即忠实于原文的内容与意图；"达" 意味着译文应通顺易懂，表达清晰；"雅" 则追求译文的文化审美和语言的优美。目标是创作出既忠于原作精神，又符合目标语言文化和读者审美的翻译。
 """
+hotwords_file = CONFIG_DIR / 'hotwords.txt'
+hotwords_json = json.loads((CONFIG_DIR / 'hotwords.json').read_text())
+# 翻译提示词
+keywords_list = [
+    "GOSIM",
+    "GO SIM",
+    'Rust',
+]
 keywords_mapping_string = '\n'.join([
+    f'  * {value}'
+    for value in keywords_list
 ])
 LLM_SYS_7B_PROMPT_EN = """
+你是一位精通简体中文的专业翻译，尤其擅长将专业学术论文翻译成浅显易懂的科普文章。请你帮我将以下英文段落翻译成中文，风格与中文科普读物相似。
+规则：
+- 翻译时要准确传达原文的事实和背景；
+- 即使上意译也要保留原始段落格式，以及保留术语，例如 FLAC，JPEG 等。保留公司缩写，例如 Microsoft, Amazon, OpenAI 等；
+- 人物的名称不需要翻译；
+- 全角括号换成半角括号，并在左括号前面加半角空格，右括号后面加半角空格；
+- 在翻译专业术语时，第一次出现时要在括号里面写上英文原文，例如：“生成式 AI (Generative AI)”，之后就可以只写中文了；
+- 以下是常见的AI相关术语，这部分的术语不需要翻译；
+{keywords_mapping_string}
 文本：
 """.format(keywords_mapping_string=keywords_mapping_string)
    - 翻译内容符合中文表达习惯
    - 保持专业性和准确性
 如遇到难以判断是否需要保留英文的情况，请优先保留原始英文形式。
+文本："""

config/settings.py ADDED Viewed

	@@ -0,0 +1,67 @@

+import pathlib
+import re
+import logging
+import json
+DEBUG = False
+LOG_LEVEL = logging.DEBUG if DEBUG else logging.WARNING
+logging.getLogger("pywhispercpp").setLevel(logging.WARNING)
+logging.basicConfig(
+    level=LOG_LEVEL,
+    format="%(asctime)s - %(levelname)s - %(message)s",
+    filename='translator.log',
+    datefmt="%H:%M:%S"
+)
+# save pipelines data to disk
+SAVE_DATA_SAVE = False
+# Add terminal log
+console_handler = logging.StreamHandler()
+console_handler.setLevel(LOG_LEVEL)
+console_formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
+console_handler.setFormatter(console_formatter)
+logging.getLogger().addHandler(console_handler)
+# 音频段的决策时间
+FRAME_SCOPE_TIME_THRESHOLD = 4
+# 最长语音时长
+MAX_SPEECH_DURATION_S = 15
+BASE_DIR = pathlib.Path(__file__).parent.parent
+MODEL_DIR = BASE_DIR / "moyoyo_asr_models"
+ASSERT_DIR = BASE_DIR / "assets"
+CONFIG_DIR = BASE_DIR / "config"
+SAMPLE_RATE = 16000
+# 标点
+SENTENCE_END_MARKERS = ['.', '!', '?', '。', '！', '？', ';', '；', ':', '：']
+PAUSE_END_MARKERS = [',', '，', '、']
+# 合并所有标点
+ALL_MARKERS = SENTENCE_END_MARKERS + PAUSE_END_MARKERS
+# 构造正则表达式字符类
+REGEX_MARKERS = re.compile(r'[' + re.escape(''.join(ALL_MARKERS)) + r']$')
+sentence_end_chars = ''.join([re.escape(char) for char in SENTENCE_END_MARKERS])
+SENTENCE_END_PATTERN = re.compile(f'[{sentence_end_chars}]')
+# Method 2: Alternative approach with a character class
+pattern_string = '[' + ''.join([re.escape(char) for char in PAUSE_END_MARKERS]) + r']$'
+PAUSE_END_PATTERN = re.compile(pattern_string)
+# whisper推理参数
+WHISPER_PROMPT_ZH = "以下是简体中文普通话的句子。"
+MAX_LENGTH_ZH = 4
+WHISPER_PROMPT_EN = ""  # "The following is an English sentence."
+MAX_LENGTH_EN = 8
+WHISPER_MODEL_EN = 'medium-q5_0'
+# WHISPER_MODEL = 'large-v3-turbo-q5_0'
+# WHISPER_MODEL_ZH = 'small'
+WHISPER_MODEL_ZH = 'large-v3-turbo-q5_0'
+# LLM
+LLM_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix()
+LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-1.5b-instruct-q5_0.gguf").as_posix()
+# LLM_LARGE_MODEL_PATH = (MODEL_DIR / "qwen2.5-7b-instruct-q5_0-00001-of-00002.gguf").as_posix()
+# VAD
+VAD_MODEL_PATH = (MODEL_DIR / "silero-vad" / "silero_vad.onnx").as_posix()

transcribe/pipelines/pipe_translate.py CHANGED Viewed

@@ -2,7 +2,7 @@
 from .base import MetaItem, BasePipe, Segment
 from llama_cpp import Llama
 from ..helpers.translator import QwenTranslator
-from config import LLM_MODEL_PATH, LLM_SYS_PROMPT_EN, LLM_SYS_PROMPT_ZH, LLM_LARGE_MODEL_PATH, ALL_MARKERS
 class TranslatePipe(BasePipe):
@@ -33,7 +33,7 @@ class Translate7BPipe(TranslatePipe):
     @classmethod
     def init(cls):
         if cls.translator is None:
-            cls.translator = QwenTranslator(LLM_LARGE_MODEL_PATH, LLM_SYS_PROMPT_EN, LLM_SYS_PROMPT_ZH)

 from .base import MetaItem, BasePipe, Segment
 from llama_cpp import Llama
 from ..helpers.translator import QwenTranslator
+from config import LLM_MODEL_PATH, LLM_SYS_PROMPT_EN, LLM_SYS_PROMPT_ZH, LLM_LARGE_MODEL_PATH, ALL_MARKERS, LLM_SYS_7B_PROMPT_EN, LLM_SYS_7B_PROMPT_ZH
 class TranslatePipe(BasePipe):
     @classmethod
     def init(cls):
         if cls.translator is None:
+            cls.translator = QwenTranslator(LLM_LARGE_MODEL_PATH, LLM_SYS_7B_PROMPT_EN, LLM_SYS_7B_PROMPT_ZH)

transcribe/whisper_llm_serve.py CHANGED Viewed

@@ -107,7 +107,7 @@ class WhisperTranscriptionService:
                 if frame_np is None:
                     continue
                 with self.lock:
                     self.frames_np = np.append(self.frames_np, frame_np)
@@ -123,6 +123,8 @@ class WhisperTranscriptionService:
                         self.frames_np = np.array([], dtype=np.float32)
                     # 音频结束信号的时候 整合当前缓冲区
                     elif speech_status == "END" and len(self.frames_np) > 0 and self.frames_np_start_timestamp:
                         time_diff = time.time() - self.frames_np_start_timestamp
                         if time_diff >= config.FRAME_SCOPE_TIME_THRESHOLD:
@@ -141,7 +143,7 @@ class WhisperTranscriptionService:
         frame_epoch = 1
         while not self._translate_thread_stop.is_set():
             if len(self.frames_np) ==0:
                 time.sleep(0.1)
                 continue

                 if frame_np is None:
                     continue
+                # logger.critical(f"frame np:{frame_np.shape}, {speech_status}")
                 with self.lock:
                     self.frames_np = np.append(self.frames_np, frame_np)
                         self.frames_np = np.array([], dtype=np.float32)
                     # 音频结束信号的时候 整合当前缓冲区
+                    #   START -- END -- START -- END 通常
+                    #   START -- END -- END  end块带有音频信息的通常是4096内断的一个短音
                     elif speech_status == "END" and len(self.frames_np) > 0 and self.frames_np_start_timestamp:
                         time_diff = time.time() - self.frames_np_start_timestamp
                         if time_diff >= config.FRAME_SCOPE_TIME_THRESHOLD:
         frame_epoch = 1
         while not self._translate_thread_stop.is_set():
             if len(self.frames_np) ==0:
                 time.sleep(0.1)
                 continue