zh-tw-llm-dev-sample-tokenizer-a8k-f6dd50

This tokenizer is a part of the zh-tw-llm-dev project.
Base tokenizer: EleutherAI/pythia-70m
Built with: word_frequency_list
Vocab size: 58114
Tokens added (planned/actual): 8000 / 7860
Full config:
{"build_with": "word_frequency_list", "tokens_to_add": 8000, "word_frequency_list_settings": {"word_frequency_list_name": "zetavg/tw-sinica-corpus-word-frequency", "include_words": ["。", "，", "、", "？", "！", "；", "：", "……", "～", "「", "」", "『", "』", "【", "】", "〖", "〗", "（", "）", "〔", "〕", "［", "］", "｛", "｝", "《", "》", "〈", "〉", "——", "──", "－", "−", "＿", "・", "．", "·", "／", "＼", "｜", "＜", "＞"], "replace_rules": [{"match": {"regex": "�"}, "replace": null}, {"match": {"pos": ["Nb", "FW", null]}, "replace": null, "except": ["奧運", "中共", "國民黨", "民進黨", "新黨", "共產黨", "媽祖", "耶穌"]}, {"match": {"regex": ["^[Ａ-Ｚａ-ｚ０-９﹒• ]+$", "^[零一二兩三四五六七八九十廿卅百千萬億兆壹貳參肆伍陸柒捌玖拾佰仟０-９﹒•]{2,}$", "^（[零一二兩三四五六七八九十廿卅百千萬億兆壹貳參肆伍陸柒捌玖拾佰仟０-９﹒•]+）$", "^[第數][零一二兩三四五六七八九十百千萬億兆０-９﹒•]+$", "^[零一二兩三四五六七八九十廿卅百千萬億兆０-９﹒•]+分之[零一二兩三四五六七八九十廿卅百千萬億兆０-９﹒•]+$", "^[零一二兩三四五六七八九十廿卅百千萬億兆０-９﹒•]+[多餘來幾成次年月日天時分點世代歲起段樓％]$", "^[零一二三四五六七八九十廿卅０-９]+(月份|年代?|世紀|學?年度|年級)$", "^(星期|週|周)[一二三四五六日]$"]}, "replace": null, "except": ["十分", "一起", "一點", "一時", "千萬", "兩三", "百分之百"]}, {"match": {"pos": "VHC", "regex": "^(.{2,})化$"}, "sub": "\\1"}, {"match": {"regex": "^(.+球)場$"}, "sub": "\\1"}, {"match": {"pos": "Nc", "regex": "^(.{2,})園區$"}, "sub": "\\1"}, {"match": {"pos": "Nc", "regex": "^(.{2,})[鄉鎮縣市區]$"}, "sub": "\\1"}, {"match": {"pos": "Nc", "regex": "^(.{2,})[界院部會署局館系所]$"}, "sub": "\\1", "except": ["委員會", "研究所", "中研院", "國科會", "資策會", "經建會", "工研院", "電信總局", "鎮公所", "事務所", "交易所", "農委會", "鄉公所", "地檢署", "警分局", "派出所", "托兒所", "消基會", "文建會", "兩廳院", "陸委會", "市議會"]}, {"match": {"pos": "Na", "regex": "^(.{2,})人$"}, "sub": "\\1", "except": ["年輕人", "負責人", "投資人", "候選人", "一家人", "當地人", "製作人"]}, {"match": {"pos": "Na", "regex": "^(.{2,3})學?家$"}, "sub": "\\1", "except": ["女人家", "婦人家", "新儒家", "窮人家", "縱橫家", "老人家", "老東家", "闊人家", "大戶人家", "婦道人家", "小戶人家", "水上人家", "諸子百家"]}, {"match": {"pos": "Na", "regex": "^副?總?([^副總]{2,})師$"}, "sub": "\\1", "except": ["中醫師", "囝仔師", "正機師", "準教師", "獸醫師", "班導師", "練馬師", "總舖師", "老像師", "新三十師", "至聖先師", "音樂大師"]}, {"match": {"pos": "Na", "regex": "^[原前]?(?:代|代理)?副?總?([^前代副總議警里首院部署局廳司處科組課股]{2,})[院部署局廳司處科組課股]?次?長$"}, "sub": "\\1", "except": ["董事長", "理事長", "秘書長", "執行長", "分局長", "縣市長", "一技之長", "省市長", "負成長", "高成長", "大家長", "小組長", "區組長", "低成長", "偵一組長", "停管隊長", "考選部長", "年增長", "正成長", "支店長", "公賣局長", "中宣部長", "小市長"]}, {"match": {"pos": "Na", "regex": "^副?總?正?([^副總正議委人隊]{2,})[委人隊]?員$"}, "sub": "\\1", "except": ["主跑員", "乘務員", "佐理員", "共黨員", "外務員", "從業員", "特派員", "義服員", "銜道員", "啦啦隊員", "指服團員"]}, {"match": {"pos": "Na", "regex": "^副(.{2,})$"}, "sub": "\\1", "except": ["副作用"]}, {"match": "大規模", "replace": "規模"}, {"match": "廢棄物", "replace": "廢棄"}, {"match": "共產主義", "replace": "共產"}, {"match": "資本主義", "replace": "資本"}, {"match": "進一步", "replace": ["一步", "進一步"]}, {"match": "差不多", "replace": ["不多", "差不多"]}, {"match": "忍不住", "replace": ["不住", "忍不住"]}, {"match": "不見得", "replace": ["見得", "不見得"]}, {"match": "有助於", "replace": ["助於", "有助於"]}, {"match": "舊金山", "replace": ["金山", "舊金山"]}, {"match": "大躍進", "replace": ["躍進", "大躍進"]}, {"match": "半導體", "replace": ["導體", "半導體"]}, {"match": "總幹事", "replace": ["幹事", "總幹事"]}, {"match": "兩廳院", "replace": ["廳院", "兩廳院"]}]}}