File size: 2,678 Bytes
6218cf7
 
 
 
 
 
 
 
 
 
 
f6fd51a
 
eed99f7
 
 
6218cf7
 
 
 
 
 
0914cfa
 
6218cf7
 
c7e9223
6218cf7
 
c7e9223
6218cf7
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
---
license: apache-2.0
datasets:
- BAAI/CCI3-HQ
language:
- en
- zh
---

# ChineseModernBert

<p>
<a href=""><b>ChineseModernBert</b></a> &nbsp&nbsp | &nbsp&nbsp 🖥️ <a href="https://github.com/enze5088/ChineseModernBert">GitHub</a> &nbsp&nbsp  | &nbsp&nbsp🤗 <a href="https://huggingface.co/TurboPascal/ChineseModernBert">Hugging Face</a>&nbsp&nbsp  | &nbsp&nbsp 📑 <a href="https://zhuanlan.zhihu.com/p/26774266896">Blog</a> &nbsp&nbsp 
<br>


在自然语言处理领域,[BERT](https://huggingface.co/papers/1810.04805)自 2018 年发布以来,凭借其在语言理解和生成任务上的卓越表现,一直被广泛应用。然而,随着时间的推移,无论是中文还是英文的常用 Bert 模型,由于其发布时间距今已有 5 - 6 年,在模型架构和训练数据方面都逐渐显露出陈旧的问题。

近期,**ModernBERT**在 12 月19日左右发布,为自然语言处理领域带来了新的活力。但目前该模型主要面向英文用户,对于中文用户来说,其适用性存在一定的局限性。为了填补这一空白,满足中文自然语言处理任务的需求,笔者精心构建了基于中文语料的 ModelBert 中文版本模型。

ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。

训练代码地址:https://github.com/enze5088/ChineseModernBert

## 训练细节

- **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。
- **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
- **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
- **Batch Size**:单卡Batch Size 设置为4,总Batch size为96。
- **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
- **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.

## 开源协议

ModelBert 遵循 Apache 2.0 开源协议发布。这意味着你可以自由地使用、修改和分发该模型,但请务必遵守开源协议中的相关规定,并在使用过程中保留模型的版权声明。