Update README.md
Browse files
README.md
CHANGED
@@ -18,6 +18,8 @@ pipeline_tag: text-generation
|
|
18 |
|
19 |
遵循 [SmolLM](https://huggingface.co/blog/smollm) 的做法,从头训练了一个**支持中英双语**的 SmolLM-Chinese-180M。
|
20 |
|
|
|
|
|
21 |
请注意:**这只是基座模型,未经过任何对齐。**
|
22 |
|
23 |
|
@@ -31,6 +33,10 @@ Tokenizer 选用了 [Yi-1.5-9B-Chat](https://huggingface.co/01-ai/Yi-1.5-9B-Chat
|
|
31 |
|
32 |
但出于训练速度考虑,并未采用深而窄的模型设计,适当减小了深度。
|
33 |
|
|
|
|
|
|
|
|
|
34 |
在非常多的训练集上进行了训练,有些数据集做了进一步筛选和过滤。列举了部分主要数据集,整体比例大约为中文:英文:代码 = 4:4:2 的比例。同时中英文中均混合了一定的指令数据。
|
35 |
|
36 |
**尚未进行任何基准测试。**
|
|
|
18 |
|
19 |
遵循 [SmolLM](https://huggingface.co/blog/smollm) 的做法,从头训练了一个**支持中英双语**的 SmolLM-Chinese-180M。
|
20 |
|
21 |
+
**这并非在 SmolLM 基础上做中文继续预训练得到的模型,而是训练方法遵循 SmolLM 得到的新模型。**
|
22 |
+
|
23 |
请注意:**这只是基座模型,未经过任何对齐。**
|
24 |
|
25 |
|
|
|
33 |
|
34 |
但出于训练速度考虑,并未采用深而窄的模型设计,适当减小了深度。
|
35 |
|
36 |
+
学习率调度方式采用**梯形调度**,根据 SmolLM、MiniCPM 以及个人验证,在预训练上,效果确实好于余弦调度,并且梯形调度支持方便地增添数据和续训。
|
37 |
+
|
38 |
+
不同于 SmolLM 在最后 20% 的步骤开始衰减学习率,这里梯形调度的衰减步骤占比达到了 30%,采用和 MiniCPM 一致的指数衰减,最低衰减至最大学习率的 1%。
|
39 |
+
|
40 |
在非常多的训练集上进行了训练,有些数据集做了进一步筛选和过滤。列举了部分主要数据集,整体比例大约为中文:英文:代码 = 4:4:2 的比例。同时中英文中均混合了一定的指令数据。
|
41 |
|
42 |
**尚未进行任何基准测试。**
|