Mxode commited on
Commit
d723b4f
·
verified ·
1 Parent(s): 0f62fe7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -0
README.md CHANGED
@@ -18,6 +18,8 @@ pipeline_tag: text-generation
18
 
19
  遵循 [SmolLM](https://huggingface.co/blog/smollm) 的做法,从头训练了一个**支持中英双语**的 SmolLM-Chinese-180M。
20
 
 
 
21
  请注意:**这只是基座模型,未经过任何对齐。**
22
 
23
 
@@ -31,6 +33,10 @@ Tokenizer 选用了 [Yi-1.5-9B-Chat](https://huggingface.co/01-ai/Yi-1.5-9B-Chat
31
 
32
  但出于训练速度考虑,并未采用深而窄的模型设计,适当减小了深度。
33
 
 
 
 
 
34
  在非常多的训练集上进行了训练,有些数据集做了进一步筛选和过滤。列举了部分主要数据集,整体比例大约为中文:英文:代码 = 4:4:2 的比例。同时中英文中均混合了一定的指令数据。
35
 
36
  **尚未进行任何基准测试。**
 
18
 
19
  遵循 [SmolLM](https://huggingface.co/blog/smollm) 的做法,从头训练了一个**支持中英双语**的 SmolLM-Chinese-180M。
20
 
21
+ **这并非在 SmolLM 基础上做中文继续预训练得到的模型,而是训练方法遵循 SmolLM 得到的新模型。**
22
+
23
  请注意:**这只是基座模型,未经过任何对齐。**
24
 
25
 
 
33
 
34
  但出于训练速度考虑,并未采用深而窄的模型设计,适当减小了深度。
35
 
36
+ 学习率调度方式采用**梯形调度**,根据 SmolLM、MiniCPM 以及个人验证,在预训练上,效果确实好于余弦调度,并且梯形调度支持方便地增添数据和续训。
37
+
38
+ 不同于 SmolLM 在最后 20% 的步骤开始衰减学习率,这里梯形调度的衰减步骤占比达到了 30%,采用和 MiniCPM 一致的指数衰减,最低衰减至最大学习率的 1%。
39
+
40
  在非常多的训练集上进行了训练,有些数据集做了进一步筛选和过滤。列举了部分主要数据集,整体比例大约为中文:英文:代码 = 4:4:2 的比例。同时中英文中均混合了一定的指令数据。
41
 
42
  **尚未进行任何基准测试。**