Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,21 @@
|
|
1 |
-
---
|
2 |
-
license: mit
|
3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: mit
|
3 |
+
---
|
4 |
+
Дообучалась модель `radce/llama3.2-1B-Instruct-ru`
|
5 |
+
Дообучались слои 13, 14, 15.
|
6 |
+
Датасет состоял из 13 862 816 токенов.
|
7 |
+
Видеокарта для дообучения: Tesla A100.
|
8 |
+
Датасеты для дообучения:
|
9 |
+
* radce/datasetGPT4o-mini
|
10 |
+
* radce/YandexGPT
|
11 |
+
* radce/ru_instruct_gpt4
|
12 |
+
* radce/communication_dataset
|
13 |
+
* radce/shorts_dataset
|
14 |
+
* radce/istruction_dataset
|
15 |
+
|
16 |
+
Обучение
|
17 |
+
```
|
18 |
+
{'loss': 0.8521, 'grad_norm': 0.5644629001617432, 'learning_rate': 2.9148375768217733e-05, 'epoch': 1.29}
|
19 |
+
{'loss': 0.6742, 'grad_norm': 0.5370610952377319, 'learning_rate': 7.199297629499562e-06, 'epoch': 2.58}
|
20 |
+
{'train_runtime': 5708.2175, 'train_samples_per_second': 22.869, 'train_steps_per_second': 0.204, 'train_loss': 0.7442483934749853, 'epoch': 3.0}
|
21 |
+
```
|