ChlorophyllChampion commited on
Commit
975e103
1 Parent(s): 0c627ad

Upload 8 files

Browse files
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "GPTNeoXForCausalLM"
4
+ ],
5
+ "attention_bias": true,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "classifier_dropout": 0.1,
9
+ "eos_token_id": 1,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout": 0.0,
12
+ "hidden_size": 512,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 2048,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 2048,
17
+ "model_type": "gpt_neox",
18
+ "num_attention_heads": 8,
19
+ "num_hidden_layers": 6,
20
+ "rope_scaling": null,
21
+ "rotary_emb_base": 10000,
22
+ "rotary_pct": 0.25,
23
+ "tie_word_embeddings": false,
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.39.2",
26
+ "use_cache": true,
27
+ "use_parallel_residual": true,
28
+ "vocab_size": 384
29
+ }
generation_config.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "eos_token_id": 1,
4
+ "transformers_version": "4.39.2"
5
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd75b7f8c67702815af97644adc44cb8293ea3d6ab29636c11810aa72fd78a47
3
+ size 77242672
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b51a5b06a16148881aef4419f115048eae5462c2e56366c6ba1c9a8c9d2c3c5d
3
+ size 154513210
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:592c43fcd4f224a713b94e9b0547d56fff2d04c9a3f50aaae922858b09cf4f47
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:54170defda7f8314ce25911dc27a6c89c123f5c8df2ad3e4ecbdadd81aee4d82
3
+ size 1000
trainer_state.json ADDED
@@ -0,0 +1,3921 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 2.5235376358032227,
3
+ "best_model_checkpoint": "./results/checkpoint-50000",
4
+ "epoch": 0.3637362257638006,
5
+ "eval_steps": 1000,
6
+ "global_step": 50000,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0,
13
+ "grad_norm": 3.156810998916626,
14
+ "learning_rate": 5e-06,
15
+ "loss": 5.0881,
16
+ "step": 100
17
+ },
18
+ {
19
+ "epoch": 0.0,
20
+ "grad_norm": 1.8936021327972412,
21
+ "learning_rate": 1e-05,
22
+ "loss": 3.4609,
23
+ "step": 200
24
+ },
25
+ {
26
+ "epoch": 0.0,
27
+ "grad_norm": 0.8277048468589783,
28
+ "learning_rate": 1.5e-05,
29
+ "loss": 2.9956,
30
+ "step": 300
31
+ },
32
+ {
33
+ "epoch": 0.0,
34
+ "grad_norm": 0.5409151315689087,
35
+ "learning_rate": 2e-05,
36
+ "loss": 2.7702,
37
+ "step": 400
38
+ },
39
+ {
40
+ "epoch": 0.0,
41
+ "grad_norm": 0.37298905849456787,
42
+ "learning_rate": 2.5e-05,
43
+ "loss": 2.7116,
44
+ "step": 500
45
+ },
46
+ {
47
+ "epoch": 0.0,
48
+ "grad_norm": 1.4856789112091064,
49
+ "learning_rate": 3e-05,
50
+ "loss": 2.676,
51
+ "step": 600
52
+ },
53
+ {
54
+ "epoch": 0.01,
55
+ "grad_norm": 0.9477183222770691,
56
+ "learning_rate": 3.5e-05,
57
+ "loss": 2.6509,
58
+ "step": 700
59
+ },
60
+ {
61
+ "epoch": 0.01,
62
+ "grad_norm": 0.42317140102386475,
63
+ "learning_rate": 4e-05,
64
+ "loss": 2.6364,
65
+ "step": 800
66
+ },
67
+ {
68
+ "epoch": 0.01,
69
+ "grad_norm": 0.9827988743782043,
70
+ "learning_rate": 4.5e-05,
71
+ "loss": 2.6289,
72
+ "step": 900
73
+ },
74
+ {
75
+ "epoch": 0.01,
76
+ "grad_norm": 0.647011935710907,
77
+ "learning_rate": 5e-05,
78
+ "loss": 2.6236,
79
+ "step": 1000
80
+ },
81
+ {
82
+ "epoch": 0.01,
83
+ "eval_loss": 2.6208438873291016,
84
+ "eval_runtime": 5241.4331,
85
+ "eval_samples_per_second": 1118.979,
86
+ "eval_steps_per_second": 69.936,
87
+ "step": 1000
88
+ },
89
+ {
90
+ "epoch": 0.01,
91
+ "grad_norm": 0.3872681260108948,
92
+ "learning_rate": 5.500000000000001e-05,
93
+ "loss": 2.6201,
94
+ "step": 1100
95
+ },
96
+ {
97
+ "epoch": 0.01,
98
+ "grad_norm": 0.6852623224258423,
99
+ "learning_rate": 6e-05,
100
+ "loss": 2.6152,
101
+ "step": 1200
102
+ },
103
+ {
104
+ "epoch": 0.01,
105
+ "grad_norm": 0.5895536541938782,
106
+ "learning_rate": 6.500000000000001e-05,
107
+ "loss": 2.6152,
108
+ "step": 1300
109
+ },
110
+ {
111
+ "epoch": 0.01,
112
+ "grad_norm": 0.5872493386268616,
113
+ "learning_rate": 7e-05,
114
+ "loss": 2.6124,
115
+ "step": 1400
116
+ },
117
+ {
118
+ "epoch": 0.01,
119
+ "grad_norm": 0.6140819787979126,
120
+ "learning_rate": 7.500000000000001e-05,
121
+ "loss": 2.6106,
122
+ "step": 1500
123
+ },
124
+ {
125
+ "epoch": 0.01,
126
+ "grad_norm": 0.6721034646034241,
127
+ "learning_rate": 8e-05,
128
+ "loss": 2.6097,
129
+ "step": 1600
130
+ },
131
+ {
132
+ "epoch": 0.01,
133
+ "grad_norm": 0.3682301640510559,
134
+ "learning_rate": 8.5e-05,
135
+ "loss": 2.6075,
136
+ "step": 1700
137
+ },
138
+ {
139
+ "epoch": 0.01,
140
+ "grad_norm": 0.4152977764606476,
141
+ "learning_rate": 9e-05,
142
+ "loss": 2.6065,
143
+ "step": 1800
144
+ },
145
+ {
146
+ "epoch": 0.01,
147
+ "grad_norm": 0.30114710330963135,
148
+ "learning_rate": 9.5e-05,
149
+ "loss": 2.6067,
150
+ "step": 1900
151
+ },
152
+ {
153
+ "epoch": 0.01,
154
+ "grad_norm": 0.29172569513320923,
155
+ "learning_rate": 0.0001,
156
+ "loss": 2.6056,
157
+ "step": 2000
158
+ },
159
+ {
160
+ "epoch": 0.01,
161
+ "eval_loss": 2.604510545730591,
162
+ "eval_runtime": 5009.0383,
163
+ "eval_samples_per_second": 1170.894,
164
+ "eval_steps_per_second": 73.181,
165
+ "step": 2000
166
+ },
167
+ {
168
+ "epoch": 0.02,
169
+ "grad_norm": 0.26403701305389404,
170
+ "learning_rate": 9.999999909099618e-05,
171
+ "loss": 2.6061,
172
+ "step": 2100
173
+ },
174
+ {
175
+ "epoch": 0.02,
176
+ "grad_norm": 0.42730650305747986,
177
+ "learning_rate": 9.999999636398476e-05,
178
+ "loss": 2.6038,
179
+ "step": 2200
180
+ },
181
+ {
182
+ "epoch": 0.02,
183
+ "grad_norm": 0.2776353657245636,
184
+ "learning_rate": 9.999999181896581e-05,
185
+ "loss": 2.6048,
186
+ "step": 2300
187
+ },
188
+ {
189
+ "epoch": 0.02,
190
+ "grad_norm": 0.2872585952281952,
191
+ "learning_rate": 9.999998545593951e-05,
192
+ "loss": 2.6031,
193
+ "step": 2400
194
+ },
195
+ {
196
+ "epoch": 0.02,
197
+ "grad_norm": 0.24884726107120514,
198
+ "learning_rate": 9.999997727490612e-05,
199
+ "loss": 2.6007,
200
+ "step": 2500
201
+ },
202
+ {
203
+ "epoch": 0.02,
204
+ "grad_norm": 0.2905128002166748,
205
+ "learning_rate": 9.99999672758659e-05,
206
+ "loss": 2.6001,
207
+ "step": 2600
208
+ },
209
+ {
210
+ "epoch": 0.02,
211
+ "grad_norm": 0.22506840527057648,
212
+ "learning_rate": 9.999995545881924e-05,
213
+ "loss": 2.6002,
214
+ "step": 2700
215
+ },
216
+ {
217
+ "epoch": 0.02,
218
+ "grad_norm": 0.235252246260643,
219
+ "learning_rate": 9.999994182376653e-05,
220
+ "loss": 2.5991,
221
+ "step": 2800
222
+ },
223
+ {
224
+ "epoch": 0.02,
225
+ "grad_norm": 0.3328251838684082,
226
+ "learning_rate": 9.999992637070832e-05,
227
+ "loss": 2.5997,
228
+ "step": 2900
229
+ },
230
+ {
231
+ "epoch": 0.02,
232
+ "grad_norm": 0.23325322568416595,
233
+ "learning_rate": 9.999990909964513e-05,
234
+ "loss": 2.5995,
235
+ "step": 3000
236
+ },
237
+ {
238
+ "epoch": 0.02,
239
+ "eval_loss": 2.598254919052124,
240
+ "eval_runtime": 5203.4796,
241
+ "eval_samples_per_second": 1127.141,
242
+ "eval_steps_per_second": 70.446,
243
+ "step": 3000
244
+ },
245
+ {
246
+ "epoch": 0.02,
247
+ "grad_norm": 0.2796269655227661,
248
+ "learning_rate": 9.99998900105776e-05,
249
+ "loss": 2.5984,
250
+ "step": 3100
251
+ },
252
+ {
253
+ "epoch": 0.02,
254
+ "grad_norm": 0.21093028783798218,
255
+ "learning_rate": 9.999986910350642e-05,
256
+ "loss": 2.5985,
257
+ "step": 3200
258
+ },
259
+ {
260
+ "epoch": 0.02,
261
+ "grad_norm": 0.22558662295341492,
262
+ "learning_rate": 9.999984637843238e-05,
263
+ "loss": 2.5978,
264
+ "step": 3300
265
+ },
266
+ {
267
+ "epoch": 0.02,
268
+ "grad_norm": 0.3363204598426819,
269
+ "learning_rate": 9.999982183535627e-05,
270
+ "loss": 2.5965,
271
+ "step": 3400
272
+ },
273
+ {
274
+ "epoch": 0.03,
275
+ "grad_norm": 0.27081742882728577,
276
+ "learning_rate": 9.9999795474279e-05,
277
+ "loss": 2.5961,
278
+ "step": 3500
279
+ },
280
+ {
281
+ "epoch": 0.03,
282
+ "grad_norm": 0.23502503335475922,
283
+ "learning_rate": 9.999976729520151e-05,
284
+ "loss": 2.5956,
285
+ "step": 3600
286
+ },
287
+ {
288
+ "epoch": 0.03,
289
+ "grad_norm": 0.17260690033435822,
290
+ "learning_rate": 9.999973729812485e-05,
291
+ "loss": 2.5955,
292
+ "step": 3700
293
+ },
294
+ {
295
+ "epoch": 0.03,
296
+ "grad_norm": 0.16165785491466522,
297
+ "learning_rate": 9.999970548305009e-05,
298
+ "loss": 2.5955,
299
+ "step": 3800
300
+ },
301
+ {
302
+ "epoch": 0.03,
303
+ "grad_norm": 0.24890035390853882,
304
+ "learning_rate": 9.99996718499784e-05,
305
+ "loss": 2.5946,
306
+ "step": 3900
307
+ },
308
+ {
309
+ "epoch": 0.03,
310
+ "grad_norm": 0.30852416157722473,
311
+ "learning_rate": 9.999963639891102e-05,
312
+ "loss": 2.5956,
313
+ "step": 4000
314
+ },
315
+ {
316
+ "epoch": 0.03,
317
+ "eval_loss": 2.594769239425659,
318
+ "eval_runtime": 5243.3493,
319
+ "eval_samples_per_second": 1118.57,
320
+ "eval_steps_per_second": 69.911,
321
+ "step": 4000
322
+ },
323
+ {
324
+ "epoch": 0.03,
325
+ "grad_norm": 0.37085938453674316,
326
+ "learning_rate": 9.999959912984918e-05,
327
+ "loss": 2.5947,
328
+ "step": 4100
329
+ },
330
+ {
331
+ "epoch": 0.03,
332
+ "grad_norm": 0.3395659029483795,
333
+ "learning_rate": 9.999956004279429e-05,
334
+ "loss": 2.5955,
335
+ "step": 4200
336
+ },
337
+ {
338
+ "epoch": 0.03,
339
+ "grad_norm": 0.16178911924362183,
340
+ "learning_rate": 9.999951913774777e-05,
341
+ "loss": 2.594,
342
+ "step": 4300
343
+ },
344
+ {
345
+ "epoch": 0.03,
346
+ "grad_norm": 0.32948923110961914,
347
+ "learning_rate": 9.999947641471107e-05,
348
+ "loss": 2.5941,
349
+ "step": 4400
350
+ },
351
+ {
352
+ "epoch": 0.03,
353
+ "grad_norm": 0.20488527417182922,
354
+ "learning_rate": 9.999943187368577e-05,
355
+ "loss": 2.5934,
356
+ "step": 4500
357
+ },
358
+ {
359
+ "epoch": 0.03,
360
+ "grad_norm": 0.2330751270055771,
361
+ "learning_rate": 9.999938551467348e-05,
362
+ "loss": 2.593,
363
+ "step": 4600
364
+ },
365
+ {
366
+ "epoch": 0.03,
367
+ "grad_norm": 0.2759188711643219,
368
+ "learning_rate": 9.99993373376759e-05,
369
+ "loss": 2.5934,
370
+ "step": 4700
371
+ },
372
+ {
373
+ "epoch": 0.03,
374
+ "grad_norm": 0.20582658052444458,
375
+ "learning_rate": 9.999928734269477e-05,
376
+ "loss": 2.5921,
377
+ "step": 4800
378
+ },
379
+ {
380
+ "epoch": 0.04,
381
+ "grad_norm": 0.27048927545547485,
382
+ "learning_rate": 9.99992355297319e-05,
383
+ "loss": 2.5908,
384
+ "step": 4900
385
+ },
386
+ {
387
+ "epoch": 0.04,
388
+ "grad_norm": 0.23385432362556458,
389
+ "learning_rate": 9.999918189878918e-05,
390
+ "loss": 2.5921,
391
+ "step": 5000
392
+ },
393
+ {
394
+ "epoch": 0.04,
395
+ "eval_loss": 2.5919315814971924,
396
+ "eval_runtime": 5496.6841,
397
+ "eval_samples_per_second": 1067.017,
398
+ "eval_steps_per_second": 66.689,
399
+ "step": 5000
400
+ },
401
+ {
402
+ "epoch": 0.04,
403
+ "grad_norm": 0.22557920217514038,
404
+ "learning_rate": 9.999912644986859e-05,
405
+ "loss": 2.5931,
406
+ "step": 5100
407
+ },
408
+ {
409
+ "epoch": 0.04,
410
+ "grad_norm": 0.23983053863048553,
411
+ "learning_rate": 9.99990691829721e-05,
412
+ "loss": 2.5915,
413
+ "step": 5200
414
+ },
415
+ {
416
+ "epoch": 0.04,
417
+ "grad_norm": 0.18743467330932617,
418
+ "learning_rate": 9.999901009810181e-05,
419
+ "loss": 2.5913,
420
+ "step": 5300
421
+ },
422
+ {
423
+ "epoch": 0.04,
424
+ "grad_norm": 0.20421144366264343,
425
+ "learning_rate": 9.999894919525987e-05,
426
+ "loss": 2.59,
427
+ "step": 5400
428
+ },
429
+ {
430
+ "epoch": 0.04,
431
+ "grad_norm": 0.19018307328224182,
432
+ "learning_rate": 9.999888647444851e-05,
433
+ "loss": 2.5908,
434
+ "step": 5500
435
+ },
436
+ {
437
+ "epoch": 0.04,
438
+ "grad_norm": 0.23669780790805817,
439
+ "learning_rate": 9.999882193566997e-05,
440
+ "loss": 2.5908,
441
+ "step": 5600
442
+ },
443
+ {
444
+ "epoch": 0.04,
445
+ "grad_norm": 0.20617301762104034,
446
+ "learning_rate": 9.999875557892664e-05,
447
+ "loss": 2.5902,
448
+ "step": 5700
449
+ },
450
+ {
451
+ "epoch": 0.04,
452
+ "grad_norm": 0.1931978017091751,
453
+ "learning_rate": 9.999868740422092e-05,
454
+ "loss": 2.5907,
455
+ "step": 5800
456
+ },
457
+ {
458
+ "epoch": 0.04,
459
+ "grad_norm": 0.19971776008605957,
460
+ "learning_rate": 9.999861741155526e-05,
461
+ "loss": 2.5885,
462
+ "step": 5900
463
+ },
464
+ {
465
+ "epoch": 0.04,
466
+ "grad_norm": 0.21058019995689392,
467
+ "learning_rate": 9.999854560093225e-05,
468
+ "loss": 2.5897,
469
+ "step": 6000
470
+ },
471
+ {
472
+ "epoch": 0.04,
473
+ "eval_loss": 2.5891263484954834,
474
+ "eval_runtime": 5309.84,
475
+ "eval_samples_per_second": 1104.563,
476
+ "eval_steps_per_second": 69.035,
477
+ "step": 6000
478
+ },
479
+ {
480
+ "epoch": 0.04,
481
+ "grad_norm": 0.2691722512245178,
482
+ "learning_rate": 9.999847197235446e-05,
483
+ "loss": 2.5882,
484
+ "step": 6100
485
+ },
486
+ {
487
+ "epoch": 0.05,
488
+ "grad_norm": 0.2411184161901474,
489
+ "learning_rate": 9.99983965258246e-05,
490
+ "loss": 2.589,
491
+ "step": 6200
492
+ },
493
+ {
494
+ "epoch": 0.05,
495
+ "grad_norm": 0.15842053294181824,
496
+ "learning_rate": 9.99983192613454e-05,
497
+ "loss": 2.5892,
498
+ "step": 6300
499
+ },
500
+ {
501
+ "epoch": 0.05,
502
+ "grad_norm": 0.17729991674423218,
503
+ "learning_rate": 9.999824017891965e-05,
504
+ "loss": 2.588,
505
+ "step": 6400
506
+ },
507
+ {
508
+ "epoch": 0.05,
509
+ "grad_norm": 0.22472384572029114,
510
+ "learning_rate": 9.999815927855027e-05,
511
+ "loss": 2.5873,
512
+ "step": 6500
513
+ },
514
+ {
515
+ "epoch": 0.05,
516
+ "grad_norm": 0.2445155680179596,
517
+ "learning_rate": 9.999807656024016e-05,
518
+ "loss": 2.5871,
519
+ "step": 6600
520
+ },
521
+ {
522
+ "epoch": 0.05,
523
+ "grad_norm": 0.2309512048959732,
524
+ "learning_rate": 9.999799202399236e-05,
525
+ "loss": 2.5872,
526
+ "step": 6700
527
+ },
528
+ {
529
+ "epoch": 0.05,
530
+ "grad_norm": 0.24274510145187378,
531
+ "learning_rate": 9.999790566980991e-05,
532
+ "loss": 2.5863,
533
+ "step": 6800
534
+ },
535
+ {
536
+ "epoch": 0.05,
537
+ "grad_norm": 0.2553771436214447,
538
+ "learning_rate": 9.999781749769597e-05,
539
+ "loss": 2.5866,
540
+ "step": 6900
541
+ },
542
+ {
543
+ "epoch": 0.05,
544
+ "grad_norm": 0.2770930230617523,
545
+ "learning_rate": 9.999772750765375e-05,
546
+ "loss": 2.5867,
547
+ "step": 7000
548
+ },
549
+ {
550
+ "epoch": 0.05,
551
+ "eval_loss": 2.5862584114074707,
552
+ "eval_runtime": 5428.0291,
553
+ "eval_samples_per_second": 1080.512,
554
+ "eval_steps_per_second": 67.532,
555
+ "step": 7000
556
+ },
557
+ {
558
+ "epoch": 0.05,
559
+ "grad_norm": 0.20760175585746765,
560
+ "learning_rate": 9.999763569968652e-05,
561
+ "loss": 2.5864,
562
+ "step": 7100
563
+ },
564
+ {
565
+ "epoch": 0.05,
566
+ "grad_norm": 0.195896178483963,
567
+ "learning_rate": 9.999754207379762e-05,
568
+ "loss": 2.5859,
569
+ "step": 7200
570
+ },
571
+ {
572
+ "epoch": 0.05,
573
+ "grad_norm": 0.17725147306919098,
574
+ "learning_rate": 9.999744662999042e-05,
575
+ "loss": 2.5862,
576
+ "step": 7300
577
+ },
578
+ {
579
+ "epoch": 0.05,
580
+ "grad_norm": 0.19556549191474915,
581
+ "learning_rate": 9.999734936826843e-05,
582
+ "loss": 2.5849,
583
+ "step": 7400
584
+ },
585
+ {
586
+ "epoch": 0.05,
587
+ "grad_norm": 0.1898818463087082,
588
+ "learning_rate": 9.999725028863518e-05,
589
+ "loss": 2.5838,
590
+ "step": 7500
591
+ },
592
+ {
593
+ "epoch": 0.06,
594
+ "grad_norm": 0.1693861335515976,
595
+ "learning_rate": 9.999714939109426e-05,
596
+ "loss": 2.5842,
597
+ "step": 7600
598
+ },
599
+ {
600
+ "epoch": 0.06,
601
+ "grad_norm": 0.2052980363368988,
602
+ "learning_rate": 9.999704667564935e-05,
603
+ "loss": 2.5846,
604
+ "step": 7700
605
+ },
606
+ {
607
+ "epoch": 0.06,
608
+ "grad_norm": 0.24053046107292175,
609
+ "learning_rate": 9.999694214230418e-05,
610
+ "loss": 2.5853,
611
+ "step": 7800
612
+ },
613
+ {
614
+ "epoch": 0.06,
615
+ "grad_norm": 0.18848931789398193,
616
+ "learning_rate": 9.999683579106255e-05,
617
+ "loss": 2.5847,
618
+ "step": 7900
619
+ },
620
+ {
621
+ "epoch": 0.06,
622
+ "grad_norm": 0.21658702194690704,
623
+ "learning_rate": 9.999672762192834e-05,
624
+ "loss": 2.5834,
625
+ "step": 8000
626
+ },
627
+ {
628
+ "epoch": 0.06,
629
+ "eval_loss": 2.5834951400756836,
630
+ "eval_runtime": 5812.5431,
631
+ "eval_samples_per_second": 1009.034,
632
+ "eval_steps_per_second": 63.065,
633
+ "step": 8000
634
+ },
635
+ {
636
+ "epoch": 0.06,
637
+ "grad_norm": 0.2054041624069214,
638
+ "learning_rate": 9.999661763490544e-05,
639
+ "loss": 2.5846,
640
+ "step": 8100
641
+ },
642
+ {
643
+ "epoch": 0.06,
644
+ "grad_norm": 0.19781599938869476,
645
+ "learning_rate": 9.99965058299979e-05,
646
+ "loss": 2.5828,
647
+ "step": 8200
648
+ },
649
+ {
650
+ "epoch": 0.06,
651
+ "grad_norm": 0.25480276346206665,
652
+ "learning_rate": 9.999639220720978e-05,
653
+ "loss": 2.5824,
654
+ "step": 8300
655
+ },
656
+ {
657
+ "epoch": 0.06,
658
+ "grad_norm": 0.24584674835205078,
659
+ "learning_rate": 9.999627676654517e-05,
660
+ "loss": 2.5815,
661
+ "step": 8400
662
+ },
663
+ {
664
+ "epoch": 0.06,
665
+ "grad_norm": 0.21407808363437653,
666
+ "learning_rate": 9.999615950800832e-05,
667
+ "loss": 2.5816,
668
+ "step": 8500
669
+ },
670
+ {
671
+ "epoch": 0.06,
672
+ "grad_norm": 0.19315016269683838,
673
+ "learning_rate": 9.999604043160346e-05,
674
+ "loss": 2.582,
675
+ "step": 8600
676
+ },
677
+ {
678
+ "epoch": 0.06,
679
+ "grad_norm": 0.18959668278694153,
680
+ "learning_rate": 9.999591953733491e-05,
681
+ "loss": 2.5823,
682
+ "step": 8700
683
+ },
684
+ {
685
+ "epoch": 0.06,
686
+ "grad_norm": 0.2016109973192215,
687
+ "learning_rate": 9.99957968252071e-05,
688
+ "loss": 2.5817,
689
+ "step": 8800
690
+ },
691
+ {
692
+ "epoch": 0.06,
693
+ "grad_norm": 0.1687597781419754,
694
+ "learning_rate": 9.999567229522448e-05,
695
+ "loss": 2.5808,
696
+ "step": 8900
697
+ },
698
+ {
699
+ "epoch": 0.07,
700
+ "grad_norm": 0.17627790570259094,
701
+ "learning_rate": 9.999554594739155e-05,
702
+ "loss": 2.5809,
703
+ "step": 9000
704
+ },
705
+ {
706
+ "epoch": 0.07,
707
+ "eval_loss": 2.5812571048736572,
708
+ "eval_runtime": 5682.2226,
709
+ "eval_samples_per_second": 1032.176,
710
+ "eval_steps_per_second": 64.511,
711
+ "step": 9000
712
+ },
713
+ {
714
+ "epoch": 0.07,
715
+ "grad_norm": 0.12426480650901794,
716
+ "learning_rate": 9.999541778171295e-05,
717
+ "loss": 2.5808,
718
+ "step": 9100
719
+ },
720
+ {
721
+ "epoch": 0.07,
722
+ "grad_norm": 0.20493678748607635,
723
+ "learning_rate": 9.999528779819331e-05,
724
+ "loss": 2.582,
725
+ "step": 9200
726
+ },
727
+ {
728
+ "epoch": 0.07,
729
+ "grad_norm": 0.2577107548713684,
730
+ "learning_rate": 9.999515599683736e-05,
731
+ "loss": 2.5821,
732
+ "step": 9300
733
+ },
734
+ {
735
+ "epoch": 0.07,
736
+ "grad_norm": 0.17233897745609283,
737
+ "learning_rate": 9.999502237764991e-05,
738
+ "loss": 2.5805,
739
+ "step": 9400
740
+ },
741
+ {
742
+ "epoch": 0.07,
743
+ "grad_norm": 0.17032714188098907,
744
+ "learning_rate": 9.99948869406358e-05,
745
+ "loss": 2.5797,
746
+ "step": 9500
747
+ },
748
+ {
749
+ "epoch": 0.07,
750
+ "grad_norm": 0.21331337094306946,
751
+ "learning_rate": 9.999474968579994e-05,
752
+ "loss": 2.5807,
753
+ "step": 9600
754
+ },
755
+ {
756
+ "epoch": 0.07,
757
+ "grad_norm": 0.1757407933473587,
758
+ "learning_rate": 9.999461061314734e-05,
759
+ "loss": 2.5796,
760
+ "step": 9700
761
+ },
762
+ {
763
+ "epoch": 0.07,
764
+ "grad_norm": 0.20256169140338898,
765
+ "learning_rate": 9.999446972268308e-05,
766
+ "loss": 2.5805,
767
+ "step": 9800
768
+ },
769
+ {
770
+ "epoch": 0.07,
771
+ "grad_norm": 0.16938987374305725,
772
+ "learning_rate": 9.999432701441223e-05,
773
+ "loss": 2.5793,
774
+ "step": 9900
775
+ },
776
+ {
777
+ "epoch": 0.07,
778
+ "grad_norm": 0.15477782487869263,
779
+ "learning_rate": 9.999418248834002e-05,
780
+ "loss": 2.5797,
781
+ "step": 10000
782
+ },
783
+ {
784
+ "epoch": 0.07,
785
+ "eval_loss": 2.579577684402466,
786
+ "eval_runtime": 5716.7677,
787
+ "eval_samples_per_second": 1025.939,
788
+ "eval_steps_per_second": 64.121,
789
+ "step": 10000
790
+ },
791
+ {
792
+ "epoch": 0.07,
793
+ "grad_norm": 0.1892194151878357,
794
+ "learning_rate": 9.99940361444717e-05,
795
+ "loss": 2.5807,
796
+ "step": 10100
797
+ },
798
+ {
799
+ "epoch": 0.07,
800
+ "grad_norm": 0.1950315237045288,
801
+ "learning_rate": 9.999388798281258e-05,
802
+ "loss": 2.5803,
803
+ "step": 10200
804
+ },
805
+ {
806
+ "epoch": 0.07,
807
+ "grad_norm": 0.182656928896904,
808
+ "learning_rate": 9.999373800336806e-05,
809
+ "loss": 2.579,
810
+ "step": 10300
811
+ },
812
+ {
813
+ "epoch": 0.08,
814
+ "grad_norm": 0.2610529959201813,
815
+ "learning_rate": 9.999358620614357e-05,
816
+ "loss": 2.5798,
817
+ "step": 10400
818
+ },
819
+ {
820
+ "epoch": 0.08,
821
+ "grad_norm": 0.1903856247663498,
822
+ "learning_rate": 9.999343259114464e-05,
823
+ "loss": 2.5782,
824
+ "step": 10500
825
+ },
826
+ {
827
+ "epoch": 0.08,
828
+ "grad_norm": 0.2288079857826233,
829
+ "learning_rate": 9.999327715837687e-05,
830
+ "loss": 2.5798,
831
+ "step": 10600
832
+ },
833
+ {
834
+ "epoch": 0.08,
835
+ "grad_norm": 0.22872629761695862,
836
+ "learning_rate": 9.99931199078459e-05,
837
+ "loss": 2.5777,
838
+ "step": 10700
839
+ },
840
+ {
841
+ "epoch": 0.08,
842
+ "grad_norm": 0.22784186899662018,
843
+ "learning_rate": 9.999296083955744e-05,
844
+ "loss": 2.5783,
845
+ "step": 10800
846
+ },
847
+ {
848
+ "epoch": 0.08,
849
+ "grad_norm": 0.1781127005815506,
850
+ "learning_rate": 9.999279995351729e-05,
851
+ "loss": 2.5784,
852
+ "step": 10900
853
+ },
854
+ {
855
+ "epoch": 0.08,
856
+ "grad_norm": 0.19801098108291626,
857
+ "learning_rate": 9.99926372497313e-05,
858
+ "loss": 2.5786,
859
+ "step": 11000
860
+ },
861
+ {
862
+ "epoch": 0.08,
863
+ "eval_loss": 2.5776655673980713,
864
+ "eval_runtime": 5841.1118,
865
+ "eval_samples_per_second": 1004.099,
866
+ "eval_steps_per_second": 62.756,
867
+ "step": 11000
868
+ },
869
+ {
870
+ "epoch": 0.08,
871
+ "grad_norm": 0.24839451909065247,
872
+ "learning_rate": 9.999247272820536e-05,
873
+ "loss": 2.5777,
874
+ "step": 11100
875
+ },
876
+ {
877
+ "epoch": 0.08,
878
+ "grad_norm": 0.18496295809745789,
879
+ "learning_rate": 9.999230638894548e-05,
880
+ "loss": 2.5784,
881
+ "step": 11200
882
+ },
883
+ {
884
+ "epoch": 0.08,
885
+ "grad_norm": 0.1987435519695282,
886
+ "learning_rate": 9.99921382319577e-05,
887
+ "loss": 2.5779,
888
+ "step": 11300
889
+ },
890
+ {
891
+ "epoch": 0.08,
892
+ "grad_norm": 0.23174594342708588,
893
+ "learning_rate": 9.999196825724813e-05,
894
+ "loss": 2.5781,
895
+ "step": 11400
896
+ },
897
+ {
898
+ "epoch": 0.08,
899
+ "grad_norm": 0.18109597265720367,
900
+ "learning_rate": 9.999179646482295e-05,
901
+ "loss": 2.5785,
902
+ "step": 11500
903
+ },
904
+ {
905
+ "epoch": 0.08,
906
+ "grad_norm": 0.18909253180027008,
907
+ "learning_rate": 9.999162285468841e-05,
908
+ "loss": 2.5779,
909
+ "step": 11600
910
+ },
911
+ {
912
+ "epoch": 0.09,
913
+ "grad_norm": 0.1274472177028656,
914
+ "learning_rate": 9.999144742685083e-05,
915
+ "loss": 2.5774,
916
+ "step": 11700
917
+ },
918
+ {
919
+ "epoch": 0.09,
920
+ "grad_norm": 0.14917853474617004,
921
+ "learning_rate": 9.999127018131655e-05,
922
+ "loss": 2.5759,
923
+ "step": 11800
924
+ },
925
+ {
926
+ "epoch": 0.09,
927
+ "grad_norm": 0.13930270075798035,
928
+ "learning_rate": 9.999109111809207e-05,
929
+ "loss": 2.5769,
930
+ "step": 11900
931
+ },
932
+ {
933
+ "epoch": 0.09,
934
+ "grad_norm": 0.18673798441886902,
935
+ "learning_rate": 9.999091023718388e-05,
936
+ "loss": 2.5765,
937
+ "step": 12000
938
+ },
939
+ {
940
+ "epoch": 0.09,
941
+ "eval_loss": 2.576554775238037,
942
+ "eval_runtime": 5806.3953,
943
+ "eval_samples_per_second": 1010.102,
944
+ "eval_steps_per_second": 63.131,
945
+ "step": 12000
946
+ },
947
+ {
948
+ "epoch": 0.09,
949
+ "grad_norm": 0.23524725437164307,
950
+ "learning_rate": 9.999072753859854e-05,
951
+ "loss": 2.577,
952
+ "step": 12100
953
+ },
954
+ {
955
+ "epoch": 0.09,
956
+ "grad_norm": 0.23039047420024872,
957
+ "learning_rate": 9.99905430223427e-05,
958
+ "loss": 2.5777,
959
+ "step": 12200
960
+ },
961
+ {
962
+ "epoch": 0.09,
963
+ "grad_norm": 0.17183104157447815,
964
+ "learning_rate": 9.99903566884231e-05,
965
+ "loss": 2.5757,
966
+ "step": 12300
967
+ },
968
+ {
969
+ "epoch": 0.09,
970
+ "grad_norm": 0.22224171459674835,
971
+ "learning_rate": 9.999016853684646e-05,
972
+ "loss": 2.5775,
973
+ "step": 12400
974
+ },
975
+ {
976
+ "epoch": 0.09,
977
+ "grad_norm": 0.2552145719528198,
978
+ "learning_rate": 9.998997856761967e-05,
979
+ "loss": 2.5753,
980
+ "step": 12500
981
+ },
982
+ {
983
+ "epoch": 0.09,
984
+ "grad_norm": 0.14996840059757233,
985
+ "learning_rate": 9.998978678074961e-05,
986
+ "loss": 2.577,
987
+ "step": 12600
988
+ },
989
+ {
990
+ "epoch": 0.09,
991
+ "grad_norm": 0.22422178089618683,
992
+ "learning_rate": 9.998959317624325e-05,
993
+ "loss": 2.576,
994
+ "step": 12700
995
+ },
996
+ {
997
+ "epoch": 0.09,
998
+ "grad_norm": 0.15495595335960388,
999
+ "learning_rate": 9.998939775410767e-05,
1000
+ "loss": 2.5773,
1001
+ "step": 12800
1002
+ },
1003
+ {
1004
+ "epoch": 0.09,
1005
+ "grad_norm": 0.21027402579784393,
1006
+ "learning_rate": 9.998920051434992e-05,
1007
+ "loss": 2.575,
1008
+ "step": 12900
1009
+ },
1010
+ {
1011
+ "epoch": 0.09,
1012
+ "grad_norm": 0.17667286098003387,
1013
+ "learning_rate": 9.99890014569772e-05,
1014
+ "loss": 2.5765,
1015
+ "step": 13000
1016
+ },
1017
+ {
1018
+ "epoch": 0.09,
1019
+ "eval_loss": 2.574887275695801,
1020
+ "eval_runtime": 5869.3511,
1021
+ "eval_samples_per_second": 999.268,
1022
+ "eval_steps_per_second": 62.454,
1023
+ "step": 13000
1024
+ },
1025
+ {
1026
+ "epoch": 0.1,
1027
+ "grad_norm": 0.21658362448215485,
1028
+ "learning_rate": 9.998880058199675e-05,
1029
+ "loss": 2.5741,
1030
+ "step": 13100
1031
+ },
1032
+ {
1033
+ "epoch": 0.1,
1034
+ "grad_norm": 0.20807647705078125,
1035
+ "learning_rate": 9.998859788941588e-05,
1036
+ "loss": 2.5756,
1037
+ "step": 13200
1038
+ },
1039
+ {
1040
+ "epoch": 0.1,
1041
+ "grad_norm": 0.1646522879600525,
1042
+ "learning_rate": 9.998839337924195e-05,
1043
+ "loss": 2.5756,
1044
+ "step": 13300
1045
+ },
1046
+ {
1047
+ "epoch": 0.1,
1048
+ "grad_norm": 0.166889950633049,
1049
+ "learning_rate": 9.998818705148238e-05,
1050
+ "loss": 2.5745,
1051
+ "step": 13400
1052
+ },
1053
+ {
1054
+ "epoch": 0.1,
1055
+ "grad_norm": 0.25859805941581726,
1056
+ "learning_rate": 9.998797890614469e-05,
1057
+ "loss": 2.5747,
1058
+ "step": 13500
1059
+ },
1060
+ {
1061
+ "epoch": 0.1,
1062
+ "grad_norm": 0.20016120374202728,
1063
+ "learning_rate": 9.998776894323645e-05,
1064
+ "loss": 2.5746,
1065
+ "step": 13600
1066
+ },
1067
+ {
1068
+ "epoch": 0.1,
1069
+ "grad_norm": 0.16718171536922455,
1070
+ "learning_rate": 9.998755716276528e-05,
1071
+ "loss": 2.574,
1072
+ "step": 13700
1073
+ },
1074
+ {
1075
+ "epoch": 0.1,
1076
+ "grad_norm": 0.20205742120742798,
1077
+ "learning_rate": 9.998734356473892e-05,
1078
+ "loss": 2.5754,
1079
+ "step": 13800
1080
+ },
1081
+ {
1082
+ "epoch": 0.1,
1083
+ "grad_norm": 0.14121076464653015,
1084
+ "learning_rate": 9.998712814916508e-05,
1085
+ "loss": 2.5746,
1086
+ "step": 13900
1087
+ },
1088
+ {
1089
+ "epoch": 0.1,
1090
+ "grad_norm": 0.21463043987751007,
1091
+ "learning_rate": 9.998691091605163e-05,
1092
+ "loss": 2.5748,
1093
+ "step": 14000
1094
+ },
1095
+ {
1096
+ "epoch": 0.1,
1097
+ "eval_loss": 2.573892116546631,
1098
+ "eval_runtime": 5790.9885,
1099
+ "eval_samples_per_second": 1012.79,
1100
+ "eval_steps_per_second": 63.299,
1101
+ "step": 14000
1102
+ },
1103
+ {
1104
+ "epoch": 0.1,
1105
+ "grad_norm": 0.21442490816116333,
1106
+ "learning_rate": 9.998669406490967e-05,
1107
+ "loss": 2.5752,
1108
+ "step": 14100
1109
+ },
1110
+ {
1111
+ "epoch": 0.1,
1112
+ "grad_norm": 0.1974353939294815,
1113
+ "learning_rate": 9.998647321491594e-05,
1114
+ "loss": 2.5733,
1115
+ "step": 14200
1116
+ },
1117
+ {
1118
+ "epoch": 0.1,
1119
+ "grad_norm": 0.17868639528751373,
1120
+ "learning_rate": 9.99862505474064e-05,
1121
+ "loss": 2.5733,
1122
+ "step": 14300
1123
+ },
1124
+ {
1125
+ "epoch": 0.1,
1126
+ "grad_norm": 0.18465746939182281,
1127
+ "learning_rate": 9.998602606238913e-05,
1128
+ "loss": 2.5727,
1129
+ "step": 14400
1130
+ },
1131
+ {
1132
+ "epoch": 0.11,
1133
+ "grad_norm": 0.22418785095214844,
1134
+ "learning_rate": 9.998579975987234e-05,
1135
+ "loss": 2.5739,
1136
+ "step": 14500
1137
+ },
1138
+ {
1139
+ "epoch": 0.11,
1140
+ "grad_norm": 0.20102180540561676,
1141
+ "learning_rate": 9.998557163986423e-05,
1142
+ "loss": 2.5726,
1143
+ "step": 14600
1144
+ },
1145
+ {
1146
+ "epoch": 0.11,
1147
+ "grad_norm": 0.1889944076538086,
1148
+ "learning_rate": 9.998534170237307e-05,
1149
+ "loss": 2.5719,
1150
+ "step": 14700
1151
+ },
1152
+ {
1153
+ "epoch": 0.11,
1154
+ "grad_norm": 0.1904602348804474,
1155
+ "learning_rate": 9.998510994740727e-05,
1156
+ "loss": 2.5719,
1157
+ "step": 14800
1158
+ },
1159
+ {
1160
+ "epoch": 0.11,
1161
+ "grad_norm": 0.20775534212589264,
1162
+ "learning_rate": 9.998487637497522e-05,
1163
+ "loss": 2.5725,
1164
+ "step": 14900
1165
+ },
1166
+ {
1167
+ "epoch": 0.11,
1168
+ "grad_norm": 0.203061044216156,
1169
+ "learning_rate": 9.998464334798072e-05,
1170
+ "loss": 2.5733,
1171
+ "step": 15000
1172
+ },
1173
+ {
1174
+ "epoch": 0.11,
1175
+ "eval_loss": 2.5725255012512207,
1176
+ "eval_runtime": 5867.3015,
1177
+ "eval_samples_per_second": 999.617,
1178
+ "eval_steps_per_second": 62.476,
1179
+ "step": 15000
1180
+ },
1181
+ {
1182
+ "epoch": 0.11,
1183
+ "grad_norm": 0.1729467511177063,
1184
+ "learning_rate": 9.998440615881618e-05,
1185
+ "loss": 2.5729,
1186
+ "step": 15100
1187
+ },
1188
+ {
1189
+ "epoch": 0.11,
1190
+ "grad_norm": 0.1721724420785904,
1191
+ "learning_rate": 9.998416715221101e-05,
1192
+ "loss": 2.5719,
1193
+ "step": 15200
1194
+ },
1195
+ {
1196
+ "epoch": 0.11,
1197
+ "grad_norm": 0.170950248837471,
1198
+ "learning_rate": 9.998392632817387e-05,
1199
+ "loss": 2.5725,
1200
+ "step": 15300
1201
+ },
1202
+ {
1203
+ "epoch": 0.11,
1204
+ "grad_norm": 0.1992483288049698,
1205
+ "learning_rate": 9.998368368671353e-05,
1206
+ "loss": 2.573,
1207
+ "step": 15400
1208
+ },
1209
+ {
1210
+ "epoch": 0.11,
1211
+ "grad_norm": 0.19748467206954956,
1212
+ "learning_rate": 9.998343922783881e-05,
1213
+ "loss": 2.5719,
1214
+ "step": 15500
1215
+ },
1216
+ {
1217
+ "epoch": 0.11,
1218
+ "grad_norm": 0.22308781743049622,
1219
+ "learning_rate": 9.99831929515586e-05,
1220
+ "loss": 2.5712,
1221
+ "step": 15600
1222
+ },
1223
+ {
1224
+ "epoch": 0.11,
1225
+ "grad_norm": 0.17296306788921356,
1226
+ "learning_rate": 9.998294485788187e-05,
1227
+ "loss": 2.5709,
1228
+ "step": 15700
1229
+ },
1230
+ {
1231
+ "epoch": 0.11,
1232
+ "grad_norm": 0.2266322374343872,
1233
+ "learning_rate": 9.99826949468176e-05,
1234
+ "loss": 2.5716,
1235
+ "step": 15800
1236
+ },
1237
+ {
1238
+ "epoch": 0.12,
1239
+ "grad_norm": 0.1890050321817398,
1240
+ "learning_rate": 9.998244321837492e-05,
1241
+ "loss": 2.5714,
1242
+ "step": 15900
1243
+ },
1244
+ {
1245
+ "epoch": 0.12,
1246
+ "grad_norm": 0.14952068030834198,
1247
+ "learning_rate": 9.998218967256294e-05,
1248
+ "loss": 2.5724,
1249
+ "step": 16000
1250
+ },
1251
+ {
1252
+ "epoch": 0.12,
1253
+ "eval_loss": 2.570789098739624,
1254
+ "eval_runtime": 5730.232,
1255
+ "eval_samples_per_second": 1023.528,
1256
+ "eval_steps_per_second": 63.971,
1257
+ "step": 16000
1258
+ },
1259
+ {
1260
+ "epoch": 0.12,
1261
+ "grad_norm": 0.20020237565040588,
1262
+ "learning_rate": 9.998193430939093e-05,
1263
+ "loss": 2.5712,
1264
+ "step": 16100
1265
+ },
1266
+ {
1267
+ "epoch": 0.12,
1268
+ "grad_norm": 0.2040109634399414,
1269
+ "learning_rate": 9.998167712886813e-05,
1270
+ "loss": 2.5722,
1271
+ "step": 16200
1272
+ },
1273
+ {
1274
+ "epoch": 0.12,
1275
+ "grad_norm": 0.14661578834056854,
1276
+ "learning_rate": 9.998141813100392e-05,
1277
+ "loss": 2.5713,
1278
+ "step": 16300
1279
+ },
1280
+ {
1281
+ "epoch": 0.12,
1282
+ "grad_norm": 0.17079943418502808,
1283
+ "learning_rate": 9.998115731580771e-05,
1284
+ "loss": 2.5718,
1285
+ "step": 16400
1286
+ },
1287
+ {
1288
+ "epoch": 0.12,
1289
+ "grad_norm": 0.17369835078716278,
1290
+ "learning_rate": 9.998089468328898e-05,
1291
+ "loss": 2.5721,
1292
+ "step": 16500
1293
+ },
1294
+ {
1295
+ "epoch": 0.12,
1296
+ "grad_norm": 0.16338428854942322,
1297
+ "learning_rate": 9.998063023345725e-05,
1298
+ "loss": 2.5718,
1299
+ "step": 16600
1300
+ },
1301
+ {
1302
+ "epoch": 0.12,
1303
+ "grad_norm": 0.16794905066490173,
1304
+ "learning_rate": 9.99803639663222e-05,
1305
+ "loss": 2.5708,
1306
+ "step": 16700
1307
+ },
1308
+ {
1309
+ "epoch": 0.12,
1310
+ "grad_norm": 0.20138411223888397,
1311
+ "learning_rate": 9.998009588189345e-05,
1312
+ "loss": 2.5696,
1313
+ "step": 16800
1314
+ },
1315
+ {
1316
+ "epoch": 0.12,
1317
+ "grad_norm": 0.23276585340499878,
1318
+ "learning_rate": 9.99798259801808e-05,
1319
+ "loss": 2.5691,
1320
+ "step": 16900
1321
+ },
1322
+ {
1323
+ "epoch": 0.12,
1324
+ "grad_norm": 0.1607973575592041,
1325
+ "learning_rate": 9.997955426119402e-05,
1326
+ "loss": 2.5714,
1327
+ "step": 17000
1328
+ },
1329
+ {
1330
+ "epoch": 0.12,
1331
+ "eval_loss": 2.569423198699951,
1332
+ "eval_runtime": 5840.5846,
1333
+ "eval_samples_per_second": 1004.189,
1334
+ "eval_steps_per_second": 62.762,
1335
+ "step": 17000
1336
+ },
1337
+ {
1338
+ "epoch": 0.12,
1339
+ "grad_norm": 0.1984170377254486,
1340
+ "learning_rate": 9.997928072494302e-05,
1341
+ "loss": 2.5703,
1342
+ "step": 17100
1343
+ },
1344
+ {
1345
+ "epoch": 0.13,
1346
+ "grad_norm": 0.22356334328651428,
1347
+ "learning_rate": 9.997900537143772e-05,
1348
+ "loss": 2.5711,
1349
+ "step": 17200
1350
+ },
1351
+ {
1352
+ "epoch": 0.13,
1353
+ "grad_norm": 0.1815560907125473,
1354
+ "learning_rate": 9.997873098139096e-05,
1355
+ "loss": 2.5697,
1356
+ "step": 17300
1357
+ },
1358
+ {
1359
+ "epoch": 0.13,
1360
+ "grad_norm": 0.27280667424201965,
1361
+ "learning_rate": 9.997845201157949e-05,
1362
+ "loss": 2.5697,
1363
+ "step": 17400
1364
+ },
1365
+ {
1366
+ "epoch": 0.13,
1367
+ "grad_norm": 0.15276475250720978,
1368
+ "learning_rate": 9.997817122454387e-05,
1369
+ "loss": 2.5675,
1370
+ "step": 17500
1371
+ },
1372
+ {
1373
+ "epoch": 0.13,
1374
+ "grad_norm": 0.19267494976520538,
1375
+ "learning_rate": 9.997788862029429e-05,
1376
+ "loss": 2.569,
1377
+ "step": 17600
1378
+ },
1379
+ {
1380
+ "epoch": 0.13,
1381
+ "grad_norm": 0.1580013483762741,
1382
+ "learning_rate": 9.997760419884105e-05,
1383
+ "loss": 2.5704,
1384
+ "step": 17700
1385
+ },
1386
+ {
1387
+ "epoch": 0.13,
1388
+ "grad_norm": 0.21980580687522888,
1389
+ "learning_rate": 9.997731796019448e-05,
1390
+ "loss": 2.5702,
1391
+ "step": 17800
1392
+ },
1393
+ {
1394
+ "epoch": 0.13,
1395
+ "grad_norm": 0.2392682433128357,
1396
+ "learning_rate": 9.997702990436498e-05,
1397
+ "loss": 2.5696,
1398
+ "step": 17900
1399
+ },
1400
+ {
1401
+ "epoch": 0.13,
1402
+ "grad_norm": 0.2011999785900116,
1403
+ "learning_rate": 9.997674003136303e-05,
1404
+ "loss": 2.5682,
1405
+ "step": 18000
1406
+ },
1407
+ {
1408
+ "epoch": 0.13,
1409
+ "eval_loss": 2.5681583881378174,
1410
+ "eval_runtime": 5608.808,
1411
+ "eval_samples_per_second": 1045.686,
1412
+ "eval_steps_per_second": 65.355,
1413
+ "step": 18000
1414
+ },
1415
+ {
1416
+ "epoch": 0.13,
1417
+ "grad_norm": 0.23138105869293213,
1418
+ "learning_rate": 9.997644834119919e-05,
1419
+ "loss": 2.5685,
1420
+ "step": 18100
1421
+ },
1422
+ {
1423
+ "epoch": 0.13,
1424
+ "grad_norm": 0.19521869719028473,
1425
+ "learning_rate": 9.997615483388406e-05,
1426
+ "loss": 2.5685,
1427
+ "step": 18200
1428
+ },
1429
+ {
1430
+ "epoch": 0.13,
1431
+ "grad_norm": 0.22132566571235657,
1432
+ "learning_rate": 9.997585950942827e-05,
1433
+ "loss": 2.5687,
1434
+ "step": 18300
1435
+ },
1436
+ {
1437
+ "epoch": 0.13,
1438
+ "grad_norm": 0.19450217485427856,
1439
+ "learning_rate": 9.99755623678426e-05,
1440
+ "loss": 2.5666,
1441
+ "step": 18400
1442
+ },
1443
+ {
1444
+ "epoch": 0.13,
1445
+ "grad_norm": 0.20810718834400177,
1446
+ "learning_rate": 9.997526340913785e-05,
1447
+ "loss": 2.5681,
1448
+ "step": 18500
1449
+ },
1450
+ {
1451
+ "epoch": 0.14,
1452
+ "grad_norm": 0.1711287647485733,
1453
+ "learning_rate": 9.997496263332487e-05,
1454
+ "loss": 2.5666,
1455
+ "step": 18600
1456
+ },
1457
+ {
1458
+ "epoch": 0.14,
1459
+ "grad_norm": 0.15737326443195343,
1460
+ "learning_rate": 9.997466004041462e-05,
1461
+ "loss": 2.5663,
1462
+ "step": 18700
1463
+ },
1464
+ {
1465
+ "epoch": 0.14,
1466
+ "grad_norm": 0.19085867702960968,
1467
+ "learning_rate": 9.997435563041809e-05,
1468
+ "loss": 2.569,
1469
+ "step": 18800
1470
+ },
1471
+ {
1472
+ "epoch": 0.14,
1473
+ "grad_norm": 0.20687063038349152,
1474
+ "learning_rate": 9.997404940334637e-05,
1475
+ "loss": 2.5654,
1476
+ "step": 18900
1477
+ },
1478
+ {
1479
+ "epoch": 0.14,
1480
+ "grad_norm": 0.21126438677310944,
1481
+ "learning_rate": 9.997374135921054e-05,
1482
+ "loss": 2.5677,
1483
+ "step": 19000
1484
+ },
1485
+ {
1486
+ "epoch": 0.14,
1487
+ "eval_loss": 2.5664379596710205,
1488
+ "eval_runtime": 5437.5739,
1489
+ "eval_samples_per_second": 1078.616,
1490
+ "eval_steps_per_second": 67.414,
1491
+ "step": 19000
1492
+ },
1493
+ {
1494
+ "epoch": 0.14,
1495
+ "grad_norm": 0.1988440304994583,
1496
+ "learning_rate": 9.997343149802186e-05,
1497
+ "loss": 2.5667,
1498
+ "step": 19100
1499
+ },
1500
+ {
1501
+ "epoch": 0.14,
1502
+ "grad_norm": 0.2025243192911148,
1503
+ "learning_rate": 9.997311981979155e-05,
1504
+ "loss": 2.5674,
1505
+ "step": 19200
1506
+ },
1507
+ {
1508
+ "epoch": 0.14,
1509
+ "grad_norm": 0.15592768788337708,
1510
+ "learning_rate": 9.997280632453097e-05,
1511
+ "loss": 2.5679,
1512
+ "step": 19300
1513
+ },
1514
+ {
1515
+ "epoch": 0.14,
1516
+ "grad_norm": 0.18881608545780182,
1517
+ "learning_rate": 9.997249101225153e-05,
1518
+ "loss": 2.5664,
1519
+ "step": 19400
1520
+ },
1521
+ {
1522
+ "epoch": 0.14,
1523
+ "grad_norm": 0.2082224190235138,
1524
+ "learning_rate": 9.997217706325169e-05,
1525
+ "loss": 2.5653,
1526
+ "step": 19500
1527
+ },
1528
+ {
1529
+ "epoch": 0.14,
1530
+ "grad_norm": 0.20503577589988708,
1531
+ "learning_rate": 9.997185813513884e-05,
1532
+ "loss": 2.5675,
1533
+ "step": 19600
1534
+ },
1535
+ {
1536
+ "epoch": 0.14,
1537
+ "grad_norm": 0.157631978392601,
1538
+ "learning_rate": 9.997153739004159e-05,
1539
+ "loss": 2.5655,
1540
+ "step": 19700
1541
+ },
1542
+ {
1543
+ "epoch": 0.14,
1544
+ "grad_norm": 0.1750982105731964,
1545
+ "learning_rate": 9.997121482797162e-05,
1546
+ "loss": 2.566,
1547
+ "step": 19800
1548
+ },
1549
+ {
1550
+ "epoch": 0.14,
1551
+ "grad_norm": 0.2016943246126175,
1552
+ "learning_rate": 9.997089044894064e-05,
1553
+ "loss": 2.564,
1554
+ "step": 19900
1555
+ },
1556
+ {
1557
+ "epoch": 0.15,
1558
+ "grad_norm": 0.23606260120868683,
1559
+ "learning_rate": 9.997056425296043e-05,
1560
+ "loss": 2.5643,
1561
+ "step": 20000
1562
+ },
1563
+ {
1564
+ "epoch": 0.15,
1565
+ "eval_loss": 2.564971446990967,
1566
+ "eval_runtime": 5311.9496,
1567
+ "eval_samples_per_second": 1104.124,
1568
+ "eval_steps_per_second": 69.008,
1569
+ "step": 20000
1570
+ },
1571
+ {
1572
+ "epoch": 0.15,
1573
+ "grad_norm": 0.21572504937648773,
1574
+ "learning_rate": 9.997023624004287e-05,
1575
+ "loss": 2.5655,
1576
+ "step": 20100
1577
+ },
1578
+ {
1579
+ "epoch": 0.15,
1580
+ "grad_norm": 0.1901276409626007,
1581
+ "learning_rate": 9.996990641019987e-05,
1582
+ "loss": 2.5646,
1583
+ "step": 20200
1584
+ },
1585
+ {
1586
+ "epoch": 0.15,
1587
+ "grad_norm": 0.1661011129617691,
1588
+ "learning_rate": 9.996957476344345e-05,
1589
+ "loss": 2.5656,
1590
+ "step": 20300
1591
+ },
1592
+ {
1593
+ "epoch": 0.15,
1594
+ "grad_norm": 0.1857927441596985,
1595
+ "learning_rate": 9.996924129978566e-05,
1596
+ "loss": 2.5641,
1597
+ "step": 20400
1598
+ },
1599
+ {
1600
+ "epoch": 0.15,
1601
+ "grad_norm": 0.17554591596126556,
1602
+ "learning_rate": 9.996890601923861e-05,
1603
+ "loss": 2.565,
1604
+ "step": 20500
1605
+ },
1606
+ {
1607
+ "epoch": 0.15,
1608
+ "grad_norm": 0.19168546795845032,
1609
+ "learning_rate": 9.99685689218145e-05,
1610
+ "loss": 2.5634,
1611
+ "step": 20600
1612
+ },
1613
+ {
1614
+ "epoch": 0.15,
1615
+ "grad_norm": 0.24985399842262268,
1616
+ "learning_rate": 9.996823000752557e-05,
1617
+ "loss": 2.5645,
1618
+ "step": 20700
1619
+ },
1620
+ {
1621
+ "epoch": 0.15,
1622
+ "grad_norm": 0.17692847549915314,
1623
+ "learning_rate": 9.996788927638418e-05,
1624
+ "loss": 2.5623,
1625
+ "step": 20800
1626
+ },
1627
+ {
1628
+ "epoch": 0.15,
1629
+ "grad_norm": 0.19862769544124603,
1630
+ "learning_rate": 9.996754672840269e-05,
1631
+ "loss": 2.5637,
1632
+ "step": 20900
1633
+ },
1634
+ {
1635
+ "epoch": 0.15,
1636
+ "grad_norm": 0.15231578052043915,
1637
+ "learning_rate": 9.996720236359356e-05,
1638
+ "loss": 2.5629,
1639
+ "step": 21000
1640
+ },
1641
+ {
1642
+ "epoch": 0.15,
1643
+ "eval_loss": 2.5632758140563965,
1644
+ "eval_runtime": 5223.2614,
1645
+ "eval_samples_per_second": 1122.872,
1646
+ "eval_steps_per_second": 70.18,
1647
+ "step": 21000
1648
+ },
1649
+ {
1650
+ "epoch": 0.15,
1651
+ "grad_norm": 0.15703310072422028,
1652
+ "learning_rate": 9.996685618196933e-05,
1653
+ "loss": 2.5647,
1654
+ "step": 21100
1655
+ },
1656
+ {
1657
+ "epoch": 0.15,
1658
+ "grad_norm": 0.21033476293087006,
1659
+ "learning_rate": 9.996650818354254e-05,
1660
+ "loss": 2.5616,
1661
+ "step": 21200
1662
+ },
1663
+ {
1664
+ "epoch": 0.15,
1665
+ "grad_norm": 0.17880433797836304,
1666
+ "learning_rate": 9.99661583683259e-05,
1667
+ "loss": 2.5632,
1668
+ "step": 21300
1669
+ },
1670
+ {
1671
+ "epoch": 0.16,
1672
+ "grad_norm": 0.17895223200321198,
1673
+ "learning_rate": 9.996580673633208e-05,
1674
+ "loss": 2.5612,
1675
+ "step": 21400
1676
+ },
1677
+ {
1678
+ "epoch": 0.16,
1679
+ "grad_norm": 0.1816408783197403,
1680
+ "learning_rate": 9.996545683105445e-05,
1681
+ "loss": 2.5627,
1682
+ "step": 21500
1683
+ },
1684
+ {
1685
+ "epoch": 0.16,
1686
+ "grad_norm": 0.17461837828159332,
1687
+ "learning_rate": 9.996510158371221e-05,
1688
+ "loss": 2.5622,
1689
+ "step": 21600
1690
+ },
1691
+ {
1692
+ "epoch": 0.16,
1693
+ "grad_norm": 0.22741451859474182,
1694
+ "learning_rate": 9.996474451963123e-05,
1695
+ "loss": 2.5626,
1696
+ "step": 21700
1697
+ },
1698
+ {
1699
+ "epoch": 0.16,
1700
+ "grad_norm": 0.2556922733783722,
1701
+ "learning_rate": 9.996438563882451e-05,
1702
+ "loss": 2.5627,
1703
+ "step": 21800
1704
+ },
1705
+ {
1706
+ "epoch": 0.16,
1707
+ "grad_norm": 0.18055401742458344,
1708
+ "learning_rate": 9.99640249413051e-05,
1709
+ "loss": 2.5623,
1710
+ "step": 21900
1711
+ },
1712
+ {
1713
+ "epoch": 0.16,
1714
+ "grad_norm": 0.1370435506105423,
1715
+ "learning_rate": 9.996366242708609e-05,
1716
+ "loss": 2.5629,
1717
+ "step": 22000
1718
+ },
1719
+ {
1720
+ "epoch": 0.16,
1721
+ "eval_loss": 2.5613725185394287,
1722
+ "eval_runtime": 5233.9822,
1723
+ "eval_samples_per_second": 1120.572,
1724
+ "eval_steps_per_second": 70.036,
1725
+ "step": 22000
1726
+ },
1727
+ {
1728
+ "epoch": 0.16,
1729
+ "grad_norm": 0.150621235370636,
1730
+ "learning_rate": 9.996329809618068e-05,
1731
+ "loss": 2.5595,
1732
+ "step": 22100
1733
+ },
1734
+ {
1735
+ "epoch": 0.16,
1736
+ "grad_norm": 0.23477642238140106,
1737
+ "learning_rate": 9.996293194860211e-05,
1738
+ "loss": 2.561,
1739
+ "step": 22200
1740
+ },
1741
+ {
1742
+ "epoch": 0.16,
1743
+ "grad_norm": 0.20428013801574707,
1744
+ "learning_rate": 9.996256398436372e-05,
1745
+ "loss": 2.5589,
1746
+ "step": 22300
1747
+ },
1748
+ {
1749
+ "epoch": 0.16,
1750
+ "grad_norm": 0.18161137402057648,
1751
+ "learning_rate": 9.996219420347885e-05,
1752
+ "loss": 2.5618,
1753
+ "step": 22400
1754
+ },
1755
+ {
1756
+ "epoch": 0.16,
1757
+ "grad_norm": 0.18925230205059052,
1758
+ "learning_rate": 9.996182260596096e-05,
1759
+ "loss": 2.5579,
1760
+ "step": 22500
1761
+ },
1762
+ {
1763
+ "epoch": 0.16,
1764
+ "grad_norm": 0.20608845353126526,
1765
+ "learning_rate": 9.996144919182355e-05,
1766
+ "loss": 2.5592,
1767
+ "step": 22600
1768
+ },
1769
+ {
1770
+ "epoch": 0.17,
1771
+ "grad_norm": 0.19250337779521942,
1772
+ "learning_rate": 9.996107396108024e-05,
1773
+ "loss": 2.5596,
1774
+ "step": 22700
1775
+ },
1776
+ {
1777
+ "epoch": 0.17,
1778
+ "grad_norm": 0.2164393663406372,
1779
+ "learning_rate": 9.996069691374462e-05,
1780
+ "loss": 2.5596,
1781
+ "step": 22800
1782
+ },
1783
+ {
1784
+ "epoch": 0.17,
1785
+ "grad_norm": 0.16476331651210785,
1786
+ "learning_rate": 9.996031804983043e-05,
1787
+ "loss": 2.5606,
1788
+ "step": 22900
1789
+ },
1790
+ {
1791
+ "epoch": 0.17,
1792
+ "grad_norm": 0.15099835395812988,
1793
+ "learning_rate": 9.995993736935145e-05,
1794
+ "loss": 2.5612,
1795
+ "step": 23000
1796
+ },
1797
+ {
1798
+ "epoch": 0.17,
1799
+ "eval_loss": 2.5598702430725098,
1800
+ "eval_runtime": 6082.4008,
1801
+ "eval_samples_per_second": 964.266,
1802
+ "eval_steps_per_second": 60.267,
1803
+ "step": 23000
1804
+ },
1805
+ {
1806
+ "epoch": 0.17,
1807
+ "grad_norm": 0.1863376796245575,
1808
+ "learning_rate": 9.99595548723215e-05,
1809
+ "loss": 2.5593,
1810
+ "step": 23100
1811
+ },
1812
+ {
1813
+ "epoch": 0.17,
1814
+ "grad_norm": 0.19632737338542938,
1815
+ "learning_rate": 9.99591705587545e-05,
1816
+ "loss": 2.5594,
1817
+ "step": 23200
1818
+ },
1819
+ {
1820
+ "epoch": 0.17,
1821
+ "grad_norm": 0.18330197036266327,
1822
+ "learning_rate": 9.995878442866442e-05,
1823
+ "loss": 2.5598,
1824
+ "step": 23300
1825
+ },
1826
+ {
1827
+ "epoch": 0.17,
1828
+ "grad_norm": 0.23508641123771667,
1829
+ "learning_rate": 9.995839648206531e-05,
1830
+ "loss": 2.5579,
1831
+ "step": 23400
1832
+ },
1833
+ {
1834
+ "epoch": 0.17,
1835
+ "grad_norm": 0.2019587904214859,
1836
+ "learning_rate": 9.99580106255938e-05,
1837
+ "loss": 2.5584,
1838
+ "step": 23500
1839
+ },
1840
+ {
1841
+ "epoch": 0.17,
1842
+ "grad_norm": 0.20707851648330688,
1843
+ "learning_rate": 9.995761906418372e-05,
1844
+ "loss": 2.5589,
1845
+ "step": 23600
1846
+ },
1847
+ {
1848
+ "epoch": 0.17,
1849
+ "grad_norm": 0.16306054592132568,
1850
+ "learning_rate": 9.995722568630698e-05,
1851
+ "loss": 2.5576,
1852
+ "step": 23700
1853
+ },
1854
+ {
1855
+ "epoch": 0.17,
1856
+ "grad_norm": 0.21417422592639923,
1857
+ "learning_rate": 9.995683049197788e-05,
1858
+ "loss": 2.5574,
1859
+ "step": 23800
1860
+ },
1861
+ {
1862
+ "epoch": 0.17,
1863
+ "grad_norm": 0.21078960597515106,
1864
+ "learning_rate": 9.99564334812108e-05,
1865
+ "loss": 2.5588,
1866
+ "step": 23900
1867
+ },
1868
+ {
1869
+ "epoch": 0.17,
1870
+ "grad_norm": 0.17299005389213562,
1871
+ "learning_rate": 9.995603465402014e-05,
1872
+ "loss": 2.5567,
1873
+ "step": 24000
1874
+ },
1875
+ {
1876
+ "epoch": 0.17,
1877
+ "eval_loss": 2.5584349632263184,
1878
+ "eval_runtime": 5391.8597,
1879
+ "eval_samples_per_second": 1087.761,
1880
+ "eval_steps_per_second": 67.985,
1881
+ "step": 24000
1882
+ },
1883
+ {
1884
+ "epoch": 0.18,
1885
+ "grad_norm": 0.1550675630569458,
1886
+ "learning_rate": 9.995563401042043e-05,
1887
+ "loss": 2.5576,
1888
+ "step": 24100
1889
+ },
1890
+ {
1891
+ "epoch": 0.18,
1892
+ "grad_norm": 0.21063561737537384,
1893
+ "learning_rate": 9.995523155042623e-05,
1894
+ "loss": 2.5585,
1895
+ "step": 24200
1896
+ },
1897
+ {
1898
+ "epoch": 0.18,
1899
+ "grad_norm": 0.19711926579475403,
1900
+ "learning_rate": 9.995482727405219e-05,
1901
+ "loss": 2.5589,
1902
+ "step": 24300
1903
+ },
1904
+ {
1905
+ "epoch": 0.18,
1906
+ "grad_norm": 0.19466377794742584,
1907
+ "learning_rate": 9.995442118131297e-05,
1908
+ "loss": 2.5579,
1909
+ "step": 24400
1910
+ },
1911
+ {
1912
+ "epoch": 0.18,
1913
+ "grad_norm": 0.1623954474925995,
1914
+ "learning_rate": 9.995401327222338e-05,
1915
+ "loss": 2.5577,
1916
+ "step": 24500
1917
+ },
1918
+ {
1919
+ "epoch": 0.18,
1920
+ "grad_norm": 0.18352490663528442,
1921
+ "learning_rate": 9.995360354679822e-05,
1922
+ "loss": 2.5583,
1923
+ "step": 24600
1924
+ },
1925
+ {
1926
+ "epoch": 0.18,
1927
+ "grad_norm": 0.17624753713607788,
1928
+ "learning_rate": 9.99531920050524e-05,
1929
+ "loss": 2.5577,
1930
+ "step": 24700
1931
+ },
1932
+ {
1933
+ "epoch": 0.18,
1934
+ "grad_norm": 0.15336942672729492,
1935
+ "learning_rate": 9.995277864700089e-05,
1936
+ "loss": 2.5578,
1937
+ "step": 24800
1938
+ },
1939
+ {
1940
+ "epoch": 0.18,
1941
+ "grad_norm": 0.17434526979923248,
1942
+ "learning_rate": 9.99523634726587e-05,
1943
+ "loss": 2.5569,
1944
+ "step": 24900
1945
+ },
1946
+ {
1947
+ "epoch": 0.18,
1948
+ "grad_norm": 0.21592725813388824,
1949
+ "learning_rate": 9.995194648204095e-05,
1950
+ "loss": 2.5543,
1951
+ "step": 25000
1952
+ },
1953
+ {
1954
+ "epoch": 0.18,
1955
+ "eval_loss": 2.5564043521881104,
1956
+ "eval_runtime": 5516.1995,
1957
+ "eval_samples_per_second": 1063.242,
1958
+ "eval_steps_per_second": 66.453,
1959
+ "step": 25000
1960
+ },
1961
+ {
1962
+ "epoch": 0.18,
1963
+ "grad_norm": 0.15827420353889465,
1964
+ "learning_rate": 9.99515276751628e-05,
1965
+ "loss": 2.5554,
1966
+ "step": 25100
1967
+ },
1968
+ {
1969
+ "epoch": 0.18,
1970
+ "grad_norm": 0.17489619553089142,
1971
+ "learning_rate": 9.995110705203945e-05,
1972
+ "loss": 2.5566,
1973
+ "step": 25200
1974
+ },
1975
+ {
1976
+ "epoch": 0.18,
1977
+ "grad_norm": 0.18893638253211975,
1978
+ "learning_rate": 9.995068461268622e-05,
1979
+ "loss": 2.5561,
1980
+ "step": 25300
1981
+ },
1982
+ {
1983
+ "epoch": 0.18,
1984
+ "grad_norm": 0.19673244655132294,
1985
+ "learning_rate": 9.995026035711845e-05,
1986
+ "loss": 2.5569,
1987
+ "step": 25400
1988
+ },
1989
+ {
1990
+ "epoch": 0.19,
1991
+ "grad_norm": 0.18465718626976013,
1992
+ "learning_rate": 9.994983855505939e-05,
1993
+ "loss": 2.5554,
1994
+ "step": 25500
1995
+ },
1996
+ {
1997
+ "epoch": 0.19,
1998
+ "grad_norm": 0.1976306438446045,
1999
+ "learning_rate": 9.994941068527068e-05,
2000
+ "loss": 2.5561,
2001
+ "step": 25600
2002
+ },
2003
+ {
2004
+ "epoch": 0.19,
2005
+ "grad_norm": 0.1467328816652298,
2006
+ "learning_rate": 9.994898099931376e-05,
2007
+ "loss": 2.5542,
2008
+ "step": 25700
2009
+ },
2010
+ {
2011
+ "epoch": 0.19,
2012
+ "grad_norm": 0.20342576503753662,
2013
+ "learning_rate": 9.994854949720426e-05,
2014
+ "loss": 2.555,
2015
+ "step": 25800
2016
+ },
2017
+ {
2018
+ "epoch": 0.19,
2019
+ "grad_norm": 0.20438461005687714,
2020
+ "learning_rate": 9.994811617895786e-05,
2021
+ "loss": 2.5553,
2022
+ "step": 25900
2023
+ },
2024
+ {
2025
+ "epoch": 0.19,
2026
+ "grad_norm": 0.16016176342964172,
2027
+ "learning_rate": 9.994768104459032e-05,
2028
+ "loss": 2.5568,
2029
+ "step": 26000
2030
+ },
2031
+ {
2032
+ "epoch": 0.19,
2033
+ "eval_loss": 2.554506778717041,
2034
+ "eval_runtime": 5432.0955,
2035
+ "eval_samples_per_second": 1079.704,
2036
+ "eval_steps_per_second": 67.482,
2037
+ "step": 26000
2038
+ },
2039
+ {
2040
+ "epoch": 0.19,
2041
+ "grad_norm": 0.14238539338111877,
2042
+ "learning_rate": 9.994724409411746e-05,
2043
+ "loss": 2.5552,
2044
+ "step": 26100
2045
+ },
2046
+ {
2047
+ "epoch": 0.19,
2048
+ "grad_norm": 0.23573274910449982,
2049
+ "learning_rate": 9.994680532755518e-05,
2050
+ "loss": 2.5523,
2051
+ "step": 26200
2052
+ },
2053
+ {
2054
+ "epoch": 0.19,
2055
+ "grad_norm": 0.19863677024841309,
2056
+ "learning_rate": 9.994636474491942e-05,
2057
+ "loss": 2.5529,
2058
+ "step": 26300
2059
+ },
2060
+ {
2061
+ "epoch": 0.19,
2062
+ "grad_norm": 0.21995621919631958,
2063
+ "learning_rate": 9.994592234622619e-05,
2064
+ "loss": 2.5538,
2065
+ "step": 26400
2066
+ },
2067
+ {
2068
+ "epoch": 0.19,
2069
+ "grad_norm": 0.22063715755939484,
2070
+ "learning_rate": 9.99454781314916e-05,
2071
+ "loss": 2.5529,
2072
+ "step": 26500
2073
+ },
2074
+ {
2075
+ "epoch": 0.19,
2076
+ "grad_norm": 0.1817554086446762,
2077
+ "learning_rate": 9.99450321007318e-05,
2078
+ "loss": 2.5542,
2079
+ "step": 26600
2080
+ },
2081
+ {
2082
+ "epoch": 0.19,
2083
+ "grad_norm": 0.16820061206817627,
2084
+ "learning_rate": 9.994458425396298e-05,
2085
+ "loss": 2.5532,
2086
+ "step": 26700
2087
+ },
2088
+ {
2089
+ "epoch": 0.19,
2090
+ "grad_norm": 0.22539284825325012,
2091
+ "learning_rate": 9.994413459120146e-05,
2092
+ "loss": 2.5546,
2093
+ "step": 26800
2094
+ },
2095
+ {
2096
+ "epoch": 0.2,
2097
+ "grad_norm": 0.17431499063968658,
2098
+ "learning_rate": 9.994368311246356e-05,
2099
+ "loss": 2.5535,
2100
+ "step": 26900
2101
+ },
2102
+ {
2103
+ "epoch": 0.2,
2104
+ "grad_norm": 0.21042422950267792,
2105
+ "learning_rate": 9.99432298177657e-05,
2106
+ "loss": 2.554,
2107
+ "step": 27000
2108
+ },
2109
+ {
2110
+ "epoch": 0.2,
2111
+ "eval_loss": 2.5529098510742188,
2112
+ "eval_runtime": 7939.2552,
2113
+ "eval_samples_per_second": 738.741,
2114
+ "eval_steps_per_second": 46.171,
2115
+ "step": 27000
2116
+ },
2117
+ {
2118
+ "epoch": 0.2,
2119
+ "grad_norm": 0.18547575175762177,
2120
+ "learning_rate": 9.994277470712439e-05,
2121
+ "loss": 2.5533,
2122
+ "step": 27100
2123
+ },
2124
+ {
2125
+ "epoch": 0.2,
2126
+ "grad_norm": 0.17700788378715515,
2127
+ "learning_rate": 9.994231778055614e-05,
2128
+ "loss": 2.553,
2129
+ "step": 27200
2130
+ },
2131
+ {
2132
+ "epoch": 0.2,
2133
+ "grad_norm": 0.2162560373544693,
2134
+ "learning_rate": 9.99418590380776e-05,
2135
+ "loss": 2.5531,
2136
+ "step": 27300
2137
+ },
2138
+ {
2139
+ "epoch": 0.2,
2140
+ "grad_norm": 0.17806923389434814,
2141
+ "learning_rate": 9.99413984797054e-05,
2142
+ "loss": 2.5508,
2143
+ "step": 27400
2144
+ },
2145
+ {
2146
+ "epoch": 0.2,
2147
+ "grad_norm": 0.1959153264760971,
2148
+ "learning_rate": 9.994094073818738e-05,
2149
+ "loss": 2.5521,
2150
+ "step": 27500
2151
+ },
2152
+ {
2153
+ "epoch": 0.2,
2154
+ "grad_norm": 0.2098911553621292,
2155
+ "learning_rate": 9.994047656623675e-05,
2156
+ "loss": 2.5518,
2157
+ "step": 27600
2158
+ },
2159
+ {
2160
+ "epoch": 0.2,
2161
+ "grad_norm": 0.17420220375061035,
2162
+ "learning_rate": 9.994001057844278e-05,
2163
+ "loss": 2.5508,
2164
+ "step": 27700
2165
+ },
2166
+ {
2167
+ "epoch": 0.2,
2168
+ "grad_norm": 0.1538473218679428,
2169
+ "learning_rate": 9.993954277482238e-05,
2170
+ "loss": 2.5506,
2171
+ "step": 27800
2172
+ },
2173
+ {
2174
+ "epoch": 0.2,
2175
+ "grad_norm": 0.1710011512041092,
2176
+ "learning_rate": 9.993907315539257e-05,
2177
+ "loss": 2.5509,
2178
+ "step": 27900
2179
+ },
2180
+ {
2181
+ "epoch": 0.2,
2182
+ "grad_norm": 0.14763277769088745,
2183
+ "learning_rate": 9.993860172017044e-05,
2184
+ "loss": 2.5514,
2185
+ "step": 28000
2186
+ },
2187
+ {
2188
+ "epoch": 0.2,
2189
+ "eval_loss": 2.5512099266052246,
2190
+ "eval_runtime": 9244.95,
2191
+ "eval_samples_per_second": 634.406,
2192
+ "eval_steps_per_second": 39.65,
2193
+ "step": 28000
2194
+ },
2195
+ {
2196
+ "epoch": 0.2,
2197
+ "grad_norm": 0.24788980185985565,
2198
+ "learning_rate": 9.99381284691731e-05,
2199
+ "loss": 2.5507,
2200
+ "step": 28100
2201
+ },
2202
+ {
2203
+ "epoch": 0.21,
2204
+ "grad_norm": 0.16047827899456024,
2205
+ "learning_rate": 9.993765340241779e-05,
2206
+ "loss": 2.5504,
2207
+ "step": 28200
2208
+ },
2209
+ {
2210
+ "epoch": 0.21,
2211
+ "grad_norm": 0.2097485363483429,
2212
+ "learning_rate": 9.993717651992176e-05,
2213
+ "loss": 2.5496,
2214
+ "step": 28300
2215
+ },
2216
+ {
2217
+ "epoch": 0.21,
2218
+ "grad_norm": 0.15989455580711365,
2219
+ "learning_rate": 9.993669782170236e-05,
2220
+ "loss": 2.5511,
2221
+ "step": 28400
2222
+ },
2223
+ {
2224
+ "epoch": 0.21,
2225
+ "grad_norm": 0.1990625262260437,
2226
+ "learning_rate": 9.9936217307777e-05,
2227
+ "loss": 2.5491,
2228
+ "step": 28500
2229
+ },
2230
+ {
2231
+ "epoch": 0.21,
2232
+ "grad_norm": 0.17394055426120758,
2233
+ "learning_rate": 9.993573497816314e-05,
2234
+ "loss": 2.5503,
2235
+ "step": 28600
2236
+ },
2237
+ {
2238
+ "epoch": 0.21,
2239
+ "grad_norm": 0.17688289284706116,
2240
+ "learning_rate": 9.993525083287832e-05,
2241
+ "loss": 2.5487,
2242
+ "step": 28700
2243
+ },
2244
+ {
2245
+ "epoch": 0.21,
2246
+ "grad_norm": 0.20647858083248138,
2247
+ "learning_rate": 9.993476487194015e-05,
2248
+ "loss": 2.5502,
2249
+ "step": 28800
2250
+ },
2251
+ {
2252
+ "epoch": 0.21,
2253
+ "grad_norm": 0.17351941764354706,
2254
+ "learning_rate": 9.99342770953663e-05,
2255
+ "loss": 2.5503,
2256
+ "step": 28900
2257
+ },
2258
+ {
2259
+ "epoch": 0.21,
2260
+ "grad_norm": 0.16259269416332245,
2261
+ "learning_rate": 9.993379240808367e-05,
2262
+ "loss": 2.5505,
2263
+ "step": 29000
2264
+ },
2265
+ {
2266
+ "epoch": 0.21,
2267
+ "eval_loss": 2.5498733520507812,
2268
+ "eval_runtime": 8094.52,
2269
+ "eval_samples_per_second": 724.571,
2270
+ "eval_steps_per_second": 45.286,
2271
+ "step": 29000
2272
+ },
2273
+ {
2274
+ "epoch": 0.21,
2275
+ "grad_norm": 0.152243971824646,
2276
+ "learning_rate": 9.993330101844764e-05,
2277
+ "loss": 2.5494,
2278
+ "step": 29100
2279
+ },
2280
+ {
2281
+ "epoch": 0.21,
2282
+ "grad_norm": 0.21322308480739594,
2283
+ "learning_rate": 9.993280781322914e-05,
2284
+ "loss": 2.5495,
2285
+ "step": 29200
2286
+ },
2287
+ {
2288
+ "epoch": 0.21,
2289
+ "grad_norm": 0.17743776738643646,
2290
+ "learning_rate": 9.993231279244612e-05,
2291
+ "loss": 2.55,
2292
+ "step": 29300
2293
+ },
2294
+ {
2295
+ "epoch": 0.21,
2296
+ "grad_norm": 0.19075080752372742,
2297
+ "learning_rate": 9.993181595611659e-05,
2298
+ "loss": 2.5477,
2299
+ "step": 29400
2300
+ },
2301
+ {
2302
+ "epoch": 0.21,
2303
+ "grad_norm": 0.14956378936767578,
2304
+ "learning_rate": 9.993131730425858e-05,
2305
+ "loss": 2.5499,
2306
+ "step": 29500
2307
+ },
2308
+ {
2309
+ "epoch": 0.22,
2310
+ "grad_norm": 0.1913817673921585,
2311
+ "learning_rate": 9.993081683689026e-05,
2312
+ "loss": 2.5499,
2313
+ "step": 29600
2314
+ },
2315
+ {
2316
+ "epoch": 0.22,
2317
+ "grad_norm": 0.1898573786020279,
2318
+ "learning_rate": 9.99303145540298e-05,
2319
+ "loss": 2.5478,
2320
+ "step": 29700
2321
+ },
2322
+ {
2323
+ "epoch": 0.22,
2324
+ "grad_norm": 0.18223215639591217,
2325
+ "learning_rate": 9.992981045569545e-05,
2326
+ "loss": 2.5497,
2327
+ "step": 29800
2328
+ },
2329
+ {
2330
+ "epoch": 0.22,
2331
+ "grad_norm": 0.17807921767234802,
2332
+ "learning_rate": 9.992930454190558e-05,
2333
+ "loss": 2.5482,
2334
+ "step": 29900
2335
+ },
2336
+ {
2337
+ "epoch": 0.22,
2338
+ "grad_norm": 0.19245785474777222,
2339
+ "learning_rate": 9.992879681267855e-05,
2340
+ "loss": 2.5477,
2341
+ "step": 30000
2342
+ },
2343
+ {
2344
+ "epoch": 0.22,
2345
+ "eval_loss": 2.5480847358703613,
2346
+ "eval_runtime": 5418.7874,
2347
+ "eval_samples_per_second": 1082.355,
2348
+ "eval_steps_per_second": 67.647,
2349
+ "step": 30000
2350
+ },
2351
+ {
2352
+ "epoch": 0.22,
2353
+ "grad_norm": 0.16644108295440674,
2354
+ "learning_rate": 9.992828726803284e-05,
2355
+ "loss": 2.5462,
2356
+ "step": 30100
2357
+ },
2358
+ {
2359
+ "epoch": 0.22,
2360
+ "grad_norm": 0.21199798583984375,
2361
+ "learning_rate": 9.992777590798698e-05,
2362
+ "loss": 2.5472,
2363
+ "step": 30200
2364
+ },
2365
+ {
2366
+ "epoch": 0.22,
2367
+ "grad_norm": 0.16835100948810577,
2368
+ "learning_rate": 9.992726273255957e-05,
2369
+ "loss": 2.5492,
2370
+ "step": 30300
2371
+ },
2372
+ {
2373
+ "epoch": 0.22,
2374
+ "grad_norm": 0.24301642179489136,
2375
+ "learning_rate": 9.992674774176924e-05,
2376
+ "loss": 2.547,
2377
+ "step": 30400
2378
+ },
2379
+ {
2380
+ "epoch": 0.22,
2381
+ "grad_norm": 0.1855507344007492,
2382
+ "learning_rate": 9.992623093563473e-05,
2383
+ "loss": 2.5482,
2384
+ "step": 30500
2385
+ },
2386
+ {
2387
+ "epoch": 0.22,
2388
+ "grad_norm": 0.20825399458408356,
2389
+ "learning_rate": 9.992571231417482e-05,
2390
+ "loss": 2.5472,
2391
+ "step": 30600
2392
+ },
2393
+ {
2394
+ "epoch": 0.22,
2395
+ "grad_norm": 0.18983405828475952,
2396
+ "learning_rate": 9.99251918774084e-05,
2397
+ "loss": 2.5456,
2398
+ "step": 30700
2399
+ },
2400
+ {
2401
+ "epoch": 0.22,
2402
+ "grad_norm": 0.19868837296962738,
2403
+ "learning_rate": 9.992466962535437e-05,
2404
+ "loss": 2.5472,
2405
+ "step": 30800
2406
+ },
2407
+ {
2408
+ "epoch": 0.22,
2409
+ "grad_norm": 0.217344731092453,
2410
+ "learning_rate": 9.99241455580317e-05,
2411
+ "loss": 2.5468,
2412
+ "step": 30900
2413
+ },
2414
+ {
2415
+ "epoch": 0.23,
2416
+ "grad_norm": 0.21630564332008362,
2417
+ "learning_rate": 9.992361967545949e-05,
2418
+ "loss": 2.5461,
2419
+ "step": 31000
2420
+ },
2421
+ {
2422
+ "epoch": 0.23,
2423
+ "eval_loss": 2.5460619926452637,
2424
+ "eval_runtime": 5334.7258,
2425
+ "eval_samples_per_second": 1099.41,
2426
+ "eval_steps_per_second": 68.713,
2427
+ "step": 31000
2428
+ },
2429
+ {
2430
+ "epoch": 0.23,
2431
+ "grad_norm": 0.20726899802684784,
2432
+ "learning_rate": 9.992309197765681e-05,
2433
+ "loss": 2.5479,
2434
+ "step": 31100
2435
+ },
2436
+ {
2437
+ "epoch": 0.23,
2438
+ "grad_norm": 0.20710667967796326,
2439
+ "learning_rate": 9.99225624646429e-05,
2440
+ "loss": 2.5472,
2441
+ "step": 31200
2442
+ },
2443
+ {
2444
+ "epoch": 0.23,
2445
+ "grad_norm": 0.23984268307685852,
2446
+ "learning_rate": 9.992203113643699e-05,
2447
+ "loss": 2.5449,
2448
+ "step": 31300
2449
+ },
2450
+ {
2451
+ "epoch": 0.23,
2452
+ "grad_norm": 0.1859433650970459,
2453
+ "learning_rate": 9.992149799305838e-05,
2454
+ "loss": 2.5456,
2455
+ "step": 31400
2456
+ },
2457
+ {
2458
+ "epoch": 0.23,
2459
+ "grad_norm": 0.19020648300647736,
2460
+ "learning_rate": 9.992096303452647e-05,
2461
+ "loss": 2.5472,
2462
+ "step": 31500
2463
+ },
2464
+ {
2465
+ "epoch": 0.23,
2466
+ "grad_norm": 0.18619538843631744,
2467
+ "learning_rate": 9.992042626086073e-05,
2468
+ "loss": 2.5446,
2469
+ "step": 31600
2470
+ },
2471
+ {
2472
+ "epoch": 0.23,
2473
+ "grad_norm": 0.15984103083610535,
2474
+ "learning_rate": 9.991988767208065e-05,
2475
+ "loss": 2.5429,
2476
+ "step": 31700
2477
+ },
2478
+ {
2479
+ "epoch": 0.23,
2480
+ "grad_norm": 0.1874154657125473,
2481
+ "learning_rate": 9.991934726820583e-05,
2482
+ "loss": 2.5457,
2483
+ "step": 31800
2484
+ },
2485
+ {
2486
+ "epoch": 0.23,
2487
+ "grad_norm": 0.21573562920093536,
2488
+ "learning_rate": 9.99188050492559e-05,
2489
+ "loss": 2.5451,
2490
+ "step": 31900
2491
+ },
2492
+ {
2493
+ "epoch": 0.23,
2494
+ "grad_norm": 0.20766520500183105,
2495
+ "learning_rate": 9.991826101525059e-05,
2496
+ "loss": 2.5457,
2497
+ "step": 32000
2498
+ },
2499
+ {
2500
+ "epoch": 0.23,
2501
+ "eval_loss": 2.5444440841674805,
2502
+ "eval_runtime": 5469.9575,
2503
+ "eval_samples_per_second": 1072.23,
2504
+ "eval_steps_per_second": 67.014,
2505
+ "step": 32000
2506
+ },
2507
+ {
2508
+ "epoch": 0.23,
2509
+ "grad_norm": 0.1947011798620224,
2510
+ "learning_rate": 9.991771516620969e-05,
2511
+ "loss": 2.5439,
2512
+ "step": 32100
2513
+ },
2514
+ {
2515
+ "epoch": 0.23,
2516
+ "grad_norm": 0.20974138379096985,
2517
+ "learning_rate": 9.991716750215303e-05,
2518
+ "loss": 2.5455,
2519
+ "step": 32200
2520
+ },
2521
+ {
2522
+ "epoch": 0.23,
2523
+ "grad_norm": 0.20095574855804443,
2524
+ "learning_rate": 9.991661802310053e-05,
2525
+ "loss": 2.544,
2526
+ "step": 32300
2527
+ },
2528
+ {
2529
+ "epoch": 0.24,
2530
+ "grad_norm": 0.15232567489147186,
2531
+ "learning_rate": 9.991606672907218e-05,
2532
+ "loss": 2.5447,
2533
+ "step": 32400
2534
+ },
2535
+ {
2536
+ "epoch": 0.24,
2537
+ "grad_norm": 0.1890016496181488,
2538
+ "learning_rate": 9.99155191601618e-05,
2539
+ "loss": 2.5438,
2540
+ "step": 32500
2541
+ },
2542
+ {
2543
+ "epoch": 0.24,
2544
+ "grad_norm": 0.15099911391735077,
2545
+ "learning_rate": 9.991496425439117e-05,
2546
+ "loss": 2.5426,
2547
+ "step": 32600
2548
+ },
2549
+ {
2550
+ "epoch": 0.24,
2551
+ "grad_norm": 0.19564999639987946,
2552
+ "learning_rate": 9.991440753370483e-05,
2553
+ "loss": 2.5433,
2554
+ "step": 32700
2555
+ },
2556
+ {
2557
+ "epoch": 0.24,
2558
+ "grad_norm": 0.23213982582092285,
2559
+ "learning_rate": 9.991384899812299e-05,
2560
+ "loss": 2.5451,
2561
+ "step": 32800
2562
+ },
2563
+ {
2564
+ "epoch": 0.24,
2565
+ "grad_norm": 0.21088984608650208,
2566
+ "learning_rate": 9.991328864766595e-05,
2567
+ "loss": 2.5423,
2568
+ "step": 32900
2569
+ },
2570
+ {
2571
+ "epoch": 0.24,
2572
+ "grad_norm": 0.2080707848072052,
2573
+ "learning_rate": 9.991272648235412e-05,
2574
+ "loss": 2.542,
2575
+ "step": 33000
2576
+ },
2577
+ {
2578
+ "epoch": 0.24,
2579
+ "eval_loss": 2.543639898300171,
2580
+ "eval_runtime": 5500.5758,
2581
+ "eval_samples_per_second": 1066.262,
2582
+ "eval_steps_per_second": 66.641,
2583
+ "step": 33000
2584
+ },
2585
+ {
2586
+ "epoch": 0.24,
2587
+ "grad_norm": 0.20043937861919403,
2588
+ "learning_rate": 9.991216250220794e-05,
2589
+ "loss": 2.5434,
2590
+ "step": 33100
2591
+ },
2592
+ {
2593
+ "epoch": 0.24,
2594
+ "grad_norm": 0.26814088225364685,
2595
+ "learning_rate": 9.991159670724789e-05,
2596
+ "loss": 2.5439,
2597
+ "step": 33200
2598
+ },
2599
+ {
2600
+ "epoch": 0.24,
2601
+ "grad_norm": 0.1790783852338791,
2602
+ "learning_rate": 9.991102909749455e-05,
2603
+ "loss": 2.5422,
2604
+ "step": 33300
2605
+ },
2606
+ {
2607
+ "epoch": 0.24,
2608
+ "grad_norm": 0.17718929052352905,
2609
+ "learning_rate": 9.991045967296856e-05,
2610
+ "loss": 2.5414,
2611
+ "step": 33400
2612
+ },
2613
+ {
2614
+ "epoch": 0.24,
2615
+ "grad_norm": 0.19124653935432434,
2616
+ "learning_rate": 9.990988843369065e-05,
2617
+ "loss": 2.5409,
2618
+ "step": 33500
2619
+ },
2620
+ {
2621
+ "epoch": 0.24,
2622
+ "grad_norm": 0.19628183543682098,
2623
+ "learning_rate": 9.990931537968155e-05,
2624
+ "loss": 2.5423,
2625
+ "step": 33600
2626
+ },
2627
+ {
2628
+ "epoch": 0.25,
2629
+ "grad_norm": 0.2127145528793335,
2630
+ "learning_rate": 9.990874051096211e-05,
2631
+ "loss": 2.5451,
2632
+ "step": 33700
2633
+ },
2634
+ {
2635
+ "epoch": 0.25,
2636
+ "grad_norm": 0.19408264756202698,
2637
+ "learning_rate": 9.990816382755324e-05,
2638
+ "loss": 2.5405,
2639
+ "step": 33800
2640
+ },
2641
+ {
2642
+ "epoch": 0.25,
2643
+ "grad_norm": 0.1892174333333969,
2644
+ "learning_rate": 9.99075853294759e-05,
2645
+ "loss": 2.5428,
2646
+ "step": 33900
2647
+ },
2648
+ {
2649
+ "epoch": 0.25,
2650
+ "grad_norm": 0.20231932401657104,
2651
+ "learning_rate": 9.990700501675114e-05,
2652
+ "loss": 2.5424,
2653
+ "step": 34000
2654
+ },
2655
+ {
2656
+ "epoch": 0.25,
2657
+ "eval_loss": 2.5417420864105225,
2658
+ "eval_runtime": 5451.1377,
2659
+ "eval_samples_per_second": 1075.932,
2660
+ "eval_steps_per_second": 67.246,
2661
+ "step": 34000
2662
+ },
2663
+ {
2664
+ "epoch": 0.25,
2665
+ "grad_norm": 0.17818154394626617,
2666
+ "learning_rate": 9.990642288940005e-05,
2667
+ "loss": 2.5406,
2668
+ "step": 34100
2669
+ },
2670
+ {
2671
+ "epoch": 0.25,
2672
+ "grad_norm": 0.20383848249912262,
2673
+ "learning_rate": 9.990583894744378e-05,
2674
+ "loss": 2.5414,
2675
+ "step": 34200
2676
+ },
2677
+ {
2678
+ "epoch": 0.25,
2679
+ "grad_norm": 0.19464430212974548,
2680
+ "learning_rate": 9.99052531909036e-05,
2681
+ "loss": 2.5413,
2682
+ "step": 34300
2683
+ },
2684
+ {
2685
+ "epoch": 0.25,
2686
+ "grad_norm": 0.17793488502502441,
2687
+ "learning_rate": 9.990466561980076e-05,
2688
+ "loss": 2.5421,
2689
+ "step": 34400
2690
+ },
2691
+ {
2692
+ "epoch": 0.25,
2693
+ "grad_norm": 0.2119537591934204,
2694
+ "learning_rate": 9.990407623415668e-05,
2695
+ "loss": 2.54,
2696
+ "step": 34500
2697
+ },
2698
+ {
2699
+ "epoch": 0.25,
2700
+ "grad_norm": 0.20085354149341583,
2701
+ "learning_rate": 9.990348503399273e-05,
2702
+ "loss": 2.5395,
2703
+ "step": 34600
2704
+ },
2705
+ {
2706
+ "epoch": 0.25,
2707
+ "grad_norm": 0.18408524990081787,
2708
+ "learning_rate": 9.990289201933045e-05,
2709
+ "loss": 2.5395,
2710
+ "step": 34700
2711
+ },
2712
+ {
2713
+ "epoch": 0.25,
2714
+ "grad_norm": 0.18326416611671448,
2715
+ "learning_rate": 9.990229719019137e-05,
2716
+ "loss": 2.5404,
2717
+ "step": 34800
2718
+ },
2719
+ {
2720
+ "epoch": 0.25,
2721
+ "grad_norm": 0.2630787193775177,
2722
+ "learning_rate": 9.990170054659715e-05,
2723
+ "loss": 2.5404,
2724
+ "step": 34900
2725
+ },
2726
+ {
2727
+ "epoch": 0.25,
2728
+ "grad_norm": 0.23082153499126434,
2729
+ "learning_rate": 9.990110208856948e-05,
2730
+ "loss": 2.5402,
2731
+ "step": 35000
2732
+ },
2733
+ {
2734
+ "epoch": 0.25,
2735
+ "eval_loss": 2.540555477142334,
2736
+ "eval_runtime": 5286.1621,
2737
+ "eval_samples_per_second": 1109.511,
2738
+ "eval_steps_per_second": 69.344,
2739
+ "step": 35000
2740
+ },
2741
+ {
2742
+ "epoch": 0.26,
2743
+ "grad_norm": 0.2101873904466629,
2744
+ "learning_rate": 9.990050181613012e-05,
2745
+ "loss": 2.5409,
2746
+ "step": 35100
2747
+ },
2748
+ {
2749
+ "epoch": 0.26,
2750
+ "grad_norm": 0.1748313456773758,
2751
+ "learning_rate": 9.989989972930086e-05,
2752
+ "loss": 2.5408,
2753
+ "step": 35200
2754
+ },
2755
+ {
2756
+ "epoch": 0.26,
2757
+ "grad_norm": 0.21641358733177185,
2758
+ "learning_rate": 9.989929582810362e-05,
2759
+ "loss": 2.5407,
2760
+ "step": 35300
2761
+ },
2762
+ {
2763
+ "epoch": 0.26,
2764
+ "grad_norm": 0.20202140510082245,
2765
+ "learning_rate": 9.989869011256037e-05,
2766
+ "loss": 2.5419,
2767
+ "step": 35400
2768
+ },
2769
+ {
2770
+ "epoch": 0.26,
2771
+ "grad_norm": 0.1987978219985962,
2772
+ "learning_rate": 9.989808258269311e-05,
2773
+ "loss": 2.54,
2774
+ "step": 35500
2775
+ },
2776
+ {
2777
+ "epoch": 0.26,
2778
+ "grad_norm": 0.17482729256153107,
2779
+ "learning_rate": 9.989747323852394e-05,
2780
+ "loss": 2.5398,
2781
+ "step": 35600
2782
+ },
2783
+ {
2784
+ "epoch": 0.26,
2785
+ "grad_norm": 0.15725675225257874,
2786
+ "learning_rate": 9.989686208007502e-05,
2787
+ "loss": 2.5384,
2788
+ "step": 35700
2789
+ },
2790
+ {
2791
+ "epoch": 0.26,
2792
+ "grad_norm": Infinity,
2793
+ "learning_rate": 9.989625524607613e-05,
2794
+ "loss": 2.54,
2795
+ "step": 35800
2796
+ },
2797
+ {
2798
+ "epoch": 0.26,
2799
+ "grad_norm": 0.19513057172298431,
2800
+ "learning_rate": 9.989564047727667e-05,
2801
+ "loss": 2.541,
2802
+ "step": 35900
2803
+ },
2804
+ {
2805
+ "epoch": 0.26,
2806
+ "grad_norm": 0.24705880880355835,
2807
+ "learning_rate": 9.989502389426411e-05,
2808
+ "loss": 2.5398,
2809
+ "step": 36000
2810
+ },
2811
+ {
2812
+ "epoch": 0.26,
2813
+ "eval_loss": 2.5393338203430176,
2814
+ "eval_runtime": 5370.7521,
2815
+ "eval_samples_per_second": 1092.036,
2816
+ "eval_steps_per_second": 68.252,
2817
+ "step": 36000
2818
+ },
2819
+ {
2820
+ "epoch": 0.26,
2821
+ "grad_norm": 0.17639793455600739,
2822
+ "learning_rate": 9.989440549706085e-05,
2823
+ "loss": 2.5398,
2824
+ "step": 36100
2825
+ },
2826
+ {
2827
+ "epoch": 0.26,
2828
+ "grad_norm": 0.23090311884880066,
2829
+ "learning_rate": 9.989378528568935e-05,
2830
+ "loss": 2.5399,
2831
+ "step": 36200
2832
+ },
2833
+ {
2834
+ "epoch": 0.26,
2835
+ "grad_norm": 0.21377325057983398,
2836
+ "learning_rate": 9.989316326017221e-05,
2837
+ "loss": 2.5351,
2838
+ "step": 36300
2839
+ },
2840
+ {
2841
+ "epoch": 0.26,
2842
+ "grad_norm": 0.21422795951366425,
2843
+ "learning_rate": 9.989253942053204e-05,
2844
+ "loss": 2.5381,
2845
+ "step": 36400
2846
+ },
2847
+ {
2848
+ "epoch": 0.27,
2849
+ "grad_norm": 0.20974934101104736,
2850
+ "learning_rate": 9.98919137667915e-05,
2851
+ "loss": 2.5378,
2852
+ "step": 36500
2853
+ },
2854
+ {
2855
+ "epoch": 0.27,
2856
+ "grad_norm": 0.19352389872074127,
2857
+ "learning_rate": 9.989128629897335e-05,
2858
+ "loss": 2.5378,
2859
+ "step": 36600
2860
+ },
2861
+ {
2862
+ "epoch": 0.27,
2863
+ "grad_norm": 0.21016819775104523,
2864
+ "learning_rate": 9.989065701710041e-05,
2865
+ "loss": 2.5366,
2866
+ "step": 36700
2867
+ },
2868
+ {
2869
+ "epoch": 0.27,
2870
+ "grad_norm": 0.1750701367855072,
2871
+ "learning_rate": 9.989002592119554e-05,
2872
+ "loss": 2.5399,
2873
+ "step": 36800
2874
+ },
2875
+ {
2876
+ "epoch": 0.27,
2877
+ "grad_norm": 0.18955004215240479,
2878
+ "learning_rate": 9.988939301128171e-05,
2879
+ "loss": 2.5411,
2880
+ "step": 36900
2881
+ },
2882
+ {
2883
+ "epoch": 0.27,
2884
+ "grad_norm": 0.22183337807655334,
2885
+ "learning_rate": 9.988875828738192e-05,
2886
+ "loss": 2.5385,
2887
+ "step": 37000
2888
+ },
2889
+ {
2890
+ "epoch": 0.27,
2891
+ "eval_loss": 2.537937879562378,
2892
+ "eval_runtime": 5267.1428,
2893
+ "eval_samples_per_second": 1113.517,
2894
+ "eval_steps_per_second": 69.595,
2895
+ "step": 37000
2896
+ },
2897
+ {
2898
+ "epoch": 0.27,
2899
+ "grad_norm": 0.17703290283679962,
2900
+ "learning_rate": 9.988812174951926e-05,
2901
+ "loss": 2.5386,
2902
+ "step": 37100
2903
+ },
2904
+ {
2905
+ "epoch": 0.27,
2906
+ "grad_norm": 0.17456910014152527,
2907
+ "learning_rate": 9.988748339771686e-05,
2908
+ "loss": 2.536,
2909
+ "step": 37200
2910
+ },
2911
+ {
2912
+ "epoch": 0.27,
2913
+ "grad_norm": 0.1729470044374466,
2914
+ "learning_rate": 9.988684323199795e-05,
2915
+ "loss": 2.5367,
2916
+ "step": 37300
2917
+ },
2918
+ {
2919
+ "epoch": 0.27,
2920
+ "grad_norm": 0.14801037311553955,
2921
+ "learning_rate": 9.988620125238578e-05,
2922
+ "loss": 2.5365,
2923
+ "step": 37400
2924
+ },
2925
+ {
2926
+ "epoch": 0.27,
2927
+ "grad_norm": 0.19737888872623444,
2928
+ "learning_rate": 9.988555745890371e-05,
2929
+ "loss": 2.5373,
2930
+ "step": 37500
2931
+ },
2932
+ {
2933
+ "epoch": 0.27,
2934
+ "grad_norm": 0.2556416392326355,
2935
+ "learning_rate": 9.988491185157514e-05,
2936
+ "loss": 2.5389,
2937
+ "step": 37600
2938
+ },
2939
+ {
2940
+ "epoch": 0.27,
2941
+ "grad_norm": 0.22999688982963562,
2942
+ "learning_rate": 9.988426443042357e-05,
2943
+ "loss": 2.5366,
2944
+ "step": 37700
2945
+ },
2946
+ {
2947
+ "epoch": 0.27,
2948
+ "grad_norm": 0.20399746298789978,
2949
+ "learning_rate": 9.988361519547252e-05,
2950
+ "loss": 2.5375,
2951
+ "step": 37800
2952
+ },
2953
+ {
2954
+ "epoch": 0.28,
2955
+ "grad_norm": 0.1886683702468872,
2956
+ "learning_rate": 9.988296414674556e-05,
2957
+ "loss": 2.5378,
2958
+ "step": 37900
2959
+ },
2960
+ {
2961
+ "epoch": 0.28,
2962
+ "grad_norm": 0.15870767831802368,
2963
+ "learning_rate": 9.988231128426643e-05,
2964
+ "loss": 2.5396,
2965
+ "step": 38000
2966
+ },
2967
+ {
2968
+ "epoch": 0.28,
2969
+ "eval_loss": 2.536235809326172,
2970
+ "eval_runtime": 5469.5004,
2971
+ "eval_samples_per_second": 1072.32,
2972
+ "eval_steps_per_second": 67.02,
2973
+ "step": 38000
2974
+ },
2975
+ {
2976
+ "epoch": 0.28,
2977
+ "grad_norm": 0.19297446310520172,
2978
+ "learning_rate": 9.988165660805883e-05,
2979
+ "loss": 2.5364,
2980
+ "step": 38100
2981
+ },
2982
+ {
2983
+ "epoch": 0.28,
2984
+ "grad_norm": 0.1729346513748169,
2985
+ "learning_rate": 9.988100011814657e-05,
2986
+ "loss": 2.5374,
2987
+ "step": 38200
2988
+ },
2989
+ {
2990
+ "epoch": 0.28,
2991
+ "grad_norm": 0.2072724550962448,
2992
+ "learning_rate": 9.988034181455352e-05,
2993
+ "loss": 2.5381,
2994
+ "step": 38300
2995
+ },
2996
+ {
2997
+ "epoch": 0.28,
2998
+ "grad_norm": 0.1756744384765625,
2999
+ "learning_rate": 9.987968169730362e-05,
3000
+ "loss": 2.5379,
3001
+ "step": 38400
3002
+ },
3003
+ {
3004
+ "epoch": 0.28,
3005
+ "grad_norm": 0.27329882979393005,
3006
+ "learning_rate": 9.987901976642086e-05,
3007
+ "loss": 2.5349,
3008
+ "step": 38500
3009
+ },
3010
+ {
3011
+ "epoch": 0.28,
3012
+ "grad_norm": 0.23222842812538147,
3013
+ "learning_rate": 9.987835602192934e-05,
3014
+ "loss": 2.5355,
3015
+ "step": 38600
3016
+ },
3017
+ {
3018
+ "epoch": 0.28,
3019
+ "grad_norm": 0.2461015284061432,
3020
+ "learning_rate": 9.987769046385316e-05,
3021
+ "loss": 2.5364,
3022
+ "step": 38700
3023
+ },
3024
+ {
3025
+ "epoch": 0.28,
3026
+ "grad_norm": 0.1758180409669876,
3027
+ "learning_rate": 9.987702309221651e-05,
3028
+ "loss": 2.5377,
3029
+ "step": 38800
3030
+ },
3031
+ {
3032
+ "epoch": 0.28,
3033
+ "grad_norm": 0.15205176174640656,
3034
+ "learning_rate": 9.987635390704369e-05,
3035
+ "loss": 2.5376,
3036
+ "step": 38900
3037
+ },
3038
+ {
3039
+ "epoch": 0.28,
3040
+ "grad_norm": 0.1985970139503479,
3041
+ "learning_rate": 9.987568290835903e-05,
3042
+ "loss": 2.5372,
3043
+ "step": 39000
3044
+ },
3045
+ {
3046
+ "epoch": 0.28,
3047
+ "eval_loss": 2.53525710105896,
3048
+ "eval_runtime": 5498.4571,
3049
+ "eval_samples_per_second": 1066.673,
3050
+ "eval_steps_per_second": 66.667,
3051
+ "step": 39000
3052
+ },
3053
+ {
3054
+ "epoch": 0.28,
3055
+ "grad_norm": 0.1800653338432312,
3056
+ "learning_rate": 9.987501009618691e-05,
3057
+ "loss": 2.5349,
3058
+ "step": 39100
3059
+ },
3060
+ {
3061
+ "epoch": 0.29,
3062
+ "grad_norm": 0.22484809160232544,
3063
+ "learning_rate": 9.987433547055178e-05,
3064
+ "loss": 2.5364,
3065
+ "step": 39200
3066
+ },
3067
+ {
3068
+ "epoch": 0.29,
3069
+ "grad_norm": 0.1974021941423416,
3070
+ "learning_rate": 9.98736590314782e-05,
3071
+ "loss": 2.5333,
3072
+ "step": 39300
3073
+ },
3074
+ {
3075
+ "epoch": 0.29,
3076
+ "grad_norm": 0.23238864541053772,
3077
+ "learning_rate": 9.987298077899076e-05,
3078
+ "loss": 2.5371,
3079
+ "step": 39400
3080
+ },
3081
+ {
3082
+ "epoch": 0.29,
3083
+ "grad_norm": 0.17493529617786407,
3084
+ "learning_rate": 9.987230071311411e-05,
3085
+ "loss": 2.5356,
3086
+ "step": 39500
3087
+ },
3088
+ {
3089
+ "epoch": 0.29,
3090
+ "grad_norm": 0.23257118463516235,
3091
+ "learning_rate": 9.987161883387299e-05,
3092
+ "loss": 2.5354,
3093
+ "step": 39600
3094
+ },
3095
+ {
3096
+ "epoch": 0.29,
3097
+ "grad_norm": 0.18204239010810852,
3098
+ "learning_rate": 9.987094198719394e-05,
3099
+ "loss": 2.5348,
3100
+ "step": 39700
3101
+ },
3102
+ {
3103
+ "epoch": 0.29,
3104
+ "grad_norm": 0.20585016906261444,
3105
+ "learning_rate": 9.987025649943133e-05,
3106
+ "loss": 2.5347,
3107
+ "step": 39800
3108
+ },
3109
+ {
3110
+ "epoch": 0.29,
3111
+ "grad_norm": 0.19951903820037842,
3112
+ "learning_rate": 9.986956919837858e-05,
3113
+ "loss": 2.5355,
3114
+ "step": 39900
3115
+ },
3116
+ {
3117
+ "epoch": 0.29,
3118
+ "grad_norm": 0.1689595878124237,
3119
+ "learning_rate": 9.986888008406065e-05,
3120
+ "loss": 2.535,
3121
+ "step": 40000
3122
+ },
3123
+ {
3124
+ "epoch": 0.29,
3125
+ "eval_loss": 2.534259796142578,
3126
+ "eval_runtime": 5327.044,
3127
+ "eval_samples_per_second": 1100.996,
3128
+ "eval_steps_per_second": 68.812,
3129
+ "step": 40000
3130
+ },
3131
+ {
3132
+ "epoch": 0.29,
3133
+ "grad_norm": 0.16131243109703064,
3134
+ "learning_rate": 9.986818915650265e-05,
3135
+ "loss": 2.5343,
3136
+ "step": 40100
3137
+ },
3138
+ {
3139
+ "epoch": 0.29,
3140
+ "grad_norm": 0.16442734003067017,
3141
+ "learning_rate": 9.986749641572963e-05,
3142
+ "loss": 2.5336,
3143
+ "step": 40200
3144
+ },
3145
+ {
3146
+ "epoch": 0.29,
3147
+ "grad_norm": 0.17911262810230255,
3148
+ "learning_rate": 9.986680186176684e-05,
3149
+ "loss": 2.534,
3150
+ "step": 40300
3151
+ },
3152
+ {
3153
+ "epoch": 0.29,
3154
+ "grad_norm": 0.19391265511512756,
3155
+ "learning_rate": 9.986610549463952e-05,
3156
+ "loss": 2.5344,
3157
+ "step": 40400
3158
+ },
3159
+ {
3160
+ "epoch": 0.29,
3161
+ "grad_norm": 0.21224987506866455,
3162
+ "learning_rate": 9.986540731437298e-05,
3163
+ "loss": 2.5362,
3164
+ "step": 40500
3165
+ },
3166
+ {
3167
+ "epoch": 0.3,
3168
+ "grad_norm": 0.21114754676818848,
3169
+ "learning_rate": 9.986470732099258e-05,
3170
+ "loss": 2.5344,
3171
+ "step": 40600
3172
+ },
3173
+ {
3174
+ "epoch": 0.3,
3175
+ "grad_norm": 0.17994599044322968,
3176
+ "learning_rate": 9.986400551452382e-05,
3177
+ "loss": 2.5338,
3178
+ "step": 40700
3179
+ },
3180
+ {
3181
+ "epoch": 0.3,
3182
+ "grad_norm": 0.20839715003967285,
3183
+ "learning_rate": 9.98633018949922e-05,
3184
+ "loss": 2.5327,
3185
+ "step": 40800
3186
+ },
3187
+ {
3188
+ "epoch": 0.3,
3189
+ "grad_norm": 0.1808551549911499,
3190
+ "learning_rate": 9.986259646242329e-05,
3191
+ "loss": 2.5323,
3192
+ "step": 40900
3193
+ },
3194
+ {
3195
+ "epoch": 0.3,
3196
+ "grad_norm": 0.20471493899822235,
3197
+ "learning_rate": 9.986188921684276e-05,
3198
+ "loss": 2.5318,
3199
+ "step": 41000
3200
+ },
3201
+ {
3202
+ "epoch": 0.3,
3203
+ "eval_loss": 2.5325772762298584,
3204
+ "eval_runtime": 5462.6174,
3205
+ "eval_samples_per_second": 1073.671,
3206
+ "eval_steps_per_second": 67.104,
3207
+ "step": 41000
3208
+ },
3209
+ {
3210
+ "epoch": 0.3,
3211
+ "grad_norm": 0.18955881893634796,
3212
+ "learning_rate": 9.986118015827632e-05,
3213
+ "loss": 2.5328,
3214
+ "step": 41100
3215
+ },
3216
+ {
3217
+ "epoch": 0.3,
3218
+ "grad_norm": 0.20864000916481018,
3219
+ "learning_rate": 9.986046928674974e-05,
3220
+ "loss": 2.5303,
3221
+ "step": 41200
3222
+ },
3223
+ {
3224
+ "epoch": 0.3,
3225
+ "grad_norm": 0.17366698384284973,
3226
+ "learning_rate": 9.985975660228888e-05,
3227
+ "loss": 2.5314,
3228
+ "step": 41300
3229
+ },
3230
+ {
3231
+ "epoch": 0.3,
3232
+ "grad_norm": 0.2348269373178482,
3233
+ "learning_rate": 9.985904210491963e-05,
3234
+ "loss": 2.5336,
3235
+ "step": 41400
3236
+ },
3237
+ {
3238
+ "epoch": 0.3,
3239
+ "grad_norm": 0.2203817069530487,
3240
+ "learning_rate": 9.985832579466801e-05,
3241
+ "loss": 2.5307,
3242
+ "step": 41500
3243
+ },
3244
+ {
3245
+ "epoch": 0.3,
3246
+ "grad_norm": 0.20355217158794403,
3247
+ "learning_rate": 9.985760767156003e-05,
3248
+ "loss": 2.5329,
3249
+ "step": 41600
3250
+ },
3251
+ {
3252
+ "epoch": 0.3,
3253
+ "grad_norm": 0.21894210577011108,
3254
+ "learning_rate": 9.985688773562183e-05,
3255
+ "loss": 2.5325,
3256
+ "step": 41700
3257
+ },
3258
+ {
3259
+ "epoch": 0.3,
3260
+ "grad_norm": 0.18119728565216064,
3261
+ "learning_rate": 9.985616598687954e-05,
3262
+ "loss": 2.5316,
3263
+ "step": 41800
3264
+ },
3265
+ {
3266
+ "epoch": 0.3,
3267
+ "grad_norm": 0.22831158339977264,
3268
+ "learning_rate": 9.985544242535946e-05,
3269
+ "loss": 2.5316,
3270
+ "step": 41900
3271
+ },
3272
+ {
3273
+ "epoch": 0.31,
3274
+ "grad_norm": 0.18714164197444916,
3275
+ "learning_rate": 9.985471705108787e-05,
3276
+ "loss": 2.5315,
3277
+ "step": 42000
3278
+ },
3279
+ {
3280
+ "epoch": 0.31,
3281
+ "eval_loss": 2.531712770462036,
3282
+ "eval_runtime": 5461.1677,
3283
+ "eval_samples_per_second": 1073.956,
3284
+ "eval_steps_per_second": 67.122,
3285
+ "step": 42000
3286
+ },
3287
+ {
3288
+ "epoch": 0.31,
3289
+ "grad_norm": 0.19056876003742218,
3290
+ "learning_rate": 9.985398986409115e-05,
3291
+ "loss": 2.5305,
3292
+ "step": 42100
3293
+ },
3294
+ {
3295
+ "epoch": 0.31,
3296
+ "grad_norm": 0.19371190667152405,
3297
+ "learning_rate": 9.985326086439573e-05,
3298
+ "loss": 2.5333,
3299
+ "step": 42200
3300
+ },
3301
+ {
3302
+ "epoch": 0.31,
3303
+ "grad_norm": 0.19493506848812103,
3304
+ "learning_rate": 9.985253005202813e-05,
3305
+ "loss": 2.5279,
3306
+ "step": 42300
3307
+ },
3308
+ {
3309
+ "epoch": 0.31,
3310
+ "grad_norm": 0.17453902959823608,
3311
+ "learning_rate": 9.985179742701491e-05,
3312
+ "loss": 2.5334,
3313
+ "step": 42400
3314
+ },
3315
+ {
3316
+ "epoch": 0.31,
3317
+ "grad_norm": 0.19747483730316162,
3318
+ "learning_rate": 9.985106298938272e-05,
3319
+ "loss": 2.5321,
3320
+ "step": 42500
3321
+ },
3322
+ {
3323
+ "epoch": 0.31,
3324
+ "grad_norm": 0.18142738938331604,
3325
+ "learning_rate": 9.985032673915826e-05,
3326
+ "loss": 2.5312,
3327
+ "step": 42600
3328
+ },
3329
+ {
3330
+ "epoch": 0.31,
3331
+ "grad_norm": 0.21015243232250214,
3332
+ "learning_rate": 9.984958867636828e-05,
3333
+ "loss": 2.5328,
3334
+ "step": 42700
3335
+ },
3336
+ {
3337
+ "epoch": 0.31,
3338
+ "grad_norm": 0.20541459321975708,
3339
+ "learning_rate": 9.984884880103966e-05,
3340
+ "loss": 2.5318,
3341
+ "step": 42800
3342
+ },
3343
+ {
3344
+ "epoch": 0.31,
3345
+ "grad_norm": 0.24034422636032104,
3346
+ "learning_rate": 9.984810711319927e-05,
3347
+ "loss": 2.5305,
3348
+ "step": 42900
3349
+ },
3350
+ {
3351
+ "epoch": 0.31,
3352
+ "grad_norm": 0.22423624992370605,
3353
+ "learning_rate": 9.98473636128741e-05,
3354
+ "loss": 2.5298,
3355
+ "step": 43000
3356
+ },
3357
+ {
3358
+ "epoch": 0.31,
3359
+ "eval_loss": 2.530484437942505,
3360
+ "eval_runtime": 5481.4821,
3361
+ "eval_samples_per_second": 1069.976,
3362
+ "eval_steps_per_second": 66.874,
3363
+ "step": 43000
3364
+ },
3365
+ {
3366
+ "epoch": 0.31,
3367
+ "grad_norm": 0.1877780258655548,
3368
+ "learning_rate": 9.984661830009115e-05,
3369
+ "loss": 2.5308,
3370
+ "step": 43100
3371
+ },
3372
+ {
3373
+ "epoch": 0.31,
3374
+ "grad_norm": 0.2150457501411438,
3375
+ "learning_rate": 9.984587117487755e-05,
3376
+ "loss": 2.5318,
3377
+ "step": 43200
3378
+ },
3379
+ {
3380
+ "epoch": 0.31,
3381
+ "grad_norm": 0.17595185339450836,
3382
+ "learning_rate": 9.984512223726045e-05,
3383
+ "loss": 2.5291,
3384
+ "step": 43300
3385
+ },
3386
+ {
3387
+ "epoch": 0.32,
3388
+ "grad_norm": 0.1872701346874237,
3389
+ "learning_rate": 9.984437148726708e-05,
3390
+ "loss": 2.5298,
3391
+ "step": 43400
3392
+ },
3393
+ {
3394
+ "epoch": 0.32,
3395
+ "grad_norm": 0.15969082713127136,
3396
+ "learning_rate": 9.984361892492475e-05,
3397
+ "loss": 2.5322,
3398
+ "step": 43500
3399
+ },
3400
+ {
3401
+ "epoch": 0.32,
3402
+ "grad_norm": 0.22320838272571564,
3403
+ "learning_rate": 9.984286455026082e-05,
3404
+ "loss": 2.5284,
3405
+ "step": 43600
3406
+ },
3407
+ {
3408
+ "epoch": 0.32,
3409
+ "grad_norm": 0.22105048596858978,
3410
+ "learning_rate": 9.984211593414306e-05,
3411
+ "loss": 2.529,
3412
+ "step": 43700
3413
+ },
3414
+ {
3415
+ "epoch": 0.32,
3416
+ "grad_norm": 0.18613219261169434,
3417
+ "learning_rate": 9.98413579530408e-05,
3418
+ "loss": 2.5306,
3419
+ "step": 43800
3420
+ },
3421
+ {
3422
+ "epoch": 0.32,
3423
+ "grad_norm": 0.21678748726844788,
3424
+ "learning_rate": 9.984059815969915e-05,
3425
+ "loss": 2.5296,
3426
+ "step": 43900
3427
+ },
3428
+ {
3429
+ "epoch": 0.32,
3430
+ "grad_norm": 0.19831928610801697,
3431
+ "learning_rate": 9.983983655414574e-05,
3432
+ "loss": 2.5296,
3433
+ "step": 44000
3434
+ },
3435
+ {
3436
+ "epoch": 0.32,
3437
+ "eval_loss": 2.5292155742645264,
3438
+ "eval_runtime": 5508.261,
3439
+ "eval_samples_per_second": 1064.774,
3440
+ "eval_steps_per_second": 66.548,
3441
+ "step": 44000
3442
+ },
3443
+ {
3444
+ "epoch": 0.32,
3445
+ "grad_norm": NaN,
3446
+ "learning_rate": 9.983908077955583e-05,
3447
+ "loss": 2.5294,
3448
+ "step": 44100
3449
+ },
3450
+ {
3451
+ "epoch": 0.32,
3452
+ "grad_norm": 0.18271589279174805,
3453
+ "learning_rate": 9.983831556778345e-05,
3454
+ "loss": 2.5312,
3455
+ "step": 44200
3456
+ },
3457
+ {
3458
+ "epoch": 0.32,
3459
+ "grad_norm": 0.24201270937919617,
3460
+ "learning_rate": 9.98375485438823e-05,
3461
+ "loss": 2.5303,
3462
+ "step": 44300
3463
+ },
3464
+ {
3465
+ "epoch": 0.32,
3466
+ "grad_norm": 0.18819460272789001,
3467
+ "learning_rate": 9.983677970788026e-05,
3468
+ "loss": 2.5285,
3469
+ "step": 44400
3470
+ },
3471
+ {
3472
+ "epoch": 0.32,
3473
+ "grad_norm": 0.16757667064666748,
3474
+ "learning_rate": 9.983600905980529e-05,
3475
+ "loss": 2.5289,
3476
+ "step": 44500
3477
+ },
3478
+ {
3479
+ "epoch": 0.32,
3480
+ "grad_norm": 0.16967040300369263,
3481
+ "learning_rate": 9.983523659968541e-05,
3482
+ "loss": 2.5306,
3483
+ "step": 44600
3484
+ },
3485
+ {
3486
+ "epoch": 0.33,
3487
+ "grad_norm": 0.19566090404987335,
3488
+ "learning_rate": 9.983446232754872e-05,
3489
+ "loss": 2.5276,
3490
+ "step": 44700
3491
+ },
3492
+ {
3493
+ "epoch": 0.33,
3494
+ "grad_norm": 0.19131731986999512,
3495
+ "learning_rate": 9.983368624342335e-05,
3496
+ "loss": 2.5304,
3497
+ "step": 44800
3498
+ },
3499
+ {
3500
+ "epoch": 0.33,
3501
+ "grad_norm": 0.1763111650943756,
3502
+ "learning_rate": 9.983290834733753e-05,
3503
+ "loss": 2.5281,
3504
+ "step": 44900
3505
+ },
3506
+ {
3507
+ "epoch": 0.33,
3508
+ "grad_norm": 0.18837742507457733,
3509
+ "learning_rate": 9.983212863931956e-05,
3510
+ "loss": 2.5301,
3511
+ "step": 45000
3512
+ },
3513
+ {
3514
+ "epoch": 0.33,
3515
+ "eval_loss": 2.5283169746398926,
3516
+ "eval_runtime": 5445.3147,
3517
+ "eval_samples_per_second": 1077.082,
3518
+ "eval_steps_per_second": 67.318,
3519
+ "step": 45000
3520
+ },
3521
+ {
3522
+ "epoch": 0.33,
3523
+ "grad_norm": 0.1776355654001236,
3524
+ "learning_rate": 9.983134711939777e-05,
3525
+ "loss": 2.5282,
3526
+ "step": 45100
3527
+ },
3528
+ {
3529
+ "epoch": 0.33,
3530
+ "grad_norm": 0.22749735414981842,
3531
+ "learning_rate": 9.983056378760059e-05,
3532
+ "loss": 2.5284,
3533
+ "step": 45200
3534
+ },
3535
+ {
3536
+ "epoch": 0.33,
3537
+ "grad_norm": 0.19231122732162476,
3538
+ "learning_rate": 9.982977864395649e-05,
3539
+ "loss": 2.5288,
3540
+ "step": 45300
3541
+ },
3542
+ {
3543
+ "epoch": 0.33,
3544
+ "grad_norm": 0.18644002079963684,
3545
+ "learning_rate": 9.9828991688494e-05,
3546
+ "loss": 2.5291,
3547
+ "step": 45400
3548
+ },
3549
+ {
3550
+ "epoch": 0.33,
3551
+ "grad_norm": 0.1956445276737213,
3552
+ "learning_rate": 9.982820292124177e-05,
3553
+ "loss": 2.5274,
3554
+ "step": 45500
3555
+ },
3556
+ {
3557
+ "epoch": 0.33,
3558
+ "grad_norm": 0.23224614560604095,
3559
+ "learning_rate": 9.982741234222848e-05,
3560
+ "loss": 2.5267,
3561
+ "step": 45600
3562
+ },
3563
+ {
3564
+ "epoch": 0.33,
3565
+ "grad_norm": 0.18513694405555725,
3566
+ "learning_rate": 9.982661995148284e-05,
3567
+ "loss": 2.5286,
3568
+ "step": 45700
3569
+ },
3570
+ {
3571
+ "epoch": 0.33,
3572
+ "grad_norm": 0.21743735671043396,
3573
+ "learning_rate": 9.982582574903369e-05,
3574
+ "loss": 2.5255,
3575
+ "step": 45800
3576
+ },
3577
+ {
3578
+ "epoch": 0.33,
3579
+ "grad_norm": 0.1804727017879486,
3580
+ "learning_rate": 9.982502973490989e-05,
3581
+ "loss": 2.5251,
3582
+ "step": 45900
3583
+ },
3584
+ {
3585
+ "epoch": 0.33,
3586
+ "grad_norm": 0.20864586532115936,
3587
+ "learning_rate": 9.982423190914041e-05,
3588
+ "loss": 2.5264,
3589
+ "step": 46000
3590
+ },
3591
+ {
3592
+ "epoch": 0.33,
3593
+ "eval_loss": 2.5271406173706055,
3594
+ "eval_runtime": 5458.9299,
3595
+ "eval_samples_per_second": 1074.396,
3596
+ "eval_steps_per_second": 67.15,
3597
+ "step": 46000
3598
+ },
3599
+ {
3600
+ "epoch": 0.34,
3601
+ "grad_norm": 0.2307577133178711,
3602
+ "learning_rate": 9.982343227175422e-05,
3603
+ "loss": 2.5278,
3604
+ "step": 46100
3605
+ },
3606
+ {
3607
+ "epoch": 0.34,
3608
+ "grad_norm": 0.20710083842277527,
3609
+ "learning_rate": 9.982263082278043e-05,
3610
+ "loss": 2.5277,
3611
+ "step": 46200
3612
+ },
3613
+ {
3614
+ "epoch": 0.34,
3615
+ "grad_norm": 0.1700790673494339,
3616
+ "learning_rate": 9.982182756224816e-05,
3617
+ "loss": 2.5279,
3618
+ "step": 46300
3619
+ },
3620
+ {
3621
+ "epoch": 0.34,
3622
+ "grad_norm": 0.2546616494655609,
3623
+ "learning_rate": 9.982102249018664e-05,
3624
+ "loss": 2.5257,
3625
+ "step": 46400
3626
+ },
3627
+ {
3628
+ "epoch": 0.34,
3629
+ "grad_norm": 0.2152370661497116,
3630
+ "learning_rate": 9.982021560662511e-05,
3631
+ "loss": 2.5245,
3632
+ "step": 46500
3633
+ },
3634
+ {
3635
+ "epoch": 0.34,
3636
+ "grad_norm": 0.177117258310318,
3637
+ "learning_rate": 9.981940691159294e-05,
3638
+ "loss": 2.5282,
3639
+ "step": 46600
3640
+ },
3641
+ {
3642
+ "epoch": 0.34,
3643
+ "grad_norm": 0.1751713901758194,
3644
+ "learning_rate": 9.98185964051195e-05,
3645
+ "loss": 2.5263,
3646
+ "step": 46700
3647
+ },
3648
+ {
3649
+ "epoch": 0.34,
3650
+ "grad_norm": 0.20219507813453674,
3651
+ "learning_rate": 9.981779221937954e-05,
3652
+ "loss": 2.5265,
3653
+ "step": 46800
3654
+ },
3655
+ {
3656
+ "epoch": 0.34,
3657
+ "grad_norm": 0.22525231540203094,
3658
+ "learning_rate": 9.981697810822577e-05,
3659
+ "loss": 2.5273,
3660
+ "step": 46900
3661
+ },
3662
+ {
3663
+ "epoch": 0.34,
3664
+ "grad_norm": 0.184763565659523,
3665
+ "learning_rate": 9.981616218571906e-05,
3666
+ "loss": 2.5277,
3667
+ "step": 47000
3668
+ },
3669
+ {
3670
+ "epoch": 0.34,
3671
+ "eval_loss": 2.526160955429077,
3672
+ "eval_runtime": 5512.6944,
3673
+ "eval_samples_per_second": 1063.918,
3674
+ "eval_steps_per_second": 66.495,
3675
+ "step": 47000
3676
+ },
3677
+ {
3678
+ "epoch": 0.34,
3679
+ "grad_norm": 0.21627645194530487,
3680
+ "learning_rate": 9.981534445188906e-05,
3681
+ "loss": 2.5277,
3682
+ "step": 47100
3683
+ },
3684
+ {
3685
+ "epoch": 0.34,
3686
+ "grad_norm": 0.19909755885601044,
3687
+ "learning_rate": 9.981452490676553e-05,
3688
+ "loss": 2.5279,
3689
+ "step": 47200
3690
+ },
3691
+ {
3692
+ "epoch": 0.34,
3693
+ "grad_norm": 0.17634861171245575,
3694
+ "learning_rate": 9.981370355037826e-05,
3695
+ "loss": 2.5262,
3696
+ "step": 47300
3697
+ },
3698
+ {
3699
+ "epoch": 0.34,
3700
+ "grad_norm": 0.19381621479988098,
3701
+ "learning_rate": 9.981288038275712e-05,
3702
+ "loss": 2.5266,
3703
+ "step": 47400
3704
+ },
3705
+ {
3706
+ "epoch": 0.35,
3707
+ "grad_norm": 0.20312373340129852,
3708
+ "learning_rate": 9.981205540393204e-05,
3709
+ "loss": 2.525,
3710
+ "step": 47500
3711
+ },
3712
+ {
3713
+ "epoch": 0.35,
3714
+ "grad_norm": 0.2033509761095047,
3715
+ "learning_rate": 9.9811228613933e-05,
3716
+ "loss": 2.5277,
3717
+ "step": 47600
3718
+ },
3719
+ {
3720
+ "epoch": 0.35,
3721
+ "grad_norm": 0.1845845878124237,
3722
+ "learning_rate": 9.981040001279007e-05,
3723
+ "loss": 2.5281,
3724
+ "step": 47700
3725
+ },
3726
+ {
3727
+ "epoch": 0.35,
3728
+ "grad_norm": 0.22188545763492584,
3729
+ "learning_rate": 9.98095696005334e-05,
3730
+ "loss": 2.5264,
3731
+ "step": 47800
3732
+ },
3733
+ {
3734
+ "epoch": 0.35,
3735
+ "grad_norm": 0.18713383376598358,
3736
+ "learning_rate": 9.980873737719315e-05,
3737
+ "loss": 2.5265,
3738
+ "step": 47900
3739
+ },
3740
+ {
3741
+ "epoch": 0.35,
3742
+ "grad_norm": 0.1767318844795227,
3743
+ "learning_rate": 9.980790334279959e-05,
3744
+ "loss": 2.5271,
3745
+ "step": 48000
3746
+ },
3747
+ {
3748
+ "epoch": 0.35,
3749
+ "eval_loss": 2.525097131729126,
3750
+ "eval_runtime": 5444.1367,
3751
+ "eval_samples_per_second": 1077.316,
3752
+ "eval_steps_per_second": 67.332,
3753
+ "step": 48000
3754
+ },
3755
+ {
3756
+ "epoch": 0.35,
3757
+ "grad_norm": 0.21088416874408722,
3758
+ "learning_rate": 9.980706749738306e-05,
3759
+ "loss": 2.5274,
3760
+ "step": 48100
3761
+ },
3762
+ {
3763
+ "epoch": 0.35,
3764
+ "grad_norm": 0.19877323508262634,
3765
+ "learning_rate": 9.980622984097396e-05,
3766
+ "loss": 2.5265,
3767
+ "step": 48200
3768
+ },
3769
+ {
3770
+ "epoch": 0.35,
3771
+ "grad_norm": 0.19006992876529694,
3772
+ "learning_rate": 9.98053903736027e-05,
3773
+ "loss": 2.5249,
3774
+ "step": 48300
3775
+ },
3776
+ {
3777
+ "epoch": 0.35,
3778
+ "grad_norm": 0.21013252437114716,
3779
+ "learning_rate": 9.980454909529985e-05,
3780
+ "loss": 2.5258,
3781
+ "step": 48400
3782
+ },
3783
+ {
3784
+ "epoch": 0.35,
3785
+ "grad_norm": 0.20572130382061005,
3786
+ "learning_rate": 9.980370600609597e-05,
3787
+ "loss": 2.525,
3788
+ "step": 48500
3789
+ },
3790
+ {
3791
+ "epoch": 0.35,
3792
+ "grad_norm": 0.1854819506406784,
3793
+ "learning_rate": 9.980286110602174e-05,
3794
+ "loss": 2.5267,
3795
+ "step": 48600
3796
+ },
3797
+ {
3798
+ "epoch": 0.35,
3799
+ "grad_norm": 0.18405982851982117,
3800
+ "learning_rate": 9.980201439510786e-05,
3801
+ "loss": 2.5266,
3802
+ "step": 48700
3803
+ },
3804
+ {
3805
+ "epoch": 0.36,
3806
+ "grad_norm": 0.1952805072069168,
3807
+ "learning_rate": 9.980116587338512e-05,
3808
+ "loss": 2.5257,
3809
+ "step": 48800
3810
+ },
3811
+ {
3812
+ "epoch": 0.36,
3813
+ "grad_norm": 0.19929055869579315,
3814
+ "learning_rate": 9.980031554088438e-05,
3815
+ "loss": 2.5236,
3816
+ "step": 48900
3817
+ },
3818
+ {
3819
+ "epoch": 0.36,
3820
+ "grad_norm": 0.19686761498451233,
3821
+ "learning_rate": 9.979946339763656e-05,
3822
+ "loss": 2.5265,
3823
+ "step": 49000
3824
+ },
3825
+ {
3826
+ "epoch": 0.36,
3827
+ "eval_loss": 2.5248045921325684,
3828
+ "eval_runtime": 5428.5128,
3829
+ "eval_samples_per_second": 1080.416,
3830
+ "eval_steps_per_second": 67.526,
3831
+ "step": 49000
3832
+ },
3833
+ {
3834
+ "epoch": 0.36,
3835
+ "grad_norm": 0.19359131157398224,
3836
+ "learning_rate": 9.979860944367263e-05,
3837
+ "loss": 2.525,
3838
+ "step": 49100
3839
+ },
3840
+ {
3841
+ "epoch": 0.36,
3842
+ "grad_norm": 0.1961933672428131,
3843
+ "learning_rate": 9.979776224563294e-05,
3844
+ "loss": 2.5269,
3845
+ "step": 49200
3846
+ },
3847
+ {
3848
+ "epoch": 0.36,
3849
+ "grad_norm": 0.21087850630283356,
3850
+ "learning_rate": 9.97969046884364e-05,
3851
+ "loss": 2.5256,
3852
+ "step": 49300
3853
+ },
3854
+ {
3855
+ "epoch": 0.36,
3856
+ "grad_norm": 0.23223061859607697,
3857
+ "learning_rate": 9.979604532061681e-05,
3858
+ "loss": 2.5252,
3859
+ "step": 49400
3860
+ },
3861
+ {
3862
+ "epoch": 0.36,
3863
+ "grad_norm": 0.19952614605426788,
3864
+ "learning_rate": 9.97951841422054e-05,
3865
+ "loss": 2.524,
3866
+ "step": 49500
3867
+ },
3868
+ {
3869
+ "epoch": 0.36,
3870
+ "grad_norm": 0.20062975585460663,
3871
+ "learning_rate": 9.979432115323348e-05,
3872
+ "loss": 2.5219,
3873
+ "step": 49600
3874
+ },
3875
+ {
3876
+ "epoch": 0.36,
3877
+ "grad_norm": 0.20036938786506653,
3878
+ "learning_rate": 9.979345635373243e-05,
3879
+ "loss": 2.5237,
3880
+ "step": 49700
3881
+ },
3882
+ {
3883
+ "epoch": 0.36,
3884
+ "grad_norm": 0.1781741976737976,
3885
+ "learning_rate": 9.97925897437337e-05,
3886
+ "loss": 2.5226,
3887
+ "step": 49800
3888
+ },
3889
+ {
3890
+ "epoch": 0.36,
3891
+ "grad_norm": 0.2209465205669403,
3892
+ "learning_rate": 9.97917213232688e-05,
3893
+ "loss": 2.5246,
3894
+ "step": 49900
3895
+ },
3896
+ {
3897
+ "epoch": 0.36,
3898
+ "grad_norm": 0.20452982187271118,
3899
+ "learning_rate": 9.979085109236929e-05,
3900
+ "loss": 2.526,
3901
+ "step": 50000
3902
+ },
3903
+ {
3904
+ "epoch": 0.36,
3905
+ "eval_loss": 2.5235376358032227,
3906
+ "eval_runtime": 5481.7843,
3907
+ "eval_samples_per_second": 1069.917,
3908
+ "eval_steps_per_second": 66.87,
3909
+ "step": 50000
3910
+ }
3911
+ ],
3912
+ "logging_steps": 100,
3913
+ "max_steps": 412386,
3914
+ "num_input_tokens_seen": 0,
3915
+ "num_train_epochs": 3,
3916
+ "save_steps": 5000,
3917
+ "total_flos": 2.399847579648e+17,
3918
+ "train_batch_size": 96,
3919
+ "trial_name": null,
3920
+ "trial_params": null
3921
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:786f7ba7c87c545a0ad49d253fe302a16355933a913e9933ea0c8f8c92fea23c
3
+ size 4920