Delta-Vector commited on 13 days ago

Commit

f3de505

verified ·

1 Parent(s): e588d80

Training in progress, step 95, checkpoint

Browse files

Files changed (25) hide show

checkpoint-95/global_step95/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
checkpoint-95/global_step95/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/global_step95/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/global_step95/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/global_step95/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/global_step95/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/global_step95/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/global_step95/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +1 -1
checkpoint-95/model-00001-of-00014.safetensors +1 -1
checkpoint-95/model-00002-of-00014.safetensors +1 -1
checkpoint-95/model-00003-of-00014.safetensors +1 -1
checkpoint-95/model-00004-of-00014.safetensors +1 -1
checkpoint-95/model-00005-of-00014.safetensors +1 -1
checkpoint-95/model-00006-of-00014.safetensors +1 -1
checkpoint-95/model-00007-of-00014.safetensors +1 -1
checkpoint-95/model-00008-of-00014.safetensors +1 -1
checkpoint-95/model-00009-of-00014.safetensors +1 -1
checkpoint-95/model-00010-of-00014.safetensors +1 -1
checkpoint-95/model-00011-of-00014.safetensors +1 -1
checkpoint-95/model-00012-of-00014.safetensors +1 -1
checkpoint-95/model-00013-of-00014.safetensors +1 -1
checkpoint-95/model-00014-of-00014.safetensors +1 -1
checkpoint-95/scheduler.pt +1 -1
checkpoint-95/trainer_state.json +283 -283
checkpoint-95/training_args.bin +1 -1

checkpoint-95/global_step95/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6aea7730a8aff4b6b047b5f5da7d6e92d171f8a7704acbff807de4e7a48c088b
+size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:135d0497c207add1f36471bea35fff5000ba50745c92a575886123c2e0b68e74
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:a92d04a4e4406bda00a5fa7020911d719d56352c107274511d3ce06bf6394775
 size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50bc395471c82b6295c5ddb4b9f43197747bfa064550d76a24b98f98694df9b0
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd1785f7460d40c8691ae13c252dbde3e052b95b799fa03403970c9a4516c546
 size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17e69775bae6cb0a560ae20f16a69cd6ef8fcd7fa8c157aa214ebe3b6fb1f5bd
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:025dddccd8e71b2e557c577d277d6cdffa55508280ff20c3e78add6006f6f1d1
 size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2a042638c3c0d364b5461db5bd7ad3d8dbbc27bec8c5fd3ac1b815caba02fe3
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:73b092191ba7f4bbfeef47cb91fcb39abc0cbd2f9de7c78034cf7607a79f4e87
 size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ae291ae038fec856d4ebbd265cb9b87db7725cdc5f336c723aeaf8ef551912e
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6ac37f7a7a938b100ca4a78a1c75f560ad3288e1b3003b4a3b13af592a7e3d1
 size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:157b631b579caf80f5cb4143694798dd10818d353835c9745fd523e65578ce81
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3b786e6e58598e2a74baaf245cf17953e2226a744d5579f59bd2f97ad136013
 size 24702833511

checkpoint-95/global_step95/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4695a5fb838935a2806f787a3e8470104b47cbc5573cb88c7d77a332c57e46cf
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ef871300ea108f7bbc6a9c90a08ca39c3d0260b3a812819c3c6526d63c1d5cc
 size 24702833511

checkpoint-95/model-00001-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34ba4337f0c6c65d807d3be8c2c276f1ddab5334ae41746dbb4b8d91115914b2
 size 4891730992

 version https://git-lfs.github.com/spec/v1
+oid sha256:b59b78ab9bb06e6b8c2ed4cf69fa87a8ca10391fef4b38adeb5165a083a63504
 size 4891730992

checkpoint-95/model-00002-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:426332f314858aa0f46eb94863118745cc35707fedb26287ed50fd4c41afe724
 size 4876059352

 version https://git-lfs.github.com/spec/v1
+oid sha256:6659988665885e4f868e31ed175f350f1fab7d301d16c18f91a93b75739fb8c1
 size 4876059352

checkpoint-95/model-00003-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63c844d8ad06cc198ed5c742c042f3a165abb5e41ebc428ec2260f4d91094d76
 size 4876059384

 version https://git-lfs.github.com/spec/v1
+oid sha256:336c9a2a9acb4c0441ba41cc7b36a1fab7ce2c85b7841eb9443e06394d39a9e5
 size 4876059384

checkpoint-95/model-00004-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:012066a115bf9e4d2a7185ddd2853ec0860bfba746ba3d94ca51b55038611610
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:62c838f681f47e1a3343424b19f07db1f6fe31798b98cadded863b4c45b289aa
 size 4876059416

checkpoint-95/model-00005-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9cc4109b07b718c1e4b42e3f58958be3f8f5163ca1baac79821a6ef2a942a2e
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b71fd2c70d620236a0cf3cc712fe380edfac3c212d478d87b4b73a64c18ef1a1
 size 4876059416

checkpoint-95/model-00006-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49c43572b04c70397ed3a6069323d442eeed1e728522bbeb7f38c1cffc22d756
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d3d5a728b9e5add582fd21331012f9c9a65177bb875d74045190c6e1c6959a7
 size 4876059416

checkpoint-95/model-00007-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfc32a6a516048945773181ce8a365dd4617d8dca622dfad56a2759cb9481ae2
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a9aa742d3a6b8cf76b6b60d8a6597b5af6635835034e21a5f77f1218af8f1eb
 size 4876059416

checkpoint-95/model-00008-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb802a607e065d561c8c6d90c2e379b3bf57b15a2b57d66e33ffc948b862b4d4
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:470fd86cea4f6d87d4b03b85067c0c7680d81d1379995c2ad6bb8ff1fed91acd
 size 4876059416

checkpoint-95/model-00009-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1608b21abee903fe4c78e98f26227c6578a9d59d8159ed7fbb09de279a63cd38
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:a77bcd179a159e47aa37da34df41faa0cbd22ad91ee2e7e898409fa3cf6483f8
 size 4876059416

checkpoint-95/model-00010-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb239e8c9ed2c16a7503e704db2bb16844d151e8349e717e49941791d08b1299
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:c83f2622b99a712bab1c27b04ddcdfa39de48eeba7210acd1057f23b6a3c7d64
 size 4876059416

checkpoint-95/model-00011-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac8d18251e7988c1a5b43914218f4e0fb60e4abac1e38095c462d78e1bd0ed3
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ccdec93a48a0028de67e517bf47285fa9b4de1caa36e254faf36dc46cae73d6
 size 4876059416

checkpoint-95/model-00012-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d41de3b5a57810496f410243d9c29b81efb0c63633ed4ed10f9510c0bb09db1e
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:69776e809d20dc3a8e4b12520145e3b0fee792177e905a90159a59c2e609156b
 size 4876059416

checkpoint-95/model-00013-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ba5a641f5cfeb99fbcff96e84bfd4c0017edaadb9d0092cf780d90d9d5c685a
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:795b311e5d100a6ee12571412656cadce82b936d0f7188609f9c5396a7229514
 size 4876059416

checkpoint-95/model-00014-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c3aa08d5e70149c46d8e7bd223a8aed3ef99cc01abd164bceb060f96b986ca4
 size 2123397800

 version https://git-lfs.github.com/spec/v1
+oid sha256:66269b7488a5708353163cfbb88dc3f525d065b12137c7b9b9860aa1acdb8e94
 size 2123397800

checkpoint-95/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b456952e7d2b7b867ccbbdb88af065c23c8a966d4cede0443109b961e31b140b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8dcecbaf52006f95fb1d52efcb23120b8add71e8ceafba799bfe215035fbc32
 size 1064

checkpoint-95/trainer_state.json CHANGED Viewed

@@ -10,667 +10,667 @@
   "log_history": [
     {
       "epoch": 0.005249343832020997,
-      "grad_norm": 1.134754623075341,
-      "learning_rate": 1.0000000000000002e-06,
       "loss": 1.1087,
       "step": 1
     },
     {
       "epoch": 0.010498687664041995,
-      "grad_norm": 1.1234145683168772,
-      "learning_rate": 2.0000000000000003e-06,
       "loss": 1.1356,
       "step": 2
     },
     {
       "epoch": 0.015748031496062992,
-      "grad_norm": 1.0799860590372758,
-      "learning_rate": 3e-06,
-      "loss": 1.1152,
       "step": 3
     },
     {
       "epoch": 0.02099737532808399,
-      "grad_norm": 0.9984297481710986,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 1.0953,
       "step": 4
     },
     {
       "epoch": 0.026246719160104987,
-      "grad_norm": 0.8302026280344834,
-      "learning_rate": 5e-06,
-      "loss": 1.0617,
       "step": 5
     },
     {
       "epoch": 0.031496062992125984,
-      "grad_norm": 0.8911823807745126,
-      "learning_rate": 6e-06,
-      "loss": 1.1297,
       "step": 6
     },
     {
       "epoch": 0.03674540682414698,
-      "grad_norm": 0.686211615667355,
-      "learning_rate": 7e-06,
-      "loss": 1.0705,
       "step": 7
     },
     {
       "epoch": 0.04199475065616798,
-      "grad_norm": 0.9091855799181295,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 1.065,
       "step": 8
     },
     {
       "epoch": 0.047244094488188976,
-      "grad_norm": 0.8934722980371054,
-      "learning_rate": 9e-06,
-      "loss": 1.0767,
       "step": 9
     },
     {
       "epoch": 0.05249343832020997,
-      "grad_norm": 0.8688110393935611,
-      "learning_rate": 1e-05,
-      "loss": 1.0303,
       "step": 10
     },
     {
       "epoch": 0.05774278215223097,
-      "grad_norm": 0.9920393807379069,
-      "learning_rate": 1.1000000000000001e-05,
-      "loss": 1.0855,
       "step": 11
     },
     {
       "epoch": 0.06299212598425197,
-      "grad_norm": 0.9220245541797021,
-      "learning_rate": 1.2e-05,
-      "loss": 1.0531,
       "step": 12
     },
     {
       "epoch": 0.06824146981627296,
-      "grad_norm": 0.736886642754733,
-      "learning_rate": 1.3000000000000001e-05,
-      "loss": 1.0456,
       "step": 13
     },
     {
       "epoch": 0.07349081364829396,
-      "grad_norm": 0.771339891024354,
-      "learning_rate": 1.4e-05,
-      "loss": 1.0671,
       "step": 14
     },
     {
       "epoch": 0.07874015748031496,
-      "grad_norm": 0.7161080553611359,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 1.0521,
       "step": 15
     },
     {
       "epoch": 0.08398950131233596,
-      "grad_norm": 0.6788342613059561,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.0674,
       "step": 16
     },
     {
       "epoch": 0.08923884514435695,
-      "grad_norm": 0.7102848455414168,
-      "learning_rate": 1.7e-05,
-      "loss": 1.0459,
       "step": 17
     },
     {
       "epoch": 0.09448818897637795,
-      "grad_norm": 0.6425246555654909,
-      "learning_rate": 1.8e-05,
-      "loss": 1.0093,
       "step": 18
     },
     {
       "epoch": 0.09973753280839895,
-      "grad_norm": 2.099748819540086,
-      "learning_rate": 1.9e-05,
-      "loss": 1.0301,
       "step": 19
     },
     {
       "epoch": 0.10498687664041995,
-      "grad_norm": 0.6691987921672391,
-      "learning_rate": 2e-05,
-      "loss": 1.0199,
       "step": 20
     },
     {
       "epoch": 0.11023622047244094,
-      "grad_norm": 0.5883655485426926,
-      "learning_rate": 2.1000000000000002e-05,
-      "loss": 1.0085,
       "step": 21
     },
     {
       "epoch": 0.11548556430446194,
-      "grad_norm": 0.5443706631485103,
-      "learning_rate": 2.2000000000000003e-05,
-      "loss": 1.0432,
       "step": 22
     },
     {
       "epoch": 0.12073490813648294,
-      "grad_norm": 0.593023936793411,
-      "learning_rate": 2.3e-05,
-      "loss": 1.0196,
       "step": 23
     },
     {
       "epoch": 0.12598425196850394,
-      "grad_norm": 0.5618656915734137,
-      "learning_rate": 2.4e-05,
-      "loss": 1.0386,
       "step": 24
     },
     {
       "epoch": 0.13123359580052493,
-      "grad_norm": 0.46871710098096486,
-      "learning_rate": 2.5e-05,
-      "loss": 0.9611,
       "step": 25
     },
     {
       "epoch": 0.13648293963254593,
-      "grad_norm": 0.5700902276763852,
-      "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.0045,
       "step": 26
     },
     {
       "epoch": 0.14173228346456693,
-      "grad_norm": 0.603692765386866,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 1.019,
       "step": 27
     },
     {
       "epoch": 0.14698162729658792,
-      "grad_norm": 0.48456720859923497,
-      "learning_rate": 2.8e-05,
-      "loss": 0.9892,
       "step": 28
     },
     {
       "epoch": 0.15223097112860892,
-      "grad_norm": 0.45729475661677665,
-      "learning_rate": 2.9e-05,
-      "loss": 0.9645,
       "step": 29
     },
     {
       "epoch": 0.15748031496062992,
-      "grad_norm": 0.5439846777665153,
-      "learning_rate": 3.0000000000000004e-05,
-      "loss": 0.9497,
       "step": 30
     },
     {
       "epoch": 0.16272965879265092,
-      "grad_norm": 0.4965459941185334,
-      "learning_rate": 3.1e-05,
-      "loss": 0.9882,
       "step": 31
     },
     {
       "epoch": 0.1679790026246719,
-      "grad_norm": 0.4656328962534996,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.0057,
       "step": 32
     },
     {
       "epoch": 0.1732283464566929,
-      "grad_norm": 0.5241601609773927,
-      "learning_rate": 3.3e-05,
-      "loss": 1.0033,
       "step": 33
     },
     {
       "epoch": 0.1784776902887139,
-      "grad_norm": 0.5062226992393802,
-      "learning_rate": 3.4e-05,
-      "loss": 1.0166,
       "step": 34
     },
     {
       "epoch": 0.1837270341207349,
-      "grad_norm": 0.43771829747985674,
-      "learning_rate": 3.5000000000000004e-05,
-      "loss": 1.0102,
       "step": 35
     },
     {
       "epoch": 0.1889763779527559,
-      "grad_norm": 0.48092156639697076,
-      "learning_rate": 3.6e-05,
-      "loss": 1.018,
       "step": 36
     },
     {
       "epoch": 0.1942257217847769,
-      "grad_norm": 0.48115559949514536,
-      "learning_rate": 3.7000000000000005e-05,
-      "loss": 1.0079,
       "step": 37
     },
     {
       "epoch": 0.1994750656167979,
-      "grad_norm": 0.4777546937622387,
-      "learning_rate": 3.8e-05,
-      "loss": 1.0085,
       "step": 38
     },
     {
       "epoch": 0.2047244094488189,
-      "grad_norm": 0.44755392669080185,
-      "learning_rate": 3.9e-05,
-      "loss": 0.9825,
       "step": 39
     },
     {
       "epoch": 0.2099737532808399,
-      "grad_norm": 0.44510881962201315,
-      "learning_rate": 4e-05,
-      "loss": 0.9848,
       "step": 40
     },
     {
       "epoch": 0.2152230971128609,
-      "grad_norm": 0.4746290969046573,
-      "learning_rate": 3.999914623406736e-05,
-      "loss": 0.9888,
       "step": 41
     },
     {
       "epoch": 0.2204724409448819,
-      "grad_norm": 0.5953130701884418,
-      "learning_rate": 3.9996585009161056e-05,
-      "loss": 0.9882,
       "step": 42
     },
     {
       "epoch": 0.22572178477690288,
-      "grad_norm": 0.4251472611705547,
-      "learning_rate": 3.999231654394975e-05,
-      "loss": 0.9958,
       "step": 43
     },
     {
       "epoch": 0.23097112860892388,
-      "grad_norm": 0.44690799367073597,
-      "learning_rate": 3.9986341202860467e-05,
-      "loss": 0.9543,
       "step": 44
     },
     {
       "epoch": 0.23622047244094488,
-      "grad_norm": 0.5976579403936895,
-      "learning_rate": 3.9978659496047456e-05,
-      "loss": 0.9762,
       "step": 45
     },
     {
       "epoch": 0.24146981627296588,
-      "grad_norm": 0.3962092871428472,
-      "learning_rate": 3.9969272079348685e-05,
-      "loss": 0.9605,
       "step": 46
     },
     {
       "epoch": 0.24671916010498687,
-      "grad_norm": 0.43362883575028716,
-      "learning_rate": 3.995817975422981e-05,
-      "loss": 0.9456,
       "step": 47
     },
     {
       "epoch": 0.25196850393700787,
-      "grad_norm": 0.4139776793240363,
-      "learning_rate": 3.994538346771576e-05,
-      "loss": 0.9165,
       "step": 48
     },
     {
       "epoch": 0.2572178477690289,
-      "grad_norm": 0.3940723609427906,
-      "learning_rate": 3.9930884312309894e-05,
-      "loss": 0.9071,
       "step": 49
     },
     {
       "epoch": 0.26246719160104987,
-      "grad_norm": 0.4016006422322008,
-      "learning_rate": 3.991468352590069e-05,
-      "loss": 0.9668,
       "step": 50
     },
     {
       "epoch": 0.2677165354330709,
-      "grad_norm": 0.9528446542157881,
-      "learning_rate": 3.989678249165612e-05,
-      "loss": 1.0431,
       "step": 51
     },
     {
       "epoch": 0.27296587926509186,
-      "grad_norm": 0.41600529189619084,
-      "learning_rate": 3.987718273790548e-05,
-      "loss": 0.9464,
       "step": 52
     },
     {
       "epoch": 0.2782152230971129,
-      "grad_norm": 1.1382476752327089,
-      "learning_rate": 3.9855885938008986e-05,
-      "loss": 1.0186,
       "step": 53
     },
     {
       "epoch": 0.28346456692913385,
-      "grad_norm": 0.44849148754190465,
-      "learning_rate": 3.983289391021486e-05,
-      "loss": 0.9981,
       "step": 54
     },
     {
       "epoch": 0.2887139107611549,
-      "grad_norm": 0.4296819710357216,
-      "learning_rate": 3.9808208617504106e-05,
-      "loss": 0.9124,
       "step": 55
     },
     {
       "epoch": 0.29396325459317585,
-      "grad_norm": 1.4708100276334197,
-      "learning_rate": 3.9781832167422926e-05,
-      "loss": 1.0627,
       "step": 56
     },
     {
       "epoch": 0.2992125984251969,
-      "grad_norm": 0.436502847615945,
-      "learning_rate": 3.9753766811902756e-05,
-      "loss": 0.9399,
       "step": 57
     },
     {
       "epoch": 0.30446194225721784,
-      "grad_norm": 0.41131082586189677,
-      "learning_rate": 3.972401494706805e-05,
-      "loss": 0.9381,
       "step": 58
     },
     {
       "epoch": 0.30971128608923887,
-      "grad_norm": 0.42792569998778285,
-      "learning_rate": 3.969257911303167e-05,
-      "loss": 0.9426,
       "step": 59
     },
     {
       "epoch": 0.31496062992125984,
-      "grad_norm": 1.0484985550985957,
-      "learning_rate": 3.965946199367804e-05,
-      "loss": 1.0745,
       "step": 60
     },
     {
       "epoch": 0.32020997375328086,
-      "grad_norm": 0.45563925287513607,
-      "learning_rate": 3.962466641643398e-05,
-      "loss": 1.0085,
       "step": 61
     },
     {
       "epoch": 0.32545931758530183,
-      "grad_norm": 0.4216131864169055,
-      "learning_rate": 3.958819535202732e-05,
-      "loss": 0.9533,
       "step": 62
     },
     {
       "epoch": 0.33070866141732286,
-      "grad_norm": 0.47284588975540814,
-      "learning_rate": 3.9550051914233314e-05,
-      "loss": 0.9727,
       "step": 63
     },
     {
       "epoch": 0.3359580052493438,
-      "grad_norm": 0.4112493584955737,
-      "learning_rate": 3.951023935960874e-05,
-      "loss": 0.9408,
       "step": 64
     },
     {
       "epoch": 0.34120734908136485,
-      "grad_norm": 0.44123500755805545,
-      "learning_rate": 3.9468761087213864e-05,
-      "loss": 0.9547,
       "step": 65
     },
     {
       "epoch": 0.3464566929133858,
-      "grad_norm": 0.4160767709488051,
-      "learning_rate": 3.942562063832228e-05,
-      "loss": 0.9862,
       "step": 66
     },
     {
       "epoch": 0.35170603674540685,
-      "grad_norm": 0.40282812591350464,
-      "learning_rate": 3.9380821696118556e-05,
-      "loss": 0.9301,
       "step": 67
     },
     {
       "epoch": 0.3569553805774278,
-      "grad_norm": 0.42252313457664165,
-      "learning_rate": 3.933436808538375e-05,
-      "loss": 0.9751,
       "step": 68
     },
     {
       "epoch": 0.36220472440944884,
-      "grad_norm": 0.4084367556454159,
-      "learning_rate": 3.92862637721689e-05,
-      "loss": 0.9838,
       "step": 69
     },
     {
       "epoch": 0.3674540682414698,
-      "grad_norm": 0.39446053200993564,
-      "learning_rate": 3.923651286345638e-05,
-      "loss": 0.9237,
       "step": 70
     },
     {
       "epoch": 0.37270341207349084,
-      "grad_norm": 0.43051114259650114,
-      "learning_rate": 3.9185119606809305e-05,
-      "loss": 0.9543,
       "step": 71
     },
     {
       "epoch": 0.3779527559055118,
-      "grad_norm": 0.41527447901851827,
-      "learning_rate": 3.913208839000882e-05,
-      "loss": 0.9688,
       "step": 72
     },
     {
       "epoch": 0.38320209973753283,
-      "grad_norm": 0.4033220715509175,
-      "learning_rate": 3.907742374067956e-05,
-      "loss": 0.9401,
       "step": 73
     },
     {
       "epoch": 0.3884514435695538,
-      "grad_norm": 0.4039636146150166,
-      "learning_rate": 3.9021130325903076e-05,
-      "loss": 0.9621,
       "step": 74
     },
     {
       "epoch": 0.3937007874015748,
-      "grad_norm": 0.3896809489063709,
-      "learning_rate": 3.896321295181932e-05,
-      "loss": 0.986,
       "step": 75
     },
     {
       "epoch": 0.3989501312335958,
-      "grad_norm": 0.7547382513819603,
-      "learning_rate": 3.89036765632164e-05,
-      "loss": 1.0528,
       "step": 76
     },
     {
       "epoch": 0.4041994750656168,
-      "grad_norm": 0.42422582617937166,
-      "learning_rate": 3.8842526243108326e-05,
-      "loss": 0.9541,
       "step": 77
     },
     {
       "epoch": 0.4094488188976378,
-      "grad_norm": 0.41581388939730257,
-      "learning_rate": 3.877976721230114e-05,
-      "loss": 0.9711,
       "step": 78
     },
     {
       "epoch": 0.4146981627296588,
-      "grad_norm": 0.4326138308224312,
-      "learning_rate": 3.8715404828947055e-05,
-      "loss": 0.9261,
       "step": 79
     },
     {
       "epoch": 0.4199475065616798,
-      "grad_norm": 0.38852695749391314,
-      "learning_rate": 3.864944458808712e-05,
-      "loss": 0.9648,
       "step": 80
     },
     {
       "epoch": 0.4251968503937008,
-      "grad_norm": 0.3897195092049238,
-      "learning_rate": 3.8581892121181984e-05,
-      "loss": 0.9397,
       "step": 81
     },
     {
       "epoch": 0.4304461942257218,
-      "grad_norm": 0.43934794613481915,
-      "learning_rate": 3.851275319563113e-05,
-      "loss": 0.9905,
       "step": 82
     },
     {
       "epoch": 0.4356955380577428,
-      "grad_norm": 0.5323662587576004,
-      "learning_rate": 3.844203371428049e-05,
-      "loss": 0.9896,
       "step": 83
     },
     {
       "epoch": 0.4409448818897638,
-      "grad_norm": 0.38441956539336747,
-      "learning_rate": 3.836973971491847e-05,
-      "loss": 0.9385,
       "step": 84
     },
     {
       "epoch": 0.4461942257217848,
-      "grad_norm": 0.38662975914153885,
-      "learning_rate": 3.8295877369760426e-05,
-      "loss": 0.9586,
       "step": 85
     },
     {
       "epoch": 0.45144356955380577,
-      "grad_norm": 0.41009140101075614,
-      "learning_rate": 3.822045298492177e-05,
-      "loss": 0.9667,
       "step": 86
     },
     {
       "epoch": 0.4566929133858268,
-      "grad_norm": 0.4258642992742759,
-      "learning_rate": 3.814347299987953e-05,
-      "loss": 0.954,
       "step": 87
     },
     {
       "epoch": 0.46194225721784776,
-      "grad_norm": 0.40527142541860056,
-      "learning_rate": 3.806494398692258e-05,
-      "loss": 0.9351,
       "step": 88
     },
     {
       "epoch": 0.4671916010498688,
-      "grad_norm": 0.3743850574341336,
-      "learning_rate": 3.7984872650590516e-05,
-      "loss": 0.9498,
       "step": 89
     },
     {
       "epoch": 0.47244094488188976,
-      "grad_norm": 0.4151867667600151,
-      "learning_rate": 3.790326582710125e-05,
-      "loss": 0.9466,
       "step": 90
     },
     {
       "epoch": 0.4776902887139108,
-      "grad_norm": 0.4448011376311795,
-      "learning_rate": 3.782013048376736e-05,
-      "loss": 1.0266,
       "step": 91
     },
     {
       "epoch": 0.48293963254593175,
-      "grad_norm": 0.38192124855359877,
-      "learning_rate": 3.773547371840124e-05,
-      "loss": 0.978,
       "step": 92
     },
     {
       "epoch": 0.4881889763779528,
-      "grad_norm": 0.4235778210861527,
-      "learning_rate": 3.764930275870912e-05,
-      "loss": 0.9827,
       "step": 93
     },
     {
       "epoch": 0.49343832020997375,
-      "grad_norm": 0.4051195260626496,
-      "learning_rate": 3.756162496167396e-05,
-      "loss": 0.963,
       "step": 94
     },
     {
       "epoch": 0.49868766404199477,
-      "grad_norm": 0.40700055373961197,
-      "learning_rate": 3.7472447812927395e-05,
-      "loss": 0.9437,
       "step": 95
     }
   ],

   "log_history": [
     {
       "epoch": 0.005249343832020997,
+      "grad_norm": 1.1348930782232016,
+      "learning_rate": 1.5000000000000002e-07,
       "loss": 1.1087,
       "step": 1
     },
     {
       "epoch": 0.010498687664041995,
+      "grad_norm": 1.123696373079589,
+      "learning_rate": 3.0000000000000004e-07,
       "loss": 1.1356,
       "step": 2
     },
     {
       "epoch": 0.015748031496062992,
+      "grad_norm": 1.0989081863562118,
+      "learning_rate": 4.5e-07,
+      "loss": 1.1158,
       "step": 3
     },
     {
       "epoch": 0.02099737532808399,
+      "grad_norm": 1.0628548113414964,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 1.0986,
       "step": 4
     },
     {
       "epoch": 0.026246719160104987,
+      "grad_norm": 1.0629069543612368,
+      "learning_rate": 7.5e-07,
+      "loss": 1.0727,
       "step": 5
     },
     {
       "epoch": 0.031496062992125984,
+      "grad_norm": 1.1219311917213644,
+      "learning_rate": 9e-07,
+      "loss": 1.1513,
       "step": 6
     },
     {
       "epoch": 0.03674540682414698,
+      "grad_norm": 1.068318638334139,
+      "learning_rate": 1.05e-06,
+      "loss": 1.0978,
       "step": 7
     },
     {
       "epoch": 0.04199475065616798,
+      "grad_norm": 1.0335025624008565,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 1.0932,
       "step": 8
     },
     {
       "epoch": 0.047244094488188976,
+      "grad_norm": 0.9514112971268772,
+      "learning_rate": 1.35e-06,
+      "loss": 1.1046,
       "step": 9
     },
     {
       "epoch": 0.05249343832020997,
+      "grad_norm": 0.8944230714776324,
+      "learning_rate": 1.5e-06,
+      "loss": 1.0638,
       "step": 10
     },
     {
       "epoch": 0.05774278215223097,
+      "grad_norm": 0.8720343077794245,
+      "learning_rate": 1.65e-06,
+      "loss": 1.1132,
       "step": 11
     },
     {
       "epoch": 0.06299212598425197,
+      "grad_norm": 0.7519518665820406,
+      "learning_rate": 1.8e-06,
+      "loss": 1.0788,
       "step": 12
     },
     {
       "epoch": 0.06824146981627296,
+      "grad_norm": 0.7768466543241798,
+      "learning_rate": 1.95e-06,
+      "loss": 1.0795,
       "step": 13
     },
     {
       "epoch": 0.07349081364829396,
+      "grad_norm": 0.7109922479048013,
+      "learning_rate": 2.1e-06,
+      "loss": 1.1012,
       "step": 14
     },
     {
       "epoch": 0.07874015748031496,
+      "grad_norm": 0.6312078880187205,
+      "learning_rate": 2.25e-06,
+      "loss": 1.0851,
       "step": 15
     },
     {
       "epoch": 0.08398950131233596,
+      "grad_norm": 0.5514473048370377,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.1041,
       "step": 16
     },
     {
       "epoch": 0.08923884514435695,
+      "grad_norm": 0.6271281070432462,
+      "learning_rate": 2.55e-06,
+      "loss": 1.0855,
       "step": 17
     },
     {
       "epoch": 0.09448818897637795,
+      "grad_norm": 0.7059888078645049,
+      "learning_rate": 2.7e-06,
+      "loss": 1.0473,
       "step": 18
     },
     {
       "epoch": 0.09973753280839895,
+      "grad_norm": 0.7226157330393405,
+      "learning_rate": 2.85e-06,
+      "loss": 1.0665,
       "step": 19
     },
     {
       "epoch": 0.10498687664041995,
+      "grad_norm": 0.7244742832208652,
+      "learning_rate": 3e-06,
+      "loss": 1.0604,
       "step": 20
     },
     {
       "epoch": 0.11023622047244094,
+      "grad_norm": 0.7088251146482789,
+      "learning_rate": 3.1500000000000003e-06,
+      "loss": 1.0516,
       "step": 21
     },
     {
       "epoch": 0.11548556430446194,
+      "grad_norm": 0.5987242362229293,
+      "learning_rate": 3.3e-06,
+      "loss": 1.084,
       "step": 22
     },
     {
       "epoch": 0.12073490813648294,
+      "grad_norm": 0.5730637810768702,
+      "learning_rate": 3.45e-06,
+      "loss": 1.0621,
       "step": 23
     },
     {
       "epoch": 0.12598425196850394,
+      "grad_norm": 0.5894968443138215,
+      "learning_rate": 3.6e-06,
+      "loss": 1.0797,
       "step": 24
     },
     {
       "epoch": 0.13123359580052493,
+      "grad_norm": 0.5798124303184627,
+      "learning_rate": 3.75e-06,
+      "loss": 1.0035,
       "step": 25
     },
     {
       "epoch": 0.13648293963254593,
+      "grad_norm": 0.643205751513686,
+      "learning_rate": 3.9e-06,
+      "loss": 1.0455,
       "step": 26
     },
     {
       "epoch": 0.14173228346456693,
+      "grad_norm": 0.5621970774702022,
+      "learning_rate": 4.05e-06,
+      "loss": 1.0576,
       "step": 27
     },
     {
       "epoch": 0.14698162729658792,
+      "grad_norm": 0.5506084571895594,
+      "learning_rate": 4.2e-06,
+      "loss": 1.0298,
       "step": 28
     },
     {
       "epoch": 0.15223097112860892,
+      "grad_norm": 0.48741149421912777,
+      "learning_rate": 4.35e-06,
+      "loss": 1.0018,
       "step": 29
     },
     {
       "epoch": 0.15748031496062992,
+      "grad_norm": 0.46403007703544275,
+      "learning_rate": 4.5e-06,
+      "loss": 0.9872,
       "step": 30
     },
     {
       "epoch": 0.16272965879265092,
+      "grad_norm": 0.4754381818573106,
+      "learning_rate": 4.65e-06,
+      "loss": 1.0271,
       "step": 31
     },
     {
       "epoch": 0.1679790026246719,
+      "grad_norm": 0.9362850890979981,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.0437,
       "step": 32
     },
     {
       "epoch": 0.1732283464566929,
+      "grad_norm": 0.47391181595772164,
+      "learning_rate": 4.95e-06,
+      "loss": 1.0437,
       "step": 33
     },
     {
       "epoch": 0.1784776902887139,
+      "grad_norm": 0.5276920454851337,
+      "learning_rate": 5.1e-06,
+      "loss": 1.0557,
       "step": 34
     },
     {
       "epoch": 0.1837270341207349,
+      "grad_norm": 0.4616075133913133,
+      "learning_rate": 5.2500000000000006e-06,
+      "loss": 1.0465,
       "step": 35
     },
     {
       "epoch": 0.1889763779527559,
+      "grad_norm": 0.4555174555636226,
+      "learning_rate": 5.4e-06,
+      "loss": 1.0588,
       "step": 36
     },
     {
       "epoch": 0.1942257217847769,
+      "grad_norm": 0.5071864534648831,
+      "learning_rate": 5.55e-06,
+      "loss": 1.044,
       "step": 37
     },
     {
       "epoch": 0.1994750656167979,
+      "grad_norm": 0.4851367263882934,
+      "learning_rate": 5.7e-06,
+      "loss": 1.0464,
       "step": 38
     },
     {
       "epoch": 0.2047244094488189,
+      "grad_norm": 0.44188022228811896,
+      "learning_rate": 5.85e-06,
+      "loss": 1.0182,
       "step": 39
     },
     {
       "epoch": 0.2099737532808399,
+      "grad_norm": 0.43420740120454643,
+      "learning_rate": 6e-06,
+      "loss": 1.0188,
       "step": 40
     },
     {
       "epoch": 0.2152230971128609,
+      "grad_norm": 0.4291543441241407,
+      "learning_rate": 5.9998719351101036e-06,
+      "loss": 1.0245,
       "step": 41
     },
     {
       "epoch": 0.2204724409448819,
+      "grad_norm": 0.43326370236005163,
+      "learning_rate": 5.999487751374158e-06,
+      "loss": 1.0238,
       "step": 42
     },
     {
       "epoch": 0.22572178477690288,
+      "grad_norm": 0.427571644972227,
+      "learning_rate": 5.998847481592462e-06,
+      "loss": 1.0311,
       "step": 43
     },
     {
       "epoch": 0.23097112860892388,
+      "grad_norm": 0.4215063088273006,
+      "learning_rate": 5.997951180429069e-06,
+      "loss": 0.9925,
       "step": 44
     },
     {
       "epoch": 0.23622047244094488,
+      "grad_norm": 0.4206536914503675,
+      "learning_rate": 5.996798924407118e-06,
+      "loss": 1.003,
       "step": 45
     },
     {
       "epoch": 0.24146981627296588,
+      "grad_norm": 0.40910969064965136,
+      "learning_rate": 5.995390811902302e-06,
+      "loss": 0.9949,
       "step": 46
     },
     {
       "epoch": 0.24671916010498687,
+      "grad_norm": 0.4165775049327623,
+      "learning_rate": 5.993726963134471e-06,
+      "loss": 0.9734,
       "step": 47
     },
     {
       "epoch": 0.25196850393700787,
+      "grad_norm": 0.3832235501001726,
+      "learning_rate": 5.9918075201573645e-06,
+      "loss": 0.9485,
       "step": 48
     },
     {
       "epoch": 0.2572178477690289,
+      "grad_norm": 0.37002495168808525,
+      "learning_rate": 5.9896326468464835e-06,
+      "loss": 0.9358,
       "step": 49
     },
     {
       "epoch": 0.26246719160104987,
+      "grad_norm": 0.44836853406053057,
+      "learning_rate": 5.987202528885104e-06,
+      "loss": 0.9982,
       "step": 50
     },
     {
       "epoch": 0.2677165354330709,
+      "grad_norm": 0.4080608606117312,
+      "learning_rate": 5.984517373748417e-06,
+      "loss": 1.0129,
       "step": 51
     },
     {
       "epoch": 0.27296587926509186,
+      "grad_norm": 0.4001550595702573,
+      "learning_rate": 5.981577410685822e-06,
+      "loss": 0.9788,
       "step": 52
     },
     {
       "epoch": 0.2782152230971129,
+      "grad_norm": 0.41021488877460305,
+      "learning_rate": 5.978382890701347e-06,
+      "loss": 1.0262,
       "step": 53
     },
     {
       "epoch": 0.28346456692913385,
+      "grad_norm": 0.39997016380492506,
+      "learning_rate": 5.9749340865322284e-06,
+      "loss": 1.0275,
       "step": 54
     },
     {
       "epoch": 0.2887139107611549,
+      "grad_norm": 0.3839823787027912,
+      "learning_rate": 5.971231292625615e-06,
+      "loss": 0.9374,
       "step": 55
     },
     {
       "epoch": 0.29396325459317585,
+      "grad_norm": 0.4125068495663659,
+      "learning_rate": 5.967274825113438e-06,
+      "loss": 0.9954,
       "step": 56
     },
     {
       "epoch": 0.2992125984251969,
+      "grad_norm": 0.3908377197765856,
+      "learning_rate": 5.963065021785414e-06,
+      "loss": 0.9671,
       "step": 57
     },
     {
       "epoch": 0.30446194225721784,
+      "grad_norm": 0.3850488592862481,
+      "learning_rate": 5.958602242060207e-06,
+      "loss": 0.9657,
       "step": 58
     },
     {
       "epoch": 0.30971128608923887,
+      "grad_norm": 0.3877990366088493,
+      "learning_rate": 5.95388686695475e-06,
+      "loss": 0.9678,
       "step": 59
     },
     {
       "epoch": 0.31496062992125984,
+      "grad_norm": 0.40470471194287355,
+      "learning_rate": 5.948919299051706e-06,
+      "loss": 1.0149,
       "step": 60
     },
     {
       "epoch": 0.32020997375328086,
+      "grad_norm": 0.42889495063392963,
+      "learning_rate": 5.943699962465096e-06,
+      "loss": 1.033,
       "step": 61
     },
     {
       "epoch": 0.32545931758530183,
+      "grad_norm": 0.39164358737100274,
+      "learning_rate": 5.9382293028040985e-06,
+      "loss": 0.9761,
       "step": 62
     },
     {
       "epoch": 0.33070866141732286,
+      "grad_norm": 0.3869342590567232,
+      "learning_rate": 5.9325077871349975e-06,
+      "loss": 0.9982,
       "step": 63
     },
     {
       "epoch": 0.3359580052493438,
+      "grad_norm": 0.39264627926569035,
+      "learning_rate": 5.9265359039413105e-06,
+      "loss": 0.9667,
       "step": 64
     },
     {
       "epoch": 0.34120734908136485,
+      "grad_norm": 0.3887717698297268,
+      "learning_rate": 5.920314163082079e-06,
+      "loss": 0.9806,
       "step": 65
     },
     {
       "epoch": 0.3464566929133858,
+      "grad_norm": 0.40896336915084297,
+      "learning_rate": 5.913843095748342e-06,
+      "loss": 1.0135,
       "step": 66
     },
     {
       "epoch": 0.35170603674540685,
+      "grad_norm": 0.3610209560875707,
+      "learning_rate": 5.907123254417783e-06,
+      "loss": 0.956,
       "step": 67
     },
     {
       "epoch": 0.3569553805774278,
+      "grad_norm": 0.38154744815823505,
+      "learning_rate": 5.9001552128075625e-06,
+      "loss": 1.0045,
       "step": 68
     },
     {
       "epoch": 0.36220472440944884,
+      "grad_norm": 0.4094826396119445,
+      "learning_rate": 5.892939565825335e-06,
+      "loss": 1.0069,
       "step": 69
     },
     {
       "epoch": 0.3674540682414698,
+      "grad_norm": 0.39129138622932325,
+      "learning_rate": 5.885476929518457e-06,
+      "loss": 0.9525,
       "step": 70
     },
     {
       "epoch": 0.37270341207349084,
+      "grad_norm": 0.3712890701175899,
+      "learning_rate": 5.8777679410213956e-06,
+      "loss": 0.9792,
       "step": 71
     },
     {
       "epoch": 0.3779527559055118,
+      "grad_norm": 0.4086264062600148,
+      "learning_rate": 5.869813258501323e-06,
+      "loss": 0.9926,
       "step": 72
     },
     {
       "epoch": 0.38320209973753283,
+      "grad_norm": 0.368975878599487,
+      "learning_rate": 5.861613561101934e-06,
+      "loss": 0.9643,
       "step": 73
     },
     {
       "epoch": 0.3884514435695538,
+      "grad_norm": 0.36792811629461203,
+      "learning_rate": 5.853169548885461e-06,
+      "loss": 0.9867,
       "step": 74
     },
     {
       "epoch": 0.3937007874015748,
+      "grad_norm": 0.3566251893981936,
+      "learning_rate": 5.844481942772898e-06,
+      "loss": 1.0069,
       "step": 75
     },
     {
       "epoch": 0.3989501312335958,
+      "grad_norm": 0.4578529359685586,
+      "learning_rate": 5.835551484482459e-06,
+      "loss": 1.0173,
       "step": 76
     },
     {
       "epoch": 0.4041994750656168,
+      "grad_norm": 0.3935925285922137,
+      "learning_rate": 5.826378936466249e-06,
+      "loss": 0.9743,
       "step": 77
     },
     {
       "epoch": 0.4094488188976378,
+      "grad_norm": 0.4109939217838428,
+      "learning_rate": 5.81696508184517e-06,
+      "loss": 0.9866,
       "step": 78
     },
     {
       "epoch": 0.4146981627296588,
+      "grad_norm": 0.3839870332489822,
+      "learning_rate": 5.807310724342058e-06,
+      "loss": 0.9516,
       "step": 79
     },
     {
       "epoch": 0.4199475065616798,
+      "grad_norm": 0.3774576797883406,
+      "learning_rate": 5.797416688213067e-06,
+      "loss": 0.9895,
       "step": 80
     },
     {
       "epoch": 0.4251968503937008,
+      "grad_norm": 0.3817468964498129,
+      "learning_rate": 5.787283818177297e-06,
+      "loss": 0.9632,
       "step": 81
     },
     {
       "epoch": 0.4304461942257218,
+      "grad_norm": 0.60843002346461,
+      "learning_rate": 5.776912979344669e-06,
+      "loss": 1.0166,
       "step": 82
     },
     {
       "epoch": 0.4356955380577428,
+      "grad_norm": 0.3858713700245362,
+      "learning_rate": 5.766305057142073e-06,
+      "loss": 0.9976,
       "step": 83
     },
     {
       "epoch": 0.4409448818897638,
+      "grad_norm": 0.3724153436541016,
+      "learning_rate": 5.755460957237769e-06,
+      "loss": 0.9645,
       "step": 84
     },
     {
       "epoch": 0.4461942257217848,
+      "grad_norm": 0.38201105695018567,
+      "learning_rate": 5.744381605464064e-06,
+      "loss": 0.9899,
       "step": 85
     },
     {
       "epoch": 0.45144356955380577,
+      "grad_norm": 0.38383930861007165,
+      "learning_rate": 5.7330679477382655e-06,
+      "loss": 0.9919,
       "step": 86
     },
     {
       "epoch": 0.4566929133858268,
+      "grad_norm": 0.4078870418259581,
+      "learning_rate": 5.7215209499819296e-06,
+      "loss": 0.9797,
       "step": 87
     },
     {
       "epoch": 0.46194225721784776,
+      "grad_norm": 0.38463767466523974,
+      "learning_rate": 5.709741598038387e-06,
+      "loss": 0.9597,
       "step": 88
     },
     {
       "epoch": 0.4671916010498688,
+      "grad_norm": 0.36309855116472584,
+      "learning_rate": 5.697730897588577e-06,
+      "loss": 0.9737,
       "step": 89
     },
     {
       "epoch": 0.47244094488188976,
+      "grad_norm": 0.4106701446638758,
+      "learning_rate": 5.685489874065187e-06,
+      "loss": 0.9683,
       "step": 90
     },
     {
       "epoch": 0.4776902887139108,
+      "grad_norm": 0.37110409255145443,
+      "learning_rate": 5.673019572565103e-06,
+      "loss": 1.0418,
       "step": 91
     },
     {
       "epoch": 0.48293963254593175,
+      "grad_norm": 0.3558357783330656,
+      "learning_rate": 5.660321057760186e-06,
+      "loss": 1.0055,
       "step": 92
     },
     {
       "epoch": 0.4881889763779528,
+      "grad_norm": 0.40499489938404787,
+      "learning_rate": 5.6473954138063674e-06,
+      "loss": 1.0113,
       "step": 93
     },
     {
       "epoch": 0.49343832020997375,
+      "grad_norm": 0.39428526462199764,
+      "learning_rate": 5.634243744251094e-06,
+      "loss": 0.9875,
       "step": 94
     },
     {
       "epoch": 0.49868766404199477,
+      "grad_norm": 0.3711741011240413,
+      "learning_rate": 5.620867171939109e-06,
+      "loss": 0.9749,
       "step": 95
     }
   ],

checkpoint-95/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0d2528dcfd8d62d3c517248c2d231cc9ff64ec148911ec3ce58a9d39f7507d
 size 8376

 version https://git-lfs.github.com/spec/v1
+oid sha256:b860c7e838727b1a9d8001f5c7a769bd0d63566ea45620719245b6beb59f1cd9
 size 8376