Delta-Vector commited on 13 days ago

Commit

867107c

verified ·

1 Parent(s): 441a49e

Training in progress, step 190, checkpoint

Browse files

Files changed (25) hide show

checkpoint-190/global_step190/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/global_step190/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +1 -1
checkpoint-190/model-00001-of-00014.safetensors +1 -1
checkpoint-190/model-00002-of-00014.safetensors +1 -1
checkpoint-190/model-00003-of-00014.safetensors +1 -1
checkpoint-190/model-00004-of-00014.safetensors +1 -1
checkpoint-190/model-00005-of-00014.safetensors +1 -1
checkpoint-190/model-00006-of-00014.safetensors +1 -1
checkpoint-190/model-00007-of-00014.safetensors +1 -1
checkpoint-190/model-00008-of-00014.safetensors +1 -1
checkpoint-190/model-00009-of-00014.safetensors +1 -1
checkpoint-190/model-00010-of-00014.safetensors +1 -1
checkpoint-190/model-00011-of-00014.safetensors +1 -1
checkpoint-190/model-00012-of-00014.safetensors +1 -1
checkpoint-190/model-00013-of-00014.safetensors +1 -1
checkpoint-190/model-00014-of-00014.safetensors +1 -1
checkpoint-190/scheduler.pt +1 -1
checkpoint-190/trainer_state.json +568 -568
checkpoint-190/training_args.bin +1 -1

checkpoint-190/global_step190/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b492522c2621fa7d92d5ff09018a973c1df0d001023dd5e699e678724925175
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:3541776382759386e52f0febd1a8b68f39637b1f8eb3461e0fe89a2a0974fa44
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eec645b36b324b5fe84fe66c847bc6746912a74b8b88f6635098a0a2be848480
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:be8d8831089f5b892a3007b0a90a5b1de44307d0bbaa5bf248d2ff4f79104511
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:630a3721e91b3d394a18c9993888327e7cdddc335ee1078f3c0333f3ce9d4154
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:17c8b54f4d34fbad6bb8aff69ffa500110379ebf67c0761fbe31a5df5f77c135
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03ef347f349eafadf1ae2a608a554fa11fceb5ef686196b2da393aedfe3b7f33
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc499ea3adaa850557203b81697209d997b0371ecc644f4c8777c0eb4dff8171
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5a107a64876bd77ca0e4f0729d0c5061f4f88fb0c018452e13e47940fa3d228
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4b6533c980a8af3289b020538036f2bf41a8eb3b4b4eb28db6d20141f4a0634
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8dc14bdfb207b8713ca3c5883a415b02c5217c474de2b8acccd7cd7f5ae84ee5
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f3fedf06eb0d61469718f363b311c03e2d4ceca30d821dc87cb28a9db1e55ea
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad0bbe907243dea037d499e0a8de68d0cc758c153b80b09ce13b0627621066b5
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:790dd79ef120938a1d9e3d111e973c57a2e485b09964130662916cbde34aba4b
 size 24702833511

checkpoint-190/global_step190/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cb9a8426ac2ce4a68ce970141f26e9c0ffb3c18ee53bdf4b70ccf8645f9cfdf
 size 24702833511

 version https://git-lfs.github.com/spec/v1
+oid sha256:47bb110081dc718553a91dbe4a2d855ca0ad096e15cf603009ef75f6e518c7c9
 size 24702833511

checkpoint-190/model-00001-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:169232493df11cd7afc50eda21baa777e39c981fd4b7532a4d118c74aced6bc2
 size 4891730992

 version https://git-lfs.github.com/spec/v1
+oid sha256:18655898de26c2499a9cb998d3172238b900528f8fa051e28c1501fb6d494816
 size 4891730992

checkpoint-190/model-00002-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:575ada9ddc7e810c27fb8b24f651a060e9460bc8325a13e6758abf6ea7603bf4
 size 4876059352

 version https://git-lfs.github.com/spec/v1
+oid sha256:6895a87d6de8264c3f9aee6c5665c7608a9f68a4969405dd24797b80c73f31b6
 size 4876059352

checkpoint-190/model-00003-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:599e4db2d87fc3e8375087a2555203189347749fe218ca223e7569c709590c70
 size 4876059384

 version https://git-lfs.github.com/spec/v1
+oid sha256:11a264f96be19b45eddfad9a94a935de63c8d99fc302c11d54c720bf92f6566d
 size 4876059384

checkpoint-190/model-00004-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6d3cbf63b56a6a020c03b876ba95035e075b68eeb7e9c4ea43db3460a372a36
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6a0ce88e4be7470c6e3cc62f9223fddd4feb157d9896d9a32f8631d88bb8848
 size 4876059416

checkpoint-190/model-00005-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:503b6ec7a60c0e3cf96ea96e26493a29c22a48d90dd569489fbf662ffde0aea6
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0fb3e67f4dcd8905765f154bd890cfe2cbe75eb7401290bf180ea998d9ee3a6
 size 4876059416

checkpoint-190/model-00006-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1b7c58f9141cc0273e15c98858fd64c2d8b15a8d1a7adc2c4518029a51df24f
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:50435db08c6497948c82e3d506a47d4a15199fc275beaf85b55b5f0e05e57f13
 size 4876059416

checkpoint-190/model-00007-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29d71b6095735d91c1c0861482781e11235495280bfa315bf926c67ab86e9510
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b3e79c4c319a7f7cdb2e5b90018fc8ea6a45052f907ba6c6ba7b45954eaa51f
 size 4876059416

checkpoint-190/model-00008-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edfe2b5a16d63446025ae5bb0a482e7c8653b31d22027a0c3b8bd5dec25b8f5f
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b38fbac984d88974d253478c02ee53d934e6fac621a94a54214407763017be4e
 size 4876059416

checkpoint-190/model-00009-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28f29721a3b0bba86d4c77a8079840d6de1e5129a7850fcbc5233b83662ca122
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:441da3091300b55242e64b08951ce667fc6ab8ee839cffb39cb23cfae9d42eaf
 size 4876059416

checkpoint-190/model-00010-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e0d7fcd56e2ee76a15fec1e09c962a7ab0729c3bb19fdaa7898aebf261fb8a1
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e66b2a986f40f3f99406d49d2d37abc3116a27020c9e980cc090c0e9c969b26
 size 4876059416

checkpoint-190/model-00011-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0242233c6be0bdae8cc2c3b09ca08d2c30e076f313857b41287501e2b27c1573
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:087c4681c8cbc8ef8169b2baa08b721bf7ec92dd88deea86d5c40423821b4126
 size 4876059416

checkpoint-190/model-00012-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbfec0c2ec4c9be22e6c1cc19f25703c0c862c89887a9249e1983e6bcb833f35
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:33ef256a0d3458c76c22a6fa4d279b290cf1e67d9e4ba82e9e373aafe5092993
 size 4876059416

checkpoint-190/model-00013-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0787260fa4443b2c10b418a926e9cfecf1b28c0644ea1d027bc4716a8667000
 size 4876059416

 version https://git-lfs.github.com/spec/v1
+oid sha256:081ac51de4f8c0228616b03d106e3c9bf23584b4f74a7a40194630762ea06a97
 size 4876059416

checkpoint-190/model-00014-of-00014.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4154cf30c46a55b5596e1268d3e94bb325a4e3407b69c79c7eb95a92d908737
 size 2123397800

 version https://git-lfs.github.com/spec/v1
+oid sha256:37bc918a617fbfec918d94d48c04a00906ac5fe72e6c9bba9d9d2bdb61e72d13
 size 2123397800

checkpoint-190/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f7ded6ee49549061f8b11e49b6f24cbfd319f9bce6c5b9fb15680661980fc08
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f572459ea633e6969f294dad697709db1ff09e4ab9bad307878e319454f0651
 size 1064

checkpoint-190/trainer_state.json CHANGED Viewed

@@ -10,1332 +10,1332 @@
   "log_history": [
     {
       "epoch": 0.005249343832020997,
-      "grad_norm": 1.134754623075341,
-      "learning_rate": 1.0000000000000002e-06,
       "loss": 1.1087,
       "step": 1
     },
     {
       "epoch": 0.010498687664041995,
-      "grad_norm": 1.1234145683168772,
-      "learning_rate": 2.0000000000000003e-06,
       "loss": 1.1356,
       "step": 2
     },
     {
       "epoch": 0.015748031496062992,
-      "grad_norm": 1.0799860590372758,
-      "learning_rate": 3e-06,
-      "loss": 1.1152,
       "step": 3
     },
     {
       "epoch": 0.02099737532808399,
-      "grad_norm": 0.9984297481710986,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 1.0953,
       "step": 4
     },
     {
       "epoch": 0.026246719160104987,
-      "grad_norm": 0.8302026280344834,
-      "learning_rate": 5e-06,
-      "loss": 1.0617,
       "step": 5
     },
     {
       "epoch": 0.031496062992125984,
-      "grad_norm": 0.8911823807745126,
-      "learning_rate": 6e-06,
-      "loss": 1.1297,
       "step": 6
     },
     {
       "epoch": 0.03674540682414698,
-      "grad_norm": 0.686211615667355,
-      "learning_rate": 7e-06,
-      "loss": 1.0705,
       "step": 7
     },
     {
       "epoch": 0.04199475065616798,
-      "grad_norm": 0.9091855799181295,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 1.065,
       "step": 8
     },
     {
       "epoch": 0.047244094488188976,
-      "grad_norm": 0.8934722980371054,
-      "learning_rate": 9e-06,
-      "loss": 1.0767,
       "step": 9
     },
     {
       "epoch": 0.05249343832020997,
-      "grad_norm": 0.8688110393935611,
-      "learning_rate": 1e-05,
-      "loss": 1.0303,
       "step": 10
     },
     {
       "epoch": 0.05774278215223097,
-      "grad_norm": 0.9920393807379069,
-      "learning_rate": 1.1000000000000001e-05,
-      "loss": 1.0855,
       "step": 11
     },
     {
       "epoch": 0.06299212598425197,
-      "grad_norm": 0.9220245541797021,
-      "learning_rate": 1.2e-05,
-      "loss": 1.0531,
       "step": 12
     },
     {
       "epoch": 0.06824146981627296,
-      "grad_norm": 0.736886642754733,
-      "learning_rate": 1.3000000000000001e-05,
-      "loss": 1.0456,
       "step": 13
     },
     {
       "epoch": 0.07349081364829396,
-      "grad_norm": 0.771339891024354,
-      "learning_rate": 1.4e-05,
-      "loss": 1.0671,
       "step": 14
     },
     {
       "epoch": 0.07874015748031496,
-      "grad_norm": 0.7161080553611359,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 1.0521,
       "step": 15
     },
     {
       "epoch": 0.08398950131233596,
-      "grad_norm": 0.6788342613059561,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.0674,
       "step": 16
     },
     {
       "epoch": 0.08923884514435695,
-      "grad_norm": 0.7102848455414168,
-      "learning_rate": 1.7e-05,
-      "loss": 1.0459,
       "step": 17
     },
     {
       "epoch": 0.09448818897637795,
-      "grad_norm": 0.6425246555654909,
-      "learning_rate": 1.8e-05,
-      "loss": 1.0093,
       "step": 18
     },
     {
       "epoch": 0.09973753280839895,
-      "grad_norm": 2.099748819540086,
-      "learning_rate": 1.9e-05,
-      "loss": 1.0301,
       "step": 19
     },
     {
       "epoch": 0.10498687664041995,
-      "grad_norm": 0.6691987921672391,
-      "learning_rate": 2e-05,
-      "loss": 1.0199,
       "step": 20
     },
     {
       "epoch": 0.11023622047244094,
-      "grad_norm": 0.5883655485426926,
-      "learning_rate": 2.1000000000000002e-05,
-      "loss": 1.0085,
       "step": 21
     },
     {
       "epoch": 0.11548556430446194,
-      "grad_norm": 0.5443706631485103,
-      "learning_rate": 2.2000000000000003e-05,
-      "loss": 1.0432,
       "step": 22
     },
     {
       "epoch": 0.12073490813648294,
-      "grad_norm": 0.593023936793411,
-      "learning_rate": 2.3e-05,
-      "loss": 1.0196,
       "step": 23
     },
     {
       "epoch": 0.12598425196850394,
-      "grad_norm": 0.5618656915734137,
-      "learning_rate": 2.4e-05,
-      "loss": 1.0386,
       "step": 24
     },
     {
       "epoch": 0.13123359580052493,
-      "grad_norm": 0.46871710098096486,
-      "learning_rate": 2.5e-05,
-      "loss": 0.9611,
       "step": 25
     },
     {
       "epoch": 0.13648293963254593,
-      "grad_norm": 0.5700902276763852,
-      "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.0045,
       "step": 26
     },
     {
       "epoch": 0.14173228346456693,
-      "grad_norm": 0.603692765386866,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 1.019,
       "step": 27
     },
     {
       "epoch": 0.14698162729658792,
-      "grad_norm": 0.48456720859923497,
-      "learning_rate": 2.8e-05,
-      "loss": 0.9892,
       "step": 28
     },
     {
       "epoch": 0.15223097112860892,
-      "grad_norm": 0.45729475661677665,
-      "learning_rate": 2.9e-05,
-      "loss": 0.9645,
       "step": 29
     },
     {
       "epoch": 0.15748031496062992,
-      "grad_norm": 0.5439846777665153,
-      "learning_rate": 3.0000000000000004e-05,
-      "loss": 0.9497,
       "step": 30
     },
     {
       "epoch": 0.16272965879265092,
-      "grad_norm": 0.4965459941185334,
-      "learning_rate": 3.1e-05,
-      "loss": 0.9882,
       "step": 31
     },
     {
       "epoch": 0.1679790026246719,
-      "grad_norm": 0.4656328962534996,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.0057,
       "step": 32
     },
     {
       "epoch": 0.1732283464566929,
-      "grad_norm": 0.5241601609773927,
-      "learning_rate": 3.3e-05,
-      "loss": 1.0033,
       "step": 33
     },
     {
       "epoch": 0.1784776902887139,
-      "grad_norm": 0.5062226992393802,
-      "learning_rate": 3.4e-05,
-      "loss": 1.0166,
       "step": 34
     },
     {
       "epoch": 0.1837270341207349,
-      "grad_norm": 0.43771829747985674,
-      "learning_rate": 3.5000000000000004e-05,
-      "loss": 1.0102,
       "step": 35
     },
     {
       "epoch": 0.1889763779527559,
-      "grad_norm": 0.48092156639697076,
-      "learning_rate": 3.6e-05,
-      "loss": 1.018,
       "step": 36
     },
     {
       "epoch": 0.1942257217847769,
-      "grad_norm": 0.48115559949514536,
-      "learning_rate": 3.7000000000000005e-05,
-      "loss": 1.0079,
       "step": 37
     },
     {
       "epoch": 0.1994750656167979,
-      "grad_norm": 0.4777546937622387,
-      "learning_rate": 3.8e-05,
-      "loss": 1.0085,
       "step": 38
     },
     {
       "epoch": 0.2047244094488189,
-      "grad_norm": 0.44755392669080185,
-      "learning_rate": 3.9e-05,
-      "loss": 0.9825,
       "step": 39
     },
     {
       "epoch": 0.2099737532808399,
-      "grad_norm": 0.44510881962201315,
-      "learning_rate": 4e-05,
-      "loss": 0.9848,
       "step": 40
     },
     {
       "epoch": 0.2152230971128609,
-      "grad_norm": 0.4746290969046573,
-      "learning_rate": 3.999914623406736e-05,
-      "loss": 0.9888,
       "step": 41
     },
     {
       "epoch": 0.2204724409448819,
-      "grad_norm": 0.5953130701884418,
-      "learning_rate": 3.9996585009161056e-05,
-      "loss": 0.9882,
       "step": 42
     },
     {
       "epoch": 0.22572178477690288,
-      "grad_norm": 0.4251472611705547,
-      "learning_rate": 3.999231654394975e-05,
-      "loss": 0.9958,
       "step": 43
     },
     {
       "epoch": 0.23097112860892388,
-      "grad_norm": 0.44690799367073597,
-      "learning_rate": 3.9986341202860467e-05,
-      "loss": 0.9543,
       "step": 44
     },
     {
       "epoch": 0.23622047244094488,
-      "grad_norm": 0.5976579403936895,
-      "learning_rate": 3.9978659496047456e-05,
-      "loss": 0.9762,
       "step": 45
     },
     {
       "epoch": 0.24146981627296588,
-      "grad_norm": 0.3962092871428472,
-      "learning_rate": 3.9969272079348685e-05,
-      "loss": 0.9605,
       "step": 46
     },
     {
       "epoch": 0.24671916010498687,
-      "grad_norm": 0.43362883575028716,
-      "learning_rate": 3.995817975422981e-05,
-      "loss": 0.9456,
       "step": 47
     },
     {
       "epoch": 0.25196850393700787,
-      "grad_norm": 0.4139776793240363,
-      "learning_rate": 3.994538346771576e-05,
-      "loss": 0.9165,
       "step": 48
     },
     {
       "epoch": 0.2572178477690289,
-      "grad_norm": 0.3940723609427906,
-      "learning_rate": 3.9930884312309894e-05,
-      "loss": 0.9071,
       "step": 49
     },
     {
       "epoch": 0.26246719160104987,
-      "grad_norm": 0.4016006422322008,
-      "learning_rate": 3.991468352590069e-05,
-      "loss": 0.9668,
       "step": 50
     },
     {
       "epoch": 0.2677165354330709,
-      "grad_norm": 0.9528446542157881,
-      "learning_rate": 3.989678249165612e-05,
-      "loss": 1.0431,
       "step": 51
     },
     {
       "epoch": 0.27296587926509186,
-      "grad_norm": 0.41600529189619084,
-      "learning_rate": 3.987718273790548e-05,
-      "loss": 0.9464,
       "step": 52
     },
     {
       "epoch": 0.2782152230971129,
-      "grad_norm": 1.1382476752327089,
-      "learning_rate": 3.9855885938008986e-05,
-      "loss": 1.0186,
       "step": 53
     },
     {
       "epoch": 0.28346456692913385,
-      "grad_norm": 0.44849148754190465,
-      "learning_rate": 3.983289391021486e-05,
-      "loss": 0.9981,
       "step": 54
     },
     {
       "epoch": 0.2887139107611549,
-      "grad_norm": 0.4296819710357216,
-      "learning_rate": 3.9808208617504106e-05,
-      "loss": 0.9124,
       "step": 55
     },
     {
       "epoch": 0.29396325459317585,
-      "grad_norm": 1.4708100276334197,
-      "learning_rate": 3.9781832167422926e-05,
-      "loss": 1.0627,
       "step": 56
     },
     {
       "epoch": 0.2992125984251969,
-      "grad_norm": 0.436502847615945,
-      "learning_rate": 3.9753766811902756e-05,
-      "loss": 0.9399,
       "step": 57
     },
     {
       "epoch": 0.30446194225721784,
-      "grad_norm": 0.41131082586189677,
-      "learning_rate": 3.972401494706805e-05,
-      "loss": 0.9381,
       "step": 58
     },
     {
       "epoch": 0.30971128608923887,
-      "grad_norm": 0.42792569998778285,
-      "learning_rate": 3.969257911303167e-05,
-      "loss": 0.9426,
       "step": 59
     },
     {
       "epoch": 0.31496062992125984,
-      "grad_norm": 1.0484985550985957,
-      "learning_rate": 3.965946199367804e-05,
-      "loss": 1.0745,
       "step": 60
     },
     {
       "epoch": 0.32020997375328086,
-      "grad_norm": 0.45563925287513607,
-      "learning_rate": 3.962466641643398e-05,
-      "loss": 1.0085,
       "step": 61
     },
     {
       "epoch": 0.32545931758530183,
-      "grad_norm": 0.4216131864169055,
-      "learning_rate": 3.958819535202732e-05,
-      "loss": 0.9533,
       "step": 62
     },
     {
       "epoch": 0.33070866141732286,
-      "grad_norm": 0.47284588975540814,
-      "learning_rate": 3.9550051914233314e-05,
-      "loss": 0.9727,
       "step": 63
     },
     {
       "epoch": 0.3359580052493438,
-      "grad_norm": 0.4112493584955737,
-      "learning_rate": 3.951023935960874e-05,
-      "loss": 0.9408,
       "step": 64
     },
     {
       "epoch": 0.34120734908136485,
-      "grad_norm": 0.44123500755805545,
-      "learning_rate": 3.9468761087213864e-05,
-      "loss": 0.9547,
       "step": 65
     },
     {
       "epoch": 0.3464566929133858,
-      "grad_norm": 0.4160767709488051,
-      "learning_rate": 3.942562063832228e-05,
-      "loss": 0.9862,
       "step": 66
     },
     {
       "epoch": 0.35170603674540685,
-      "grad_norm": 0.40282812591350464,
-      "learning_rate": 3.9380821696118556e-05,
-      "loss": 0.9301,
       "step": 67
     },
     {
       "epoch": 0.3569553805774278,
-      "grad_norm": 0.42252313457664165,
-      "learning_rate": 3.933436808538375e-05,
-      "loss": 0.9751,
       "step": 68
     },
     {
       "epoch": 0.36220472440944884,
-      "grad_norm": 0.4084367556454159,
-      "learning_rate": 3.92862637721689e-05,
-      "loss": 0.9838,
       "step": 69
     },
     {
       "epoch": 0.3674540682414698,
-      "grad_norm": 0.39446053200993564,
-      "learning_rate": 3.923651286345638e-05,
-      "loss": 0.9237,
       "step": 70
     },
     {
       "epoch": 0.37270341207349084,
-      "grad_norm": 0.43051114259650114,
-      "learning_rate": 3.9185119606809305e-05,
-      "loss": 0.9543,
       "step": 71
     },
     {
       "epoch": 0.3779527559055118,
-      "grad_norm": 0.41527447901851827,
-      "learning_rate": 3.913208839000882e-05,
-      "loss": 0.9688,
       "step": 72
     },
     {
       "epoch": 0.38320209973753283,
-      "grad_norm": 0.4033220715509175,
-      "learning_rate": 3.907742374067956e-05,
-      "loss": 0.9401,
       "step": 73
     },
     {
       "epoch": 0.3884514435695538,
-      "grad_norm": 0.4039636146150166,
-      "learning_rate": 3.9021130325903076e-05,
-      "loss": 0.9621,
       "step": 74
     },
     {
       "epoch": 0.3937007874015748,
-      "grad_norm": 0.3896809489063709,
-      "learning_rate": 3.896321295181932e-05,
-      "loss": 0.986,
       "step": 75
     },
     {
       "epoch": 0.3989501312335958,
-      "grad_norm": 0.7547382513819603,
-      "learning_rate": 3.89036765632164e-05,
-      "loss": 1.0528,
       "step": 76
     },
     {
       "epoch": 0.4041994750656168,
-      "grad_norm": 0.42422582617937166,
-      "learning_rate": 3.8842526243108326e-05,
-      "loss": 0.9541,
       "step": 77
     },
     {
       "epoch": 0.4094488188976378,
-      "grad_norm": 0.41581388939730257,
-      "learning_rate": 3.877976721230114e-05,
-      "loss": 0.9711,
       "step": 78
     },
     {
       "epoch": 0.4146981627296588,
-      "grad_norm": 0.4326138308224312,
-      "learning_rate": 3.8715404828947055e-05,
-      "loss": 0.9261,
       "step": 79
     },
     {
       "epoch": 0.4199475065616798,
-      "grad_norm": 0.38852695749391314,
-      "learning_rate": 3.864944458808712e-05,
-      "loss": 0.9648,
       "step": 80
     },
     {
       "epoch": 0.4251968503937008,
-      "grad_norm": 0.3897195092049238,
-      "learning_rate": 3.8581892121181984e-05,
-      "loss": 0.9397,
       "step": 81
     },
     {
       "epoch": 0.4304461942257218,
-      "grad_norm": 0.43934794613481915,
-      "learning_rate": 3.851275319563113e-05,
-      "loss": 0.9905,
       "step": 82
     },
     {
       "epoch": 0.4356955380577428,
-      "grad_norm": 0.5323662587576004,
-      "learning_rate": 3.844203371428049e-05,
-      "loss": 0.9896,
       "step": 83
     },
     {
       "epoch": 0.4409448818897638,
-      "grad_norm": 0.38441956539336747,
-      "learning_rate": 3.836973971491847e-05,
-      "loss": 0.9385,
       "step": 84
     },
     {
       "epoch": 0.4461942257217848,
-      "grad_norm": 0.38662975914153885,
-      "learning_rate": 3.8295877369760426e-05,
-      "loss": 0.9586,
       "step": 85
     },
     {
       "epoch": 0.45144356955380577,
-      "grad_norm": 0.41009140101075614,
-      "learning_rate": 3.822045298492177e-05,
-      "loss": 0.9667,
       "step": 86
     },
     {
       "epoch": 0.4566929133858268,
-      "grad_norm": 0.4258642992742759,
-      "learning_rate": 3.814347299987953e-05,
-      "loss": 0.954,
       "step": 87
     },
     {
       "epoch": 0.46194225721784776,
-      "grad_norm": 0.40527142541860056,
-      "learning_rate": 3.806494398692258e-05,
-      "loss": 0.9351,
       "step": 88
     },
     {
       "epoch": 0.4671916010498688,
-      "grad_norm": 0.3743850574341336,
-      "learning_rate": 3.7984872650590516e-05,
-      "loss": 0.9498,
       "step": 89
     },
     {
       "epoch": 0.47244094488188976,
-      "grad_norm": 0.4151867667600151,
-      "learning_rate": 3.790326582710125e-05,
-      "loss": 0.9466,
       "step": 90
     },
     {
       "epoch": 0.4776902887139108,
-      "grad_norm": 0.4448011376311795,
-      "learning_rate": 3.782013048376736e-05,
-      "loss": 1.0266,
       "step": 91
     },
     {
       "epoch": 0.48293963254593175,
-      "grad_norm": 0.38192124855359877,
-      "learning_rate": 3.773547371840124e-05,
-      "loss": 0.978,
       "step": 92
     },
     {
       "epoch": 0.4881889763779528,
-      "grad_norm": 0.4235778210861527,
-      "learning_rate": 3.764930275870912e-05,
-      "loss": 0.9827,
       "step": 93
     },
     {
       "epoch": 0.49343832020997375,
-      "grad_norm": 0.4051195260626496,
-      "learning_rate": 3.756162496167396e-05,
-      "loss": 0.963,
       "step": 94
     },
     {
       "epoch": 0.49868766404199477,
-      "grad_norm": 0.40700055373961197,
-      "learning_rate": 3.7472447812927395e-05,
-      "loss": 0.9437,
       "step": 95
     },
     {
       "epoch": 0.5039370078740157,
-      "grad_norm": 0.38712614108502513,
-      "learning_rate": 3.738177892611057e-05,
-      "loss": 0.955,
       "step": 96
     },
     {
       "epoch": 0.5091863517060368,
-      "grad_norm": 0.4099596350735423,
-      "learning_rate": 3.728962604222416e-05,
-      "loss": 0.9741,
       "step": 97
     },
     {
       "epoch": 0.5144356955380578,
-      "grad_norm": 0.40040635119594403,
-      "learning_rate": 3.719599702896745e-05,
-      "loss": 0.9528,
       "step": 98
     },
     {
       "epoch": 0.5196850393700787,
-      "grad_norm": 0.4136053200425271,
-      "learning_rate": 3.710089988006662e-05,
-      "loss": 0.9466,
       "step": 99
     },
     {
       "epoch": 0.5249343832020997,
-      "grad_norm": 0.41412239719227456,
-      "learning_rate": 3.700434271459229e-05,
-      "loss": 0.9242,
       "step": 100
     },
     {
       "epoch": 0.5301837270341208,
-      "grad_norm": 0.4309979528684408,
-      "learning_rate": 3.690633377626628e-05,
-      "loss": 0.9861,
       "step": 101
     },
     {
       "epoch": 0.5354330708661418,
-      "grad_norm": 0.4064293156979199,
-      "learning_rate": 3.680688143275786e-05,
-      "loss": 0.931,
       "step": 102
     },
     {
       "epoch": 0.5406824146981627,
-      "grad_norm": 0.4463450853160405,
-      "learning_rate": 3.670599417496931e-05,
-      "loss": 0.9084,
       "step": 103
     },
     {
       "epoch": 0.5459317585301837,
-      "grad_norm": 0.4542877579158036,
-      "learning_rate": 3.6603680616311013e-05,
-      "loss": 0.9561,
       "step": 104
     },
     {
       "epoch": 0.5511811023622047,
-      "grad_norm": 0.4606576229715047,
-      "learning_rate": 3.6499949491966046e-05,
-      "loss": 0.9424,
       "step": 105
     },
     {
       "epoch": 0.5564304461942258,
-      "grad_norm": 1.6662857295077933,
-      "learning_rate": 3.639480965814443e-05,
-      "loss": 1.0371,
       "step": 106
     },
     {
       "epoch": 0.5616797900262467,
-      "grad_norm": 0.42684188670392853,
-      "learning_rate": 3.628827009132697e-05,
-      "loss": 0.9635,
       "step": 107
     },
     {
       "epoch": 0.5669291338582677,
-      "grad_norm": 1.2208350090054685,
-      "learning_rate": 3.6180339887498953e-05,
-      "loss": 0.9917,
       "step": 108
     },
     {
       "epoch": 0.5721784776902887,
-      "grad_norm": 0.4294502318914682,
-      "learning_rate": 3.6071028261373474e-05,
-      "loss": 0.9446,
       "step": 109
     },
     {
       "epoch": 0.5774278215223098,
-      "grad_norm": 0.3937562720593612,
-      "learning_rate": 3.5960344545604796e-05,
-      "loss": 0.9278,
       "step": 110
     },
     {
       "epoch": 0.5826771653543307,
-      "grad_norm": 1.4854854417438403,
-      "learning_rate": 3.584829818999148e-05,
-      "loss": 1.0161,
       "step": 111
     },
     {
       "epoch": 0.5879265091863517,
-      "grad_norm": 0.4240627994414154,
-      "learning_rate": 3.573489876066967e-05,
-      "loss": 0.9483,
       "step": 112
     },
     {
       "epoch": 0.5931758530183727,
-      "grad_norm": 0.3995864923040328,
-      "learning_rate": 3.5620155939296314e-05,
-      "loss": 0.9426,
       "step": 113
     },
     {
       "epoch": 0.5984251968503937,
-      "grad_norm": 0.4085167442197417,
-      "learning_rate": 3.55040795222226e-05,
-      "loss": 0.9189,
       "step": 114
     },
     {
       "epoch": 0.6036745406824147,
-      "grad_norm": 0.411605976954782,
-      "learning_rate": 3.538667941965758e-05,
-      "loss": 0.9406,
       "step": 115
     },
     {
       "epoch": 0.6089238845144357,
-      "grad_norm": 0.4510885035850897,
-      "learning_rate": 3.526796565482206e-05,
-      "loss": 0.9609,
       "step": 116
     },
     {
       "epoch": 0.6141732283464567,
-      "grad_norm": 0.39711542861711363,
-      "learning_rate": 3.514794836309286e-05,
-      "loss": 0.9353,
       "step": 117
     },
     {
       "epoch": 0.6194225721784777,
-      "grad_norm": 0.3860750426711258,
-      "learning_rate": 3.502663779113747e-05,
-      "loss": 0.9168,
       "step": 118
     },
     {
       "epoch": 0.6246719160104987,
-      "grad_norm": 0.4324143866853257,
-      "learning_rate": 3.490404429603925e-05,
-      "loss": 0.9412,
       "step": 119
     },
     {
       "epoch": 0.6299212598425197,
-      "grad_norm": 0.42486288700695524,
-      "learning_rate": 3.478017834441319e-05,
-      "loss": 0.9967,
       "step": 120
     },
     {
       "epoch": 0.6351706036745407,
-      "grad_norm": 0.42059534343716903,
-      "learning_rate": 3.4655050511512236e-05,
-      "loss": 0.9042,
       "step": 121
     },
     {
       "epoch": 0.6404199475065617,
-      "grad_norm": 0.375540386715667,
-      "learning_rate": 3.452867148032449e-05,
-      "loss": 0.9261,
       "step": 122
     },
     {
       "epoch": 0.6456692913385826,
-      "grad_norm": 0.38698966212541075,
-      "learning_rate": 3.44010520406611e-05,
-      "loss": 0.9252,
       "step": 123
     },
     {
       "epoch": 0.6509186351706037,
-      "grad_norm": 0.41709615104288367,
-      "learning_rate": 3.427220308823505e-05,
-      "loss": 0.9253,
       "step": 124
     },
     {
       "epoch": 0.6561679790026247,
-      "grad_norm": 0.4293707133542124,
-      "learning_rate": 3.4142135623730954e-05,
-      "loss": 0.9545,
       "step": 125
     },
     {
       "epoch": 0.6614173228346457,
-      "grad_norm": 0.40563024635145306,
-      "learning_rate": 3.401086075186582e-05,
-      "loss": 0.9424,
       "step": 126
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 0.47226124502094396,
-      "learning_rate": 3.3878389680440995e-05,
-      "loss": 0.9408,
       "step": 127
     },
     {
       "epoch": 0.6719160104986877,
-      "grad_norm": 0.3921360030995963,
-      "learning_rate": 3.374473371938526e-05,
-      "loss": 0.9309,
       "step": 128
     },
     {
       "epoch": 0.6771653543307087,
-      "grad_norm": 0.4188603496902975,
-      "learning_rate": 3.3609904279789235e-05,
-      "loss": 0.9625,
       "step": 129
     },
     {
       "epoch": 0.6824146981627297,
-      "grad_norm": 0.40729320283126413,
-      "learning_rate": 3.347391287293115e-05,
-      "loss": 0.9222,
       "step": 130
     },
     {
       "epoch": 0.6876640419947506,
-      "grad_norm": 0.43355828675253894,
-      "learning_rate": 3.333677110929403e-05,
-      "loss": 0.9245,
       "step": 131
     },
     {
       "epoch": 0.6929133858267716,
-      "grad_norm": 0.40875412645403303,
-      "learning_rate": 3.319849069757446e-05,
-      "loss": 0.9416,
       "step": 132
     },
     {
       "epoch": 0.6981627296587927,
-      "grad_norm": 0.4184583102080097,
-      "learning_rate": 3.305908344368289e-05,
-      "loss": 0.9575,
       "step": 133
     },
     {
       "epoch": 0.7034120734908137,
-      "grad_norm": 0.37949729176161695,
-      "learning_rate": 3.291856124973575e-05,
-      "loss": 0.9283,
       "step": 134
     },
     {
       "epoch": 0.7086614173228346,
-      "grad_norm": 0.4359197990076154,
-      "learning_rate": 3.277693611303922e-05,
-      "loss": 0.9591,
       "step": 135
     },
     {
       "epoch": 0.7139107611548556,
-      "grad_norm": 0.4127988509227564,
-      "learning_rate": 3.263422012506502e-05,
-      "loss": 0.9507,
       "step": 136
     },
     {
       "epoch": 0.7191601049868767,
-      "grad_norm": 0.4119681718108907,
-      "learning_rate": 3.249042547041799e-05,
-      "loss": 0.9252,
       "step": 137
     },
     {
       "epoch": 0.7244094488188977,
-      "grad_norm": 0.4155554867266832,
-      "learning_rate": 3.234556442579586e-05,
-      "loss": 0.9263,
       "step": 138
     },
     {
       "epoch": 0.7296587926509186,
-      "grad_norm": 0.37277040517135684,
-      "learning_rate": 3.219964935894114e-05,
-      "loss": 0.9544,
       "step": 139
     },
     {
       "epoch": 0.7349081364829396,
-      "grad_norm": 0.41745861140292206,
-      "learning_rate": 3.205269272758513e-05,
-      "loss": 0.9213,
       "step": 140
     },
     {
       "epoch": 0.7401574803149606,
-      "grad_norm": 0.41788351218514774,
-      "learning_rate": 3.190470707838438e-05,
-      "loss": 0.9429,
       "step": 141
     },
     {
       "epoch": 0.7454068241469817,
-      "grad_norm": 0.3994620013935183,
-      "learning_rate": 3.1755705045849465e-05,
-      "loss": 0.9065,
       "step": 142
     },
     {
       "epoch": 0.7506561679790026,
-      "grad_norm": 0.4006844018528632,
-      "learning_rate": 3.160569935126632e-05,
-      "loss": 0.9064,
       "step": 143
     },
     {
       "epoch": 0.7559055118110236,
-      "grad_norm": 0.44223134289541643,
-      "learning_rate": 3.145470280161011e-05,
-      "loss": 0.9247,
       "step": 144
     },
     {
       "epoch": 0.7611548556430446,
-      "grad_norm": 0.41494829719611687,
-      "learning_rate": 3.130272828845184e-05,
-      "loss": 0.9126,
       "step": 145
     },
     {
       "epoch": 0.7664041994750657,
-      "grad_norm": 0.38947944768031434,
-      "learning_rate": 3.114978878685771e-05,
-      "loss": 0.8928,
       "step": 146
     },
     {
       "epoch": 0.7716535433070866,
-      "grad_norm": 0.3945361927140775,
-      "learning_rate": 3.0995897354281347e-05,
-      "loss": 0.889,
       "step": 147
     },
     {
       "epoch": 0.7769028871391076,
-      "grad_norm": 0.39978716157020916,
-      "learning_rate": 3.084106712944899e-05,
-      "loss": 0.9227,
       "step": 148
     },
     {
       "epoch": 0.7821522309711286,
-      "grad_norm": 0.39603745657551037,
-      "learning_rate": 3.068531133123777e-05,
-      "loss": 0.8969,
       "step": 149
     },
     {
       "epoch": 0.7874015748031497,
-      "grad_norm": 1.3504046960889928,
-      "learning_rate": 3.052864325754712e-05,
-      "loss": 1.0631,
       "step": 150
     },
     {
       "epoch": 0.7926509186351706,
-      "grad_norm": 0.4310383398496922,
-      "learning_rate": 3.0371076284163442e-05,
-      "loss": 0.9262,
       "step": 151
     },
     {
       "epoch": 0.7979002624671916,
-      "grad_norm": 0.41699772424137066,
-      "learning_rate": 3.021262386361814e-05,
-      "loss": 0.9352,
       "step": 152
     },
     {
       "epoch": 0.8031496062992126,
-      "grad_norm": 0.4056852584293386,
-      "learning_rate": 3.0053299524039077e-05,
-      "loss": 0.8957,
       "step": 153
     },
     {
       "epoch": 0.8083989501312336,
-      "grad_norm": 0.4308645558537417,
-      "learning_rate": 2.9893116867995583e-05,
-      "loss": 0.9137,
       "step": 154
     },
     {
       "epoch": 0.8136482939632546,
-      "grad_norm": 0.39136699559712107,
-      "learning_rate": 2.9732089571337126e-05,
-      "loss": 0.9392,
       "step": 155
     },
     {
       "epoch": 0.8188976377952756,
-      "grad_norm": 0.39692286867805615,
-      "learning_rate": 2.9570231382025732e-05,
-      "loss": 0.9319,
       "step": 156
     },
     {
       "epoch": 0.8241469816272966,
-      "grad_norm": 0.389760753952324,
-      "learning_rate": 2.9407556118962192e-05,
-      "loss": 0.9328,
       "step": 157
     },
     {
       "epoch": 0.8293963254593176,
-      "grad_norm": 0.40644738344754366,
-      "learning_rate": 2.924407767080627e-05,
-      "loss": 0.9511,
       "step": 158
     },
     {
       "epoch": 0.8346456692913385,
-      "grad_norm": 0.4235598803780184,
-      "learning_rate": 2.9079809994790937e-05,
-      "loss": 0.9443,
       "step": 159
     },
     {
       "epoch": 0.8398950131233596,
-      "grad_norm": 0.39469735698768543,
-      "learning_rate": 2.891476711553077e-05,
-      "loss": 0.9353,
       "step": 160
     },
     {
       "epoch": 0.8451443569553806,
-      "grad_norm": 0.4231486830962651,
-      "learning_rate": 2.8748963123824532e-05,
-      "loss": 0.9598,
       "step": 161
     },
     {
       "epoch": 0.8503937007874016,
-      "grad_norm": 0.4016499332546737,
-      "learning_rate": 2.858241217545218e-05,
-      "loss": 0.9182,
       "step": 162
     },
     {
       "epoch": 0.8556430446194225,
-      "grad_norm": 0.7416569697844047,
-      "learning_rate": 2.8415128489966308e-05,
-      "loss": 1.017,
       "step": 163
     },
     {
       "epoch": 0.8608923884514436,
-      "grad_norm": 0.4049886957012087,
-      "learning_rate": 2.8247126349478073e-05,
-      "loss": 0.9377,
       "step": 164
     },
     {
       "epoch": 0.8661417322834646,
-      "grad_norm": 0.4240641122781046,
-      "learning_rate": 2.80784200974379e-05,
-      "loss": 0.936,
       "step": 165
     },
     {
       "epoch": 0.8713910761154856,
-      "grad_norm": 0.4010428790320475,
-      "learning_rate": 2.790902413741085e-05,
-      "loss": 0.9076,
       "step": 166
     },
     {
       "epoch": 0.8766404199475065,
-      "grad_norm": 0.40515062001849617,
-      "learning_rate": 2.773895293184691e-05,
-      "loss": 0.9144,
       "step": 167
     },
     {
       "epoch": 0.8818897637795275,
-      "grad_norm": 0.4171752905975984,
-      "learning_rate": 2.756822100084621e-05,
-      "loss": 0.9302,
       "step": 168
     },
     {
       "epoch": 0.8871391076115486,
-      "grad_norm": 0.4018514009140958,
-      "learning_rate": 2.7396842920919384e-05,
-      "loss": 0.9208,
       "step": 169
     },
     {
       "epoch": 0.8923884514435696,
-      "grad_norm": 0.39277733117068253,
-      "learning_rate": 2.7224833323743064e-05,
-      "loss": 0.9116,
       "step": 170
     },
     {
       "epoch": 0.8976377952755905,
-      "grad_norm": 0.6692602521355003,
-      "learning_rate": 2.7052206894910653e-05,
-      "loss": 1.0122,
       "step": 171
     },
     {
       "epoch": 0.9028871391076115,
-      "grad_norm": 0.40843018046933677,
-      "learning_rate": 2.6878978372678567e-05,
-      "loss": 0.9014,
       "step": 172
     },
     {
       "epoch": 0.9081364829396326,
-      "grad_norm": 0.3862093081092539,
-      "learning_rate": 2.670516254670788e-05,
-      "loss": 0.9367,
       "step": 173
     },
     {
       "epoch": 0.9133858267716536,
-      "grad_norm": 0.39106222738031376,
-      "learning_rate": 2.6530774256801666e-05,
-      "loss": 0.9253,
       "step": 174
     },
     {
       "epoch": 0.9186351706036745,
-      "grad_norm": 0.409656789286683,
-      "learning_rate": 2.6355828391638036e-05,
-      "loss": 0.9259,
       "step": 175
     },
     {
       "epoch": 0.9238845144356955,
-      "grad_norm": 0.41048542482358136,
-      "learning_rate": 2.618033988749895e-05,
-      "loss": 0.9151,
       "step": 176
     },
     {
       "epoch": 0.9291338582677166,
-      "grad_norm": 0.39649048041899354,
-      "learning_rate": 2.6004323726995057e-05,
-      "loss": 0.9197,
       "step": 177
     },
     {
       "epoch": 0.9343832020997376,
-      "grad_norm": 0.4041163682720282,
-      "learning_rate": 2.5827794937786497e-05,
-      "loss": 0.9184,
       "step": 178
     },
     {
       "epoch": 0.9396325459317585,
-      "grad_norm": 0.40988870079100986,
-      "learning_rate": 2.5650768591299905e-05,
-      "loss": 0.9376,
       "step": 179
     },
     {
       "epoch": 0.9448818897637795,
-      "grad_norm": 0.3918596025187431,
-      "learning_rate": 2.5473259801441663e-05,
-      "loss": 0.9102,
       "step": 180
     },
     {
       "epoch": 0.9501312335958005,
-      "grad_norm": 0.39082215171197704,
-      "learning_rate": 2.5295283723307517e-05,
-      "loss": 0.9025,
       "step": 181
     },
     {
       "epoch": 0.9553805774278216,
-      "grad_norm": 0.38010414440929924,
-      "learning_rate": 2.5116855551888715e-05,
-      "loss": 0.9354,
       "step": 182
     },
     {
       "epoch": 0.9606299212598425,
-      "grad_norm": 0.4141554447250008,
-      "learning_rate": 2.4937990520774664e-05,
-      "loss": 0.8782,
       "step": 183
     },
     {
       "epoch": 0.9658792650918635,
-      "grad_norm": 0.38201600299774646,
-      "learning_rate": 2.4758703900852376e-05,
-      "loss": 0.9008,
       "step": 184
     },
     {
       "epoch": 0.9711286089238845,
-      "grad_norm": 0.42204019171609175,
-      "learning_rate": 2.4579010999002683e-05,
-      "loss": 0.8856,
       "step": 185
     },
     {
       "epoch": 0.9763779527559056,
-      "grad_norm": 0.4270135581368761,
-      "learning_rate": 2.4398927156793376e-05,
-      "loss": 0.9205,
       "step": 186
     },
     {
       "epoch": 0.9816272965879265,
-      "grad_norm": 0.4150364763728507,
-      "learning_rate": 2.42184677491694e-05,
-      "loss": 0.8947,
       "step": 187
     },
     {
       "epoch": 0.9868766404199475,
-      "grad_norm": 0.51571681852072,
-      "learning_rate": 2.4037648183140205e-05,
-      "loss": 0.9929,
       "step": 188
     },
     {
       "epoch": 0.9921259842519685,
-      "grad_norm": 0.38917079851953085,
-      "learning_rate": 2.385648389646434e-05,
-      "loss": 0.9121,
       "step": 189
     },
     {
       "epoch": 0.9973753280839895,
-      "grad_norm": 0.45530540311855816,
-      "learning_rate": 2.367499035633141e-05,
-      "loss": 0.9113,
       "step": 190
     }
   ],

   "log_history": [
     {
       "epoch": 0.005249343832020997,
+      "grad_norm": 1.1348930782232016,
+      "learning_rate": 1.5000000000000002e-07,
       "loss": 1.1087,
       "step": 1
     },
     {
       "epoch": 0.010498687664041995,
+      "grad_norm": 1.123696373079589,
+      "learning_rate": 3.0000000000000004e-07,
       "loss": 1.1356,
       "step": 2
     },
     {
       "epoch": 0.015748031496062992,
+      "grad_norm": 1.0989081863562118,
+      "learning_rate": 4.5e-07,
+      "loss": 1.1158,
       "step": 3
     },
     {
       "epoch": 0.02099737532808399,
+      "grad_norm": 1.0628548113414964,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 1.0986,
       "step": 4
     },
     {
       "epoch": 0.026246719160104987,
+      "grad_norm": 1.0629069543612368,
+      "learning_rate": 7.5e-07,
+      "loss": 1.0727,
       "step": 5
     },
     {
       "epoch": 0.031496062992125984,
+      "grad_norm": 1.1219311917213644,
+      "learning_rate": 9e-07,
+      "loss": 1.1513,
       "step": 6
     },
     {
       "epoch": 0.03674540682414698,
+      "grad_norm": 1.068318638334139,
+      "learning_rate": 1.05e-06,
+      "loss": 1.0978,
       "step": 7
     },
     {
       "epoch": 0.04199475065616798,
+      "grad_norm": 1.0335025624008565,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 1.0932,
       "step": 8
     },
     {
       "epoch": 0.047244094488188976,
+      "grad_norm": 0.9514112971268772,
+      "learning_rate": 1.35e-06,
+      "loss": 1.1046,
       "step": 9
     },
     {
       "epoch": 0.05249343832020997,
+      "grad_norm": 0.8944230714776324,
+      "learning_rate": 1.5e-06,
+      "loss": 1.0638,
       "step": 10
     },
     {
       "epoch": 0.05774278215223097,
+      "grad_norm": 0.8720343077794245,
+      "learning_rate": 1.65e-06,
+      "loss": 1.1132,
       "step": 11
     },
     {
       "epoch": 0.06299212598425197,
+      "grad_norm": 0.7519518665820406,
+      "learning_rate": 1.8e-06,
+      "loss": 1.0788,
       "step": 12
     },
     {
       "epoch": 0.06824146981627296,
+      "grad_norm": 0.7768466543241798,
+      "learning_rate": 1.95e-06,
+      "loss": 1.0795,
       "step": 13
     },
     {
       "epoch": 0.07349081364829396,
+      "grad_norm": 0.7109922479048013,
+      "learning_rate": 2.1e-06,
+      "loss": 1.1012,
       "step": 14
     },
     {
       "epoch": 0.07874015748031496,
+      "grad_norm": 0.6312078880187205,
+      "learning_rate": 2.25e-06,
+      "loss": 1.0851,
       "step": 15
     },
     {
       "epoch": 0.08398950131233596,
+      "grad_norm": 0.5514473048370377,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.1041,
       "step": 16
     },
     {
       "epoch": 0.08923884514435695,
+      "grad_norm": 0.6271281070432462,
+      "learning_rate": 2.55e-06,
+      "loss": 1.0855,
       "step": 17
     },
     {
       "epoch": 0.09448818897637795,
+      "grad_norm": 0.7059888078645049,
+      "learning_rate": 2.7e-06,
+      "loss": 1.0473,
       "step": 18
     },
     {
       "epoch": 0.09973753280839895,
+      "grad_norm": 0.7226157330393405,
+      "learning_rate": 2.85e-06,
+      "loss": 1.0665,
       "step": 19
     },
     {
       "epoch": 0.10498687664041995,
+      "grad_norm": 0.7244742832208652,
+      "learning_rate": 3e-06,
+      "loss": 1.0604,
       "step": 20
     },
     {
       "epoch": 0.11023622047244094,
+      "grad_norm": 0.7088251146482789,
+      "learning_rate": 3.1500000000000003e-06,
+      "loss": 1.0516,
       "step": 21
     },
     {
       "epoch": 0.11548556430446194,
+      "grad_norm": 0.5987242362229293,
+      "learning_rate": 3.3e-06,
+      "loss": 1.084,
       "step": 22
     },
     {
       "epoch": 0.12073490813648294,
+      "grad_norm": 0.5730637810768702,
+      "learning_rate": 3.45e-06,
+      "loss": 1.0621,
       "step": 23
     },
     {
       "epoch": 0.12598425196850394,
+      "grad_norm": 0.5894968443138215,
+      "learning_rate": 3.6e-06,
+      "loss": 1.0797,
       "step": 24
     },
     {
       "epoch": 0.13123359580052493,
+      "grad_norm": 0.5798124303184627,
+      "learning_rate": 3.75e-06,
+      "loss": 1.0035,
       "step": 25
     },
     {
       "epoch": 0.13648293963254593,
+      "grad_norm": 0.643205751513686,
+      "learning_rate": 3.9e-06,
+      "loss": 1.0455,
       "step": 26
     },
     {
       "epoch": 0.14173228346456693,
+      "grad_norm": 0.5621970774702022,
+      "learning_rate": 4.05e-06,
+      "loss": 1.0576,
       "step": 27
     },
     {
       "epoch": 0.14698162729658792,
+      "grad_norm": 0.5506084571895594,
+      "learning_rate": 4.2e-06,
+      "loss": 1.0298,
       "step": 28
     },
     {
       "epoch": 0.15223097112860892,
+      "grad_norm": 0.48741149421912777,
+      "learning_rate": 4.35e-06,
+      "loss": 1.0018,
       "step": 29
     },
     {
       "epoch": 0.15748031496062992,
+      "grad_norm": 0.46403007703544275,
+      "learning_rate": 4.5e-06,
+      "loss": 0.9872,
       "step": 30
     },
     {
       "epoch": 0.16272965879265092,
+      "grad_norm": 0.4754381818573106,
+      "learning_rate": 4.65e-06,
+      "loss": 1.0271,
       "step": 31
     },
     {
       "epoch": 0.1679790026246719,
+      "grad_norm": 0.9362850890979981,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.0437,
       "step": 32
     },
     {
       "epoch": 0.1732283464566929,
+      "grad_norm": 0.47391181595772164,
+      "learning_rate": 4.95e-06,
+      "loss": 1.0437,
       "step": 33
     },
     {
       "epoch": 0.1784776902887139,
+      "grad_norm": 0.5276920454851337,
+      "learning_rate": 5.1e-06,
+      "loss": 1.0557,
       "step": 34
     },
     {
       "epoch": 0.1837270341207349,
+      "grad_norm": 0.4616075133913133,
+      "learning_rate": 5.2500000000000006e-06,
+      "loss": 1.0465,
       "step": 35
     },
     {
       "epoch": 0.1889763779527559,
+      "grad_norm": 0.4555174555636226,
+      "learning_rate": 5.4e-06,
+      "loss": 1.0588,
       "step": 36
     },
     {
       "epoch": 0.1942257217847769,
+      "grad_norm": 0.5071864534648831,
+      "learning_rate": 5.55e-06,
+      "loss": 1.044,
       "step": 37
     },
     {
       "epoch": 0.1994750656167979,
+      "grad_norm": 0.4851367263882934,
+      "learning_rate": 5.7e-06,
+      "loss": 1.0464,
       "step": 38
     },
     {
       "epoch": 0.2047244094488189,
+      "grad_norm": 0.44188022228811896,
+      "learning_rate": 5.85e-06,
+      "loss": 1.0182,
       "step": 39
     },
     {
       "epoch": 0.2099737532808399,
+      "grad_norm": 0.43420740120454643,
+      "learning_rate": 6e-06,
+      "loss": 1.0188,
       "step": 40
     },
     {
       "epoch": 0.2152230971128609,
+      "grad_norm": 0.4291543441241407,
+      "learning_rate": 5.9998719351101036e-06,
+      "loss": 1.0245,
       "step": 41
     },
     {
       "epoch": 0.2204724409448819,
+      "grad_norm": 0.43326370236005163,
+      "learning_rate": 5.999487751374158e-06,
+      "loss": 1.0238,
       "step": 42
     },
     {
       "epoch": 0.22572178477690288,
+      "grad_norm": 0.427571644972227,
+      "learning_rate": 5.998847481592462e-06,
+      "loss": 1.0311,
       "step": 43
     },
     {
       "epoch": 0.23097112860892388,
+      "grad_norm": 0.4215063088273006,
+      "learning_rate": 5.997951180429069e-06,
+      "loss": 0.9925,
       "step": 44
     },
     {
       "epoch": 0.23622047244094488,
+      "grad_norm": 0.4206536914503675,
+      "learning_rate": 5.996798924407118e-06,
+      "loss": 1.003,
       "step": 45
     },
     {
       "epoch": 0.24146981627296588,
+      "grad_norm": 0.40910969064965136,
+      "learning_rate": 5.995390811902302e-06,
+      "loss": 0.9949,
       "step": 46
     },
     {
       "epoch": 0.24671916010498687,
+      "grad_norm": 0.4165775049327623,
+      "learning_rate": 5.993726963134471e-06,
+      "loss": 0.9734,
       "step": 47
     },
     {
       "epoch": 0.25196850393700787,
+      "grad_norm": 0.3832235501001726,
+      "learning_rate": 5.9918075201573645e-06,
+      "loss": 0.9485,
       "step": 48
     },
     {
       "epoch": 0.2572178477690289,
+      "grad_norm": 0.37002495168808525,
+      "learning_rate": 5.9896326468464835e-06,
+      "loss": 0.9358,
       "step": 49
     },
     {
       "epoch": 0.26246719160104987,
+      "grad_norm": 0.44836853406053057,
+      "learning_rate": 5.987202528885104e-06,
+      "loss": 0.9982,
       "step": 50
     },
     {
       "epoch": 0.2677165354330709,
+      "grad_norm": 0.4080608606117312,
+      "learning_rate": 5.984517373748417e-06,
+      "loss": 1.0129,
       "step": 51
     },
     {
       "epoch": 0.27296587926509186,
+      "grad_norm": 0.4001550595702573,
+      "learning_rate": 5.981577410685822e-06,
+      "loss": 0.9788,
       "step": 52
     },
     {
       "epoch": 0.2782152230971129,
+      "grad_norm": 0.41021488877460305,
+      "learning_rate": 5.978382890701347e-06,
+      "loss": 1.0262,
       "step": 53
     },
     {
       "epoch": 0.28346456692913385,
+      "grad_norm": 0.39997016380492506,
+      "learning_rate": 5.9749340865322284e-06,
+      "loss": 1.0275,
       "step": 54
     },
     {
       "epoch": 0.2887139107611549,
+      "grad_norm": 0.3839823787027912,
+      "learning_rate": 5.971231292625615e-06,
+      "loss": 0.9374,
       "step": 55
     },
     {
       "epoch": 0.29396325459317585,
+      "grad_norm": 0.4125068495663659,
+      "learning_rate": 5.967274825113438e-06,
+      "loss": 0.9954,
       "step": 56
     },
     {
       "epoch": 0.2992125984251969,
+      "grad_norm": 0.3908377197765856,
+      "learning_rate": 5.963065021785414e-06,
+      "loss": 0.9671,
       "step": 57
     },
     {
       "epoch": 0.30446194225721784,
+      "grad_norm": 0.3850488592862481,
+      "learning_rate": 5.958602242060207e-06,
+      "loss": 0.9657,
       "step": 58
     },
     {
       "epoch": 0.30971128608923887,
+      "grad_norm": 0.3877990366088493,
+      "learning_rate": 5.95388686695475e-06,
+      "loss": 0.9678,
       "step": 59
     },
     {
       "epoch": 0.31496062992125984,
+      "grad_norm": 0.40470471194287355,
+      "learning_rate": 5.948919299051706e-06,
+      "loss": 1.0149,
       "step": 60
     },
     {
       "epoch": 0.32020997375328086,
+      "grad_norm": 0.42889495063392963,
+      "learning_rate": 5.943699962465096e-06,
+      "loss": 1.033,
       "step": 61
     },
     {
       "epoch": 0.32545931758530183,
+      "grad_norm": 0.39164358737100274,
+      "learning_rate": 5.9382293028040985e-06,
+      "loss": 0.9761,
       "step": 62
     },
     {
       "epoch": 0.33070866141732286,
+      "grad_norm": 0.3869342590567232,
+      "learning_rate": 5.9325077871349975e-06,
+      "loss": 0.9982,
       "step": 63
     },
     {
       "epoch": 0.3359580052493438,
+      "grad_norm": 0.39264627926569035,
+      "learning_rate": 5.9265359039413105e-06,
+      "loss": 0.9667,
       "step": 64
     },
     {
       "epoch": 0.34120734908136485,
+      "grad_norm": 0.3887717698297268,
+      "learning_rate": 5.920314163082079e-06,
+      "loss": 0.9806,
       "step": 65
     },
     {
       "epoch": 0.3464566929133858,
+      "grad_norm": 0.40896336915084297,
+      "learning_rate": 5.913843095748342e-06,
+      "loss": 1.0135,
       "step": 66
     },
     {
       "epoch": 0.35170603674540685,
+      "grad_norm": 0.3610209560875707,
+      "learning_rate": 5.907123254417783e-06,
+      "loss": 0.956,
       "step": 67
     },
     {
       "epoch": 0.3569553805774278,
+      "grad_norm": 0.38154744815823505,
+      "learning_rate": 5.9001552128075625e-06,
+      "loss": 1.0045,
       "step": 68
     },
     {
       "epoch": 0.36220472440944884,
+      "grad_norm": 0.4094826396119445,
+      "learning_rate": 5.892939565825335e-06,
+      "loss": 1.0069,
       "step": 69
     },
     {
       "epoch": 0.3674540682414698,
+      "grad_norm": 0.39129138622932325,
+      "learning_rate": 5.885476929518457e-06,
+      "loss": 0.9525,
       "step": 70
     },
     {
       "epoch": 0.37270341207349084,
+      "grad_norm": 0.3712890701175899,
+      "learning_rate": 5.8777679410213956e-06,
+      "loss": 0.9792,
       "step": 71
     },
     {
       "epoch": 0.3779527559055118,
+      "grad_norm": 0.4086264062600148,
+      "learning_rate": 5.869813258501323e-06,
+      "loss": 0.9926,
       "step": 72
     },
     {
       "epoch": 0.38320209973753283,
+      "grad_norm": 0.368975878599487,
+      "learning_rate": 5.861613561101934e-06,
+      "loss": 0.9643,
       "step": 73
     },
     {
       "epoch": 0.3884514435695538,
+      "grad_norm": 0.36792811629461203,
+      "learning_rate": 5.853169548885461e-06,
+      "loss": 0.9867,
       "step": 74
     },
     {
       "epoch": 0.3937007874015748,
+      "grad_norm": 0.3566251893981936,
+      "learning_rate": 5.844481942772898e-06,
+      "loss": 1.0069,
       "step": 75
     },
     {
       "epoch": 0.3989501312335958,
+      "grad_norm": 0.4578529359685586,
+      "learning_rate": 5.835551484482459e-06,
+      "loss": 1.0173,
       "step": 76
     },
     {
       "epoch": 0.4041994750656168,
+      "grad_norm": 0.3935925285922137,
+      "learning_rate": 5.826378936466249e-06,
+      "loss": 0.9743,
       "step": 77
     },
     {
       "epoch": 0.4094488188976378,
+      "grad_norm": 0.4109939217838428,
+      "learning_rate": 5.81696508184517e-06,
+      "loss": 0.9866,
       "step": 78
     },
     {
       "epoch": 0.4146981627296588,
+      "grad_norm": 0.3839870332489822,
+      "learning_rate": 5.807310724342058e-06,
+      "loss": 0.9516,
       "step": 79
     },
     {
       "epoch": 0.4199475065616798,
+      "grad_norm": 0.3774576797883406,
+      "learning_rate": 5.797416688213067e-06,
+      "loss": 0.9895,
       "step": 80
     },
     {
       "epoch": 0.4251968503937008,
+      "grad_norm": 0.3817468964498129,
+      "learning_rate": 5.787283818177297e-06,
+      "loss": 0.9632,
       "step": 81
     },
     {
       "epoch": 0.4304461942257218,
+      "grad_norm": 0.60843002346461,
+      "learning_rate": 5.776912979344669e-06,
+      "loss": 1.0166,
       "step": 82
     },
     {
       "epoch": 0.4356955380577428,
+      "grad_norm": 0.3858713700245362,
+      "learning_rate": 5.766305057142073e-06,
+      "loss": 0.9976,
       "step": 83
     },
     {
       "epoch": 0.4409448818897638,
+      "grad_norm": 0.3724153436541016,
+      "learning_rate": 5.755460957237769e-06,
+      "loss": 0.9645,
       "step": 84
     },
     {
       "epoch": 0.4461942257217848,
+      "grad_norm": 0.38201105695018567,
+      "learning_rate": 5.744381605464064e-06,
+      "loss": 0.9899,
       "step": 85
     },
     {
       "epoch": 0.45144356955380577,
+      "grad_norm": 0.38383930861007165,
+      "learning_rate": 5.7330679477382655e-06,
+      "loss": 0.9919,
       "step": 86
     },
     {
       "epoch": 0.4566929133858268,
+      "grad_norm": 0.4078870418259581,
+      "learning_rate": 5.7215209499819296e-06,
+      "loss": 0.9797,
       "step": 87
     },
     {
       "epoch": 0.46194225721784776,
+      "grad_norm": 0.38463767466523974,
+      "learning_rate": 5.709741598038387e-06,
+      "loss": 0.9597,
       "step": 88
     },
     {
       "epoch": 0.4671916010498688,
+      "grad_norm": 0.36309855116472584,
+      "learning_rate": 5.697730897588577e-06,
+      "loss": 0.9737,
       "step": 89
     },
     {
       "epoch": 0.47244094488188976,
+      "grad_norm": 0.4106701446638758,
+      "learning_rate": 5.685489874065187e-06,
+      "loss": 0.9683,
       "step": 90
     },
     {
       "epoch": 0.4776902887139108,
+      "grad_norm": 0.37110409255145443,
+      "learning_rate": 5.673019572565103e-06,
+      "loss": 1.0418,
       "step": 91
     },
     {
       "epoch": 0.48293963254593175,
+      "grad_norm": 0.3558357783330656,
+      "learning_rate": 5.660321057760186e-06,
+      "loss": 1.0055,
       "step": 92
     },
     {
       "epoch": 0.4881889763779528,
+      "grad_norm": 0.40499489938404787,
+      "learning_rate": 5.6473954138063674e-06,
+      "loss": 1.0113,
       "step": 93
     },
     {
       "epoch": 0.49343832020997375,
+      "grad_norm": 0.39428526462199764,
+      "learning_rate": 5.634243744251094e-06,
+      "loss": 0.9875,
       "step": 94
     },
     {
       "epoch": 0.49868766404199477,
+      "grad_norm": 0.3711741011240413,
+      "learning_rate": 5.620867171939109e-06,
+      "loss": 0.9749,
       "step": 95
     },
     {
       "epoch": 0.5039370078740157,
+      "grad_norm": 0.3961340085644134,
+      "learning_rate": 5.607266838916585e-06,
+      "loss": 0.982,
       "step": 96
     },
     {
       "epoch": 0.5091863517060368,
+      "grad_norm": 0.3784646685814138,
+      "learning_rate": 5.593443906333624e-06,
+      "loss": 0.9957,
       "step": 97
     },
     {
       "epoch": 0.5144356955380578,
+      "grad_norm": 0.3750460397069026,
+      "learning_rate": 5.579399554345118e-06,
+      "loss": 0.9755,
       "step": 98
     },
     {
       "epoch": 0.5196850393700787,
+      "grad_norm": 0.3746718538274792,
+      "learning_rate": 5.565134982009994e-06,
+      "loss": 0.9736,
       "step": 99
     },
     {
       "epoch": 0.5249343832020997,
+      "grad_norm": 0.38418890409196027,
+      "learning_rate": 5.550651407188843e-06,
+      "loss": 0.9506,
       "step": 100
     },
     {
       "epoch": 0.5301837270341208,
+      "grad_norm": 0.422976375435725,
+      "learning_rate": 5.535950066439941e-06,
+      "loss": 1.0141,
       "step": 101
     },
     {
       "epoch": 0.5354330708661418,
+      "grad_norm": 0.38354451243133536,
+      "learning_rate": 5.521032214913679e-06,
+      "loss": 0.9618,
       "step": 102
     },
     {
       "epoch": 0.5406824146981627,
+      "grad_norm": 0.38257660011773076,
+      "learning_rate": 5.505899126245397e-06,
+      "loss": 0.939,
       "step": 103
     },
     {
       "epoch": 0.5459317585301837,
+      "grad_norm": 0.3768438915225408,
+      "learning_rate": 5.490552092446652e-06,
+      "loss": 0.9675,
       "step": 104
     },
     {
       "epoch": 0.5511811023622047,
+      "grad_norm": 0.3749655286727107,
+      "learning_rate": 5.474992423794907e-06,
+      "loss": 0.9592,
       "step": 105
     },
     {
       "epoch": 0.5564304461942258,
+      "grad_norm": 0.38461916993489687,
+      "learning_rate": 5.459221448721664e-06,
+      "loss": 0.9623,
       "step": 106
     },
     {
       "epoch": 0.5616797900262467,
+      "grad_norm": 0.35648642966931204,
+      "learning_rate": 5.443240513699045e-06,
+      "loss": 0.985,
       "step": 107
     },
     {
       "epoch": 0.5669291338582677,
+      "grad_norm": 0.4051560712719681,
+      "learning_rate": 5.427050983124842e-06,
+      "loss": 0.9407,
       "step": 108
     },
     {
       "epoch": 0.5721784776902887,
+      "grad_norm": 0.3769879713701903,
+      "learning_rate": 5.410654239206021e-06,
+      "loss": 0.968,
       "step": 109
     },
     {
       "epoch": 0.5774278215223098,
+      "grad_norm": 0.3746822083724367,
+      "learning_rate": 5.394051681840719e-06,
+      "loss": 0.9497,
       "step": 110
     },
     {
       "epoch": 0.5826771653543307,
+      "grad_norm": 0.3987231911136733,
+      "learning_rate": 5.3772447284987216e-06,
+      "loss": 0.961,
       "step": 111
     },
     {
       "epoch": 0.5879265091863517,
+      "grad_norm": 0.37848222525971176,
+      "learning_rate": 5.36023481410045e-06,
+      "loss": 0.9707,
       "step": 112
     },
     {
       "epoch": 0.5931758530183727,
+      "grad_norm": 0.3794904855253974,
+      "learning_rate": 5.343023390894446e-06,
+      "loss": 0.9714,
       "step": 113
     },
     {
       "epoch": 0.5984251968503937,
+      "grad_norm": 0.37452267525256994,
+      "learning_rate": 5.325611928333389e-06,
+      "loss": 0.9406,
       "step": 114
     },
     {
       "epoch": 0.6036745406824147,
+      "grad_norm": 0.39474437059829304,
+      "learning_rate": 5.308001912948637e-06,
+      "loss": 0.9626,
       "step": 115
     },
     {
       "epoch": 0.6089238845144357,
+      "grad_norm": 0.4023921986663554,
+      "learning_rate": 5.290194848223309e-06,
+      "loss": 0.9889,
       "step": 116
     },
     {
       "epoch": 0.6141732283464567,
+      "grad_norm": 0.39963771712171875,
+      "learning_rate": 5.272192254463929e-06,
+      "loss": 0.9639,
       "step": 117
     },
     {
       "epoch": 0.6194225721784777,
+      "grad_norm": 0.3893586064595733,
+      "learning_rate": 5.2539956686706205e-06,
+      "loss": 0.9469,
       "step": 118
     },
     {
       "epoch": 0.6246719160104987,
+      "grad_norm": 0.4651495625439333,
+      "learning_rate": 5.2356066444058875e-06,
+      "loss": 0.9658,
       "step": 119
     },
     {
       "epoch": 0.6299212598425197,
+      "grad_norm": 0.39599728107932586,
+      "learning_rate": 5.217026751661978e-06,
+      "loss": 1.0137,
       "step": 120
     },
     {
       "epoch": 0.6351706036745407,
+      "grad_norm": 0.406988761369817,
+      "learning_rate": 5.198257576726835e-06,
+      "loss": 0.9306,
       "step": 121
     },
     {
       "epoch": 0.6404199475065617,
+      "grad_norm": 0.3611939094322339,
+      "learning_rate": 5.179300722048673e-06,
+      "loss": 0.9462,
       "step": 122
     },
     {
       "epoch": 0.6456692913385826,
+      "grad_norm": 0.3809841775392484,
+      "learning_rate": 5.1601578060991645e-06,
+      "loss": 0.953,
       "step": 123
     },
     {
       "epoch": 0.6509186351706037,
+      "grad_norm": 0.46022843064705843,
+      "learning_rate": 5.1408304632352575e-06,
+      "loss": 0.9422,
       "step": 124
     },
     {
       "epoch": 0.6561679790026247,
+      "grad_norm": 0.3979704646560941,
+      "learning_rate": 5.1213203435596425e-06,
+      "loss": 0.9751,
       "step": 125
     },
     {
       "epoch": 0.6614173228346457,
+      "grad_norm": 0.39388496260457084,
+      "learning_rate": 5.101629112779873e-06,
+      "loss": 0.9722,
       "step": 126
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 0.3899148438115094,
+      "learning_rate": 5.08175845206615e-06,
+      "loss": 0.9652,
       "step": 127
     },
     {
       "epoch": 0.6719160104986877,
+      "grad_norm": 0.37391882787694275,
+      "learning_rate": 5.061710057907788e-06,
+      "loss": 0.9621,
       "step": 128
     },
     {
       "epoch": 0.6771653543307087,
+      "grad_norm": 0.39500875865406576,
+      "learning_rate": 5.041485641968385e-06,
+      "loss": 0.9899,
       "step": 129
     },
     {
       "epoch": 0.6824146981627297,
+      "grad_norm": 0.37540362490802714,
+      "learning_rate": 5.021086930939672e-06,
+      "loss": 0.9472,
       "step": 130
     },
     {
       "epoch": 0.6876640419947506,
+      "grad_norm": 0.3940788728379769,
+      "learning_rate": 5.000515666394105e-06,
+      "loss": 0.9479,
       "step": 131
     },
     {
       "epoch": 0.6929133858267716,
+      "grad_norm": 0.3919125365655477,
+      "learning_rate": 4.979773604636169e-06,
+      "loss": 0.9624,
       "step": 132
     },
     {
       "epoch": 0.6981627296587927,
+      "grad_norm": 0.3804552314744538,
+      "learning_rate": 4.958862516552433e-06,
+      "loss": 0.9806,
       "step": 133
     },
     {
       "epoch": 0.7034120734908137,
+      "grad_norm": 0.3674434286105591,
+      "learning_rate": 4.937784187460362e-06,
+      "loss": 0.9511,
       "step": 134
     },
     {
       "epoch": 0.7086614173228346,
+      "grad_norm": 0.4109777494732396,
+      "learning_rate": 4.916540416955884e-06,
+      "loss": 0.9943,
       "step": 135
     },
     {
       "epoch": 0.7139107611548556,
+      "grad_norm": 0.40231567788837497,
+      "learning_rate": 4.895133018759753e-06,
+      "loss": 0.9798,
       "step": 136
     },
     {
       "epoch": 0.7191601049868767,
+      "grad_norm": 0.3721834479908975,
+      "learning_rate": 4.873563820562698e-06,
+      "loss": 0.9504,
       "step": 137
     },
     {
       "epoch": 0.7244094488188977,
+      "grad_norm": 0.36127526200518306,
+      "learning_rate": 4.851834663869379e-06,
+      "loss": 0.9517,
       "step": 138
     },
     {
       "epoch": 0.7296587926509186,
+      "grad_norm": 0.3513827139135777,
+      "learning_rate": 4.82994740384117e-06,
+      "loss": 0.9835,
       "step": 139
     },
     {
       "epoch": 0.7349081364829396,
+      "grad_norm": 0.36760728272750326,
+      "learning_rate": 4.80790390913777e-06,
+      "loss": 0.9503,
       "step": 140
     },
     {
       "epoch": 0.7401574803149606,
+      "grad_norm": 0.36275280721999276,
+      "learning_rate": 4.785706061757656e-06,
+      "loss": 0.9743,
       "step": 141
     },
     {
       "epoch": 0.7454068241469817,
+      "grad_norm": 0.3733380512329921,
+      "learning_rate": 4.763355756877419e-06,
+      "loss": 0.9384,
       "step": 142
     },
     {
       "epoch": 0.7506561679790026,
+      "grad_norm": 0.3801691027568987,
+      "learning_rate": 4.740854902689947e-06,
+      "loss": 0.9296,
       "step": 143
     },
     {
       "epoch": 0.7559055118110236,
+      "grad_norm": 0.39053906811778566,
+      "learning_rate": 4.718205420241516e-06,
+      "loss": 0.9488,
       "step": 144
     },
     {
       "epoch": 0.7611548556430446,
+      "grad_norm": 0.3923993707534958,
+      "learning_rate": 4.695409243267776e-06,
+      "loss": 0.9383,
       "step": 145
     },
     {
       "epoch": 0.7664041994750657,
+      "grad_norm": 0.364792552828712,
+      "learning_rate": 4.672468318028657e-06,
+      "loss": 0.9193,
       "step": 146
     },
     {
       "epoch": 0.7716535433070866,
+      "grad_norm": 0.35070825551906964,
+      "learning_rate": 4.649384603142202e-06,
+      "loss": 0.9164,
       "step": 147
     },
     {
       "epoch": 0.7769028871391076,
+      "grad_norm": 0.37099778180795795,
+      "learning_rate": 4.626160069417348e-06,
+      "loss": 0.9425,
       "step": 148
     },
     {
       "epoch": 0.7821522309711286,
+      "grad_norm": 0.36954118968922517,
+      "learning_rate": 4.602796699685665e-06,
+      "loss": 0.9265,
       "step": 149
     },
     {
       "epoch": 0.7874015748031497,
+      "grad_norm": 0.4076466706382121,
+      "learning_rate": 4.579296488632067e-06,
+      "loss": 1.0133,
       "step": 150
     },
     {
       "epoch": 0.7926509186351706,
+      "grad_norm": 0.4015334925568992,
+      "learning_rate": 4.5556614426245165e-06,
+      "loss": 0.9486,
       "step": 151
     },
     {
       "epoch": 0.7979002624671916,
+      "grad_norm": 0.39628644809730684,
+      "learning_rate": 4.5318935795427206e-06,
+      "loss": 0.9605,
       "step": 152
     },
     {
       "epoch": 0.8031496062992126,
+      "grad_norm": 0.36792154742540445,
+      "learning_rate": 4.507994928605862e-06,
+      "loss": 0.9287,
       "step": 153
     },
     {
       "epoch": 0.8083989501312336,
+      "grad_norm": 0.3887839296706913,
+      "learning_rate": 4.483967530199337e-06,
+      "loss": 0.951,
       "step": 154
     },
     {
       "epoch": 0.8136482939632546,
+      "grad_norm": 0.36716852968968616,
+      "learning_rate": 4.459813435700569e-06,
+      "loss": 0.9702,
       "step": 155
     },
     {
       "epoch": 0.8188976377952756,
+      "grad_norm": 0.3533521076976156,
+      "learning_rate": 4.4355347073038595e-06,
+      "loss": 0.9612,
       "step": 156
     },
     {
       "epoch": 0.8241469816272966,
+      "grad_norm": 0.3499649930079787,
+      "learning_rate": 4.411133417844328e-06,
+      "loss": 0.9599,
       "step": 157
     },
     {
       "epoch": 0.8293963254593176,
+      "grad_norm": 0.38582146832565867,
+      "learning_rate": 4.38661165062094e-06,
+      "loss": 0.9894,
       "step": 158
     },
     {
       "epoch": 0.8346456692913385,
+      "grad_norm": 0.39040836855795735,
+      "learning_rate": 4.36197149921864e-06,
+      "loss": 0.9747,
       "step": 159
     },
     {
       "epoch": 0.8398950131233596,
+      "grad_norm": 0.3798580758700489,
+      "learning_rate": 4.3372150673296155e-06,
+      "loss": 0.9654,
       "step": 160
     },
     {
       "epoch": 0.8451443569553806,
+      "grad_norm": 0.3764456540061034,
+      "learning_rate": 4.3123444685736795e-06,
+      "loss": 0.9823,
       "step": 161
     },
     {
       "epoch": 0.8503937007874016,
+      "grad_norm": 0.3771195417830333,
+      "learning_rate": 4.287361826317827e-06,
+      "loss": 0.9456,
       "step": 162
     },
     {
       "epoch": 0.8556430446194225,
+      "grad_norm": 0.37650137746409273,
+      "learning_rate": 4.262269273494946e-06,
+      "loss": 1.0022,
       "step": 163
     },
     {
       "epoch": 0.8608923884514436,
+      "grad_norm": 0.38148353077474145,
+      "learning_rate": 4.237068952421711e-06,
+      "loss": 0.964,
       "step": 164
     },
     {
       "epoch": 0.8661417322834646,
+      "grad_norm": 0.3982519128695332,
+      "learning_rate": 4.2117630146156845e-06,
+      "loss": 0.9673,
       "step": 165
     },
     {
       "epoch": 0.8713910761154856,
+      "grad_norm": 0.36000775624632003,
+      "learning_rate": 4.186353620611627e-06,
+      "loss": 0.9359,
       "step": 166
     },
     {
       "epoch": 0.8766404199475065,
+      "grad_norm": 0.36850454735662447,
+      "learning_rate": 4.160842939777036e-06,
+      "loss": 0.9422,
       "step": 167
     },
     {
       "epoch": 0.8818897637795275,
+      "grad_norm": 0.37804115639757085,
+      "learning_rate": 4.135233150126931e-06,
+      "loss": 0.9454,
       "step": 168
     },
     {
       "epoch": 0.8871391076115486,
+      "grad_norm": 0.3689383402086321,
+      "learning_rate": 4.109526438137908e-06,
+      "loss": 0.9455,
       "step": 169
     },
     {
       "epoch": 0.8923884514435696,
+      "grad_norm": 0.46527154775209717,
+      "learning_rate": 4.08372499856146e-06,
+      "loss": 0.9386,
       "step": 170
     },
     {
       "epoch": 0.8976377952755905,
+      "grad_norm": 0.45653306710128705,
+      "learning_rate": 4.0578310342365975e-06,
+      "loss": 0.9616,
       "step": 171
     },
     {
       "epoch": 0.9028871391076115,
+      "grad_norm": 0.3773630567359451,
+      "learning_rate": 4.031846755901785e-06,
+      "loss": 0.9285,
       "step": 172
     },
     {
       "epoch": 0.9081364829396326,
+      "grad_norm": 0.3644595191521506,
+      "learning_rate": 4.005774382006182e-06,
+      "loss": 0.9663,
       "step": 173
     },
     {
       "epoch": 0.9133858267716536,
+      "grad_norm": 0.3539767481135477,
+      "learning_rate": 3.97961613852025e-06,
+      "loss": 0.9564,
       "step": 174
     },
     {
       "epoch": 0.9186351706036745,
+      "grad_norm": 0.3819676152776953,
+      "learning_rate": 3.953374258745705e-06,
+      "loss": 0.9607,
       "step": 175
     },
     {
       "epoch": 0.9238845144356955,
+      "grad_norm": 0.38397675786726637,
+      "learning_rate": 3.927050983124842e-06,
+      "loss": 0.9539,
       "step": 176
     },
     {
       "epoch": 0.9291338582677166,
+      "grad_norm": 0.3979084367711538,
+      "learning_rate": 3.900648559049258e-06,
+      "loss": 0.9505,
       "step": 177
     },
     {
       "epoch": 0.9343832020997376,
+      "grad_norm": 0.3756154385935223,
+      "learning_rate": 3.874169240667974e-06,
+      "loss": 0.9519,
       "step": 178
     },
     {
       "epoch": 0.9396325459317585,
+      "grad_norm": 0.40551973597201274,
+      "learning_rate": 3.847615288694985e-06,
+      "loss": 0.9727,
       "step": 179
     },
     {
       "epoch": 0.9448818897637795,
+      "grad_norm": 0.4149625851710124,
+      "learning_rate": 3.820988970216249e-06,
+      "loss": 0.9464,
       "step": 180
     },
     {
       "epoch": 0.9501312335958005,
+      "grad_norm": 0.35739115830542967,
+      "learning_rate": 3.7942925584961272e-06,
+      "loss": 0.9427,
       "step": 181
     },
     {
       "epoch": 0.9553805774278216,
+      "grad_norm": 0.3759540038847051,
+      "learning_rate": 3.767528332783307e-06,
+      "loss": 0.9679,
       "step": 182
     },
     {
       "epoch": 0.9606299212598425,
+      "grad_norm": 0.3525867658299593,
+      "learning_rate": 3.740698578116199e-06,
+      "loss": 0.9183,
       "step": 183
     },
     {
       "epoch": 0.9658792650918635,
+      "grad_norm": 0.3557123352774738,
+      "learning_rate": 3.7138055851278564e-06,
+      "loss": 0.9383,
       "step": 184
     },
     {
       "epoch": 0.9711286089238845,
+      "grad_norm": 0.3623514252763418,
+      "learning_rate": 3.6868516498504025e-06,
+      "loss": 0.9246,
       "step": 185
     },
     {
       "epoch": 0.9763779527559056,
+      "grad_norm": 0.38495496418054853,
+      "learning_rate": 3.6598390735190066e-06,
+      "loss": 0.9612,
       "step": 186
     },
     {
       "epoch": 0.9816272965879265,
+      "grad_norm": 0.3648599004428126,
+      "learning_rate": 3.63277016237541e-06,
+      "loss": 0.9293,
       "step": 187
     },
     {
       "epoch": 0.9868766404199475,
+      "grad_norm": 0.38871547084803876,
+      "learning_rate": 3.6056472274710305e-06,
+      "loss": 0.9973,
       "step": 188
     },
     {
       "epoch": 0.9921259842519685,
+      "grad_norm": 0.38590844403642666,
+      "learning_rate": 3.578472584469651e-06,
+      "loss": 0.9457,
       "step": 189
     },
     {
       "epoch": 0.9973753280839895,
+      "grad_norm": 0.3872507088649178,
+      "learning_rate": 3.5512485534497116e-06,
+      "loss": 0.9462,
       "step": 190
     }
   ],

checkpoint-190/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0d2528dcfd8d62d3c517248c2d231cc9ff64ec148911ec3ce58a9d39f7507d
 size 8376

 version https://git-lfs.github.com/spec/v1
+oid sha256:b860c7e838727b1a9d8001f5c7a769bd0d63566ea45620719245b6beb59f1cd9
 size 8376