{
  "best_metric": 1.6559995412826538,
  "best_model_checkpoint": "./Biggie-SmoLlm-0.15B-AdamW/checkpoint-1000",
  "epoch": 3.0,
  "eval_steps": 200,
  "global_step": 1017,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0029498525073746312,
      "grad_norm": 2.4375,
      "learning_rate": 6.666666666666667e-06,
      "loss": 2.1014,
      "step": 1
    },
    {
      "epoch": 0.0058997050147492625,
      "grad_norm": 2.1875,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 2.1526,
      "step": 2
    },
    {
      "epoch": 0.008849557522123894,
      "grad_norm": 2.96875,
      "learning_rate": 2e-05,
      "loss": 2.0517,
      "step": 3
    },
    {
      "epoch": 0.011799410029498525,
      "grad_norm": 2.671875,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 1.9602,
      "step": 4
    },
    {
      "epoch": 0.014749262536873156,
      "grad_norm": 2.3125,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.9619,
      "step": 5
    },
    {
      "epoch": 0.017699115044247787,
      "grad_norm": 2.21875,
      "learning_rate": 4e-05,
      "loss": 1.9421,
      "step": 6
    },
    {
      "epoch": 0.02064896755162242,
      "grad_norm": 2.28125,
      "learning_rate": 4.666666666666667e-05,
      "loss": 2.0735,
      "step": 7
    },
    {
      "epoch": 0.02359882005899705,
      "grad_norm": 2.390625,
      "learning_rate": 5.333333333333333e-05,
      "loss": 2.1505,
      "step": 8
    },
    {
      "epoch": 0.02654867256637168,
      "grad_norm": 2.375,
      "learning_rate": 6e-05,
      "loss": 2.0444,
      "step": 9
    },
    {
      "epoch": 0.029498525073746312,
      "grad_norm": 2.5625,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.9299,
      "step": 10
    },
    {
      "epoch": 0.032448377581120944,
      "grad_norm": 2.3125,
      "learning_rate": 7.333333333333333e-05,
      "loss": 2.2301,
      "step": 11
    },
    {
      "epoch": 0.035398230088495575,
      "grad_norm": 1.9921875,
      "learning_rate": 8e-05,
      "loss": 2.0655,
      "step": 12
    },
    {
      "epoch": 0.038348082595870206,
      "grad_norm": 2.109375,
      "learning_rate": 8.666666666666667e-05,
      "loss": 2.0205,
      "step": 13
    },
    {
      "epoch": 0.04129793510324484,
      "grad_norm": 2.28125,
      "learning_rate": 9.333333333333334e-05,
      "loss": 2.0813,
      "step": 14
    },
    {
      "epoch": 0.04424778761061947,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001,
      "loss": 2.0,
      "step": 15
    },
    {
      "epoch": 0.0471976401179941,
      "grad_norm": 1.984375,
      "learning_rate": 0.00010666666666666667,
      "loss": 2.0752,
      "step": 16
    },
    {
      "epoch": 0.05014749262536873,
      "grad_norm": 1.78125,
      "learning_rate": 0.00011333333333333334,
      "loss": 2.0274,
      "step": 17
    },
    {
      "epoch": 0.05309734513274336,
      "grad_norm": 1.890625,
      "learning_rate": 0.00012,
      "loss": 2.0038,
      "step": 18
    },
    {
      "epoch": 0.05604719764011799,
      "grad_norm": 1.671875,
      "learning_rate": 0.00012666666666666666,
      "loss": 1.8893,
      "step": 19
    },
    {
      "epoch": 0.058997050147492625,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00013333333333333334,
      "loss": 1.9792,
      "step": 20
    },
    {
      "epoch": 0.061946902654867256,
      "grad_norm": 1.5,
      "learning_rate": 0.00014,
      "loss": 1.9674,
      "step": 21
    },
    {
      "epoch": 0.06489675516224189,
      "grad_norm": 1.28125,
      "learning_rate": 0.00014666666666666666,
      "loss": 1.926,
      "step": 22
    },
    {
      "epoch": 0.06784660766961652,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00015333333333333334,
      "loss": 1.9141,
      "step": 23
    },
    {
      "epoch": 0.07079646017699115,
      "grad_norm": 1.375,
      "learning_rate": 0.00016,
      "loss": 1.7923,
      "step": 24
    },
    {
      "epoch": 0.07374631268436578,
      "grad_norm": 1.0,
      "learning_rate": 0.0001666666666666667,
      "loss": 2.0394,
      "step": 25
    },
    {
      "epoch": 0.07669616519174041,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00017333333333333334,
      "loss": 1.8264,
      "step": 26
    },
    {
      "epoch": 0.07964601769911504,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00018,
      "loss": 1.8675,
      "step": 27
    },
    {
      "epoch": 0.08259587020648967,
      "grad_norm": 0.796875,
      "learning_rate": 0.0001866666666666667,
      "loss": 1.9696,
      "step": 28
    },
    {
      "epoch": 0.0855457227138643,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00019333333333333333,
      "loss": 2.0026,
      "step": 29
    },
    {
      "epoch": 0.08849557522123894,
      "grad_norm": 0.8359375,
      "learning_rate": 0.0002,
      "loss": 2.1422,
      "step": 30
    },
    {
      "epoch": 0.09144542772861357,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00019999949343511917,
      "loss": 1.9063,
      "step": 31
    },
    {
      "epoch": 0.0943952802359882,
      "grad_norm": 0.65625,
      "learning_rate": 0.00019999797374560874,
      "loss": 1.9048,
      "step": 32
    },
    {
      "epoch": 0.09734513274336283,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0001999954409468652,
      "loss": 1.829,
      "step": 33
    },
    {
      "epoch": 0.10029498525073746,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00019999189506454904,
      "loss": 1.8491,
      "step": 34
    },
    {
      "epoch": 0.10324483775811209,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0001999873361345847,
      "loss": 1.91,
      "step": 35
    },
    {
      "epoch": 0.10619469026548672,
      "grad_norm": 0.515625,
      "learning_rate": 0.00019998176420316002,
      "loss": 1.8505,
      "step": 36
    },
    {
      "epoch": 0.10914454277286136,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0001999751793267259,
      "loss": 1.8559,
      "step": 37
    },
    {
      "epoch": 0.11209439528023599,
      "grad_norm": 0.5625,
      "learning_rate": 0.00019996758157199573,
      "loss": 1.9353,
      "step": 38
    },
    {
      "epoch": 0.11504424778761062,
      "grad_norm": 0.546875,
      "learning_rate": 0.00019995897101594454,
      "loss": 1.8246,
      "step": 39
    },
    {
      "epoch": 0.11799410029498525,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00019994934774580851,
      "loss": 1.8832,
      "step": 40
    },
    {
      "epoch": 0.12094395280235988,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00019993871185908381,
      "loss": 1.856,
      "step": 41
    },
    {
      "epoch": 0.12389380530973451,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00019992706346352577,
      "loss": 2.079,
      "step": 42
    },
    {
      "epoch": 0.12684365781710916,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00019991440267714782,
      "loss": 1.8273,
      "step": 43
    },
    {
      "epoch": 0.12979351032448377,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00019990072962822007,
      "loss": 1.8057,
      "step": 44
    },
    {
      "epoch": 0.13274336283185842,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00019988604445526827,
      "loss": 1.9154,
      "step": 45
    },
    {
      "epoch": 0.13569321533923304,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00019987034730707234,
      "loss": 1.7652,
      "step": 46
    },
    {
      "epoch": 0.13864306784660768,
      "grad_norm": 0.421875,
      "learning_rate": 0.0001998536383426647,
      "loss": 1.718,
      "step": 47
    },
    {
      "epoch": 0.1415929203539823,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00019983591773132882,
      "loss": 1.9797,
      "step": 48
    },
    {
      "epoch": 0.14454277286135694,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00019981718565259752,
      "loss": 1.7253,
      "step": 49
    },
    {
      "epoch": 0.14749262536873156,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0001997974422962511,
      "loss": 1.8606,
      "step": 50
    },
    {
      "epoch": 0.1504424778761062,
      "grad_norm": 0.515625,
      "learning_rate": 0.00019977668786231534,
      "loss": 1.7493,
      "step": 51
    },
    {
      "epoch": 0.15339233038348082,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00019975492256105957,
      "loss": 1.7383,
      "step": 52
    },
    {
      "epoch": 0.15634218289085547,
      "grad_norm": 0.453125,
      "learning_rate": 0.00019973214661299455,
      "loss": 1.766,
      "step": 53
    },
    {
      "epoch": 0.1592920353982301,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0001997083602488702,
      "loss": 1.7996,
      "step": 54
    },
    {
      "epoch": 0.16224188790560473,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00019968356370967327,
      "loss": 1.7388,
      "step": 55
    },
    {
      "epoch": 0.16519174041297935,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00019965775724662484,
      "loss": 1.7388,
      "step": 56
    },
    {
      "epoch": 0.168141592920354,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00019963094112117785,
      "loss": 1.8541,
      "step": 57
    },
    {
      "epoch": 0.1710914454277286,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00019960311560501454,
      "loss": 1.7913,
      "step": 58
    },
    {
      "epoch": 0.17404129793510326,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00019957428098004343,
      "loss": 1.834,
      "step": 59
    },
    {
      "epoch": 0.17699115044247787,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00019954443753839667,
      "loss": 1.768,
      "step": 60
    },
    {
      "epoch": 0.17994100294985252,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00019951358558242707,
      "loss": 1.9784,
      "step": 61
    },
    {
      "epoch": 0.18289085545722714,
      "grad_norm": 0.4453125,
      "learning_rate": 0.000199481725424705,
      "loss": 1.9886,
      "step": 62
    },
    {
      "epoch": 0.18584070796460178,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00019944885738801518,
      "loss": 1.7472,
      "step": 63
    },
    {
      "epoch": 0.1887905604719764,
      "grad_norm": 0.375,
      "learning_rate": 0.00019941498180535346,
      "loss": 1.7831,
      "step": 64
    },
    {
      "epoch": 0.19174041297935104,
      "grad_norm": 0.4375,
      "learning_rate": 0.0001993800990199235,
      "loss": 1.8306,
      "step": 65
    },
    {
      "epoch": 0.19469026548672566,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00019934420938513313,
      "loss": 1.7213,
      "step": 66
    },
    {
      "epoch": 0.1976401179941003,
      "grad_norm": 0.375,
      "learning_rate": 0.00019930731326459088,
      "loss": 1.613,
      "step": 67
    },
    {
      "epoch": 0.20058997050147492,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00019926941103210247,
      "loss": 1.8055,
      "step": 68
    },
    {
      "epoch": 0.20353982300884957,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00019923050307166655,
      "loss": 1.6326,
      "step": 69
    },
    {
      "epoch": 0.20648967551622419,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00019919058977747135,
      "loss": 1.9313,
      "step": 70
    },
    {
      "epoch": 0.20943952802359883,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00019914967155389027,
      "loss": 1.8475,
      "step": 71
    },
    {
      "epoch": 0.21238938053097345,
      "grad_norm": 0.4375,
      "learning_rate": 0.000199107748815478,
      "loss": 1.9055,
      "step": 72
    },
    {
      "epoch": 0.2153392330383481,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00019906482198696636,
      "loss": 1.7846,
      "step": 73
    },
    {
      "epoch": 0.2182890855457227,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00019902089150325978,
      "loss": 1.8251,
      "step": 74
    },
    {
      "epoch": 0.22123893805309736,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00019897595780943102,
      "loss": 1.8831,
      "step": 75
    },
    {
      "epoch": 0.22418879056047197,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0001989300213607168,
      "loss": 1.707,
      "step": 76
    },
    {
      "epoch": 0.22713864306784662,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00019888308262251285,
      "loss": 1.7173,
      "step": 77
    },
    {
      "epoch": 0.23008849557522124,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00019883514207036956,
      "loss": 1.736,
      "step": 78
    },
    {
      "epoch": 0.23303834808259588,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00019878620018998696,
      "loss": 1.6251,
      "step": 79
    },
    {
      "epoch": 0.2359882005899705,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00019873625747720972,
      "loss": 1.7156,
      "step": 80
    },
    {
      "epoch": 0.23893805309734514,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0001986853144380224,
      "loss": 1.6135,
      "step": 81
    },
    {
      "epoch": 0.24188790560471976,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00019863337158854404,
      "loss": 2.0822,
      "step": 82
    },
    {
      "epoch": 0.2448377581120944,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00019858042945502318,
      "loss": 1.7756,
      "step": 83
    },
    {
      "epoch": 0.24778761061946902,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00019852648857383222,
      "loss": 1.7763,
      "step": 84
    },
    {
      "epoch": 0.25073746312684364,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00019847154949146237,
      "loss": 1.7516,
      "step": 85
    },
    {
      "epoch": 0.2536873156342183,
      "grad_norm": 0.359375,
      "learning_rate": 0.0001984156127645178,
      "loss": 1.6647,
      "step": 86
    },
    {
      "epoch": 0.25663716814159293,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00019835867895971014,
      "loss": 1.9323,
      "step": 87
    },
    {
      "epoch": 0.25958702064896755,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00019830074865385272,
      "loss": 1.6946,
      "step": 88
    },
    {
      "epoch": 0.26253687315634217,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00019824182243385465,
      "loss": 1.5654,
      "step": 89
    },
    {
      "epoch": 0.26548672566371684,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00019818190089671508,
      "loss": 1.8147,
      "step": 90
    },
    {
      "epoch": 0.26843657817109146,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0001981209846495169,
      "loss": 1.671,
      "step": 91
    },
    {
      "epoch": 0.2713864306784661,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00019805907430942075,
      "loss": 1.7172,
      "step": 92
    },
    {
      "epoch": 0.2743362831858407,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0001979961705036587,
      "loss": 1.814,
      "step": 93
    },
    {
      "epoch": 0.27728613569321536,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00019793227386952794,
      "loss": 1.6489,
      "step": 94
    },
    {
      "epoch": 0.28023598820059,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00019786738505438427,
      "loss": 1.7909,
      "step": 95
    },
    {
      "epoch": 0.2831858407079646,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00019780150471563558,
      "loss": 1.7049,
      "step": 96
    },
    {
      "epoch": 0.2861356932153392,
      "grad_norm": 0.34375,
      "learning_rate": 0.00019773463352073525,
      "loss": 1.472,
      "step": 97
    },
    {
      "epoch": 0.2890855457227139,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0001976667721471752,
      "loss": 1.7388,
      "step": 98
    },
    {
      "epoch": 0.2920353982300885,
      "grad_norm": 0.390625,
      "learning_rate": 0.00019759792128247922,
      "loss": 1.7382,
      "step": 99
    },
    {
      "epoch": 0.2949852507374631,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0001975280816241959,
      "loss": 1.8477,
      "step": 100
    },
    {
      "epoch": 0.29793510324483774,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00019745725387989164,
      "loss": 1.8796,
      "step": 101
    },
    {
      "epoch": 0.3008849557522124,
      "grad_norm": 0.375,
      "learning_rate": 0.00019738543876714334,
      "loss": 1.814,
      "step": 102
    },
    {
      "epoch": 0.30383480825958703,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00019731263701353133,
      "loss": 1.8508,
      "step": 103
    },
    {
      "epoch": 0.30678466076696165,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00019723884935663182,
      "loss": 1.6524,
      "step": 104
    },
    {
      "epoch": 0.30973451327433627,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00019716407654400952,
      "loss": 1.6972,
      "step": 105
    },
    {
      "epoch": 0.31268436578171094,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00019708831933321004,
      "loss": 1.8181,
      "step": 106
    },
    {
      "epoch": 0.31563421828908556,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00019701157849175228,
      "loss": 1.7699,
      "step": 107
    },
    {
      "epoch": 0.3185840707964602,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00019693385479712048,
      "loss": 1.5722,
      "step": 108
    },
    {
      "epoch": 0.3215339233038348,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00019685514903675655,
      "loss": 1.6242,
      "step": 109
    },
    {
      "epoch": 0.32448377581120946,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00019677546200805196,
      "loss": 1.6736,
      "step": 110
    },
    {
      "epoch": 0.3274336283185841,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00019669479451833976,
      "loss": 1.6835,
      "step": 111
    },
    {
      "epoch": 0.3303834808259587,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00019661314738488627,
      "loss": 1.7878,
      "step": 112
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00019653052143488287,
      "loss": 1.7273,
      "step": 113
    },
    {
      "epoch": 0.336283185840708,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00019644691750543767,
      "loss": 1.8688,
      "step": 114
    },
    {
      "epoch": 0.3392330383480826,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00019636233644356696,
      "loss": 1.8902,
      "step": 115
    },
    {
      "epoch": 0.3421828908554572,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00019627677910618666,
      "loss": 1.8055,
      "step": 116
    },
    {
      "epoch": 0.34513274336283184,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00019619024636010363,
      "loss": 1.6037,
      "step": 117
    },
    {
      "epoch": 0.3480825958702065,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00019610273908200683,
      "loss": 1.7333,
      "step": 118
    },
    {
      "epoch": 0.35103244837758113,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00019601425815845858,
      "loss": 1.7557,
      "step": 119
    },
    {
      "epoch": 0.35398230088495575,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00019592480448588542,
      "loss": 1.7445,
      "step": 120
    },
    {
      "epoch": 0.35693215339233036,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00019583437897056915,
      "loss": 1.6733,
      "step": 121
    },
    {
      "epoch": 0.35988200589970504,
      "grad_norm": 0.375,
      "learning_rate": 0.00019574298252863758,
      "loss": 1.7736,
      "step": 122
    },
    {
      "epoch": 0.36283185840707965,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00019565061608605526,
      "loss": 1.8282,
      "step": 123
    },
    {
      "epoch": 0.36578171091445427,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0001955572805786141,
      "loss": 1.8028,
      "step": 124
    },
    {
      "epoch": 0.3687315634218289,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00019546297695192388,
      "loss": 1.965,
      "step": 125
    },
    {
      "epoch": 0.37168141592920356,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00019536770616140276,
      "loss": 1.7437,
      "step": 126
    },
    {
      "epoch": 0.3746312684365782,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00019527146917226745,
      "loss": 1.8328,
      "step": 127
    },
    {
      "epoch": 0.3775811209439528,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00019517426695952358,
      "loss": 1.721,
      "step": 128
    },
    {
      "epoch": 0.3805309734513274,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00019507610050795558,
      "loss": 2.0209,
      "step": 129
    },
    {
      "epoch": 0.3834808259587021,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00019497697081211708,
      "loss": 1.7349,
      "step": 130
    },
    {
      "epoch": 0.3864306784660767,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00019487687887632048,
      "loss": 1.7402,
      "step": 131
    },
    {
      "epoch": 0.3893805309734513,
      "grad_norm": 0.359375,
      "learning_rate": 0.00019477582571462705,
      "loss": 1.7905,
      "step": 132
    },
    {
      "epoch": 0.39233038348082594,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00019467381235083634,
      "loss": 1.6632,
      "step": 133
    },
    {
      "epoch": 0.3952802359882006,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00019457083981847616,
      "loss": 1.6401,
      "step": 134
    },
    {
      "epoch": 0.39823008849557523,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0001944669091607919,
      "loss": 1.7757,
      "step": 135
    },
    {
      "epoch": 0.40117994100294985,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0001943620214307359,
      "loss": 1.6577,
      "step": 136
    },
    {
      "epoch": 0.40412979351032446,
      "grad_norm": 0.390625,
      "learning_rate": 0.0001942561776909571,
      "loss": 1.8717,
      "step": 137
    },
    {
      "epoch": 0.40707964601769914,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00019414937901378982,
      "loss": 1.7336,
      "step": 138
    },
    {
      "epoch": 0.41002949852507375,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0001940416264812433,
      "loss": 1.7332,
      "step": 139
    },
    {
      "epoch": 0.41297935103244837,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00019393292118499044,
      "loss": 1.7791,
      "step": 140
    },
    {
      "epoch": 0.415929203539823,
      "grad_norm": 0.34375,
      "learning_rate": 0.00019382326422635705,
      "loss": 1.9225,
      "step": 141
    },
    {
      "epoch": 0.41887905604719766,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00019371265671631037,
      "loss": 1.6715,
      "step": 142
    },
    {
      "epoch": 0.4218289085545723,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00019360109977544795,
      "loss": 1.8205,
      "step": 143
    },
    {
      "epoch": 0.4247787610619469,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00019348859453398646,
      "loss": 1.5496,
      "step": 144
    },
    {
      "epoch": 0.4277286135693215,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00019337514213174992,
      "loss": 1.9299,
      "step": 145
    },
    {
      "epoch": 0.4306784660766962,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0001932607437181584,
      "loss": 1.6924,
      "step": 146
    },
    {
      "epoch": 0.4336283185840708,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00019314540045221626,
      "loss": 1.7083,
      "step": 147
    },
    {
      "epoch": 0.4365781710914454,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0001930291135025005,
      "loss": 1.6546,
      "step": 148
    },
    {
      "epoch": 0.43952802359882004,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00019291188404714878,
      "loss": 1.8071,
      "step": 149
    },
    {
      "epoch": 0.4424778761061947,
      "grad_norm": 0.375,
      "learning_rate": 0.0001927937132738476,
      "loss": 1.7596,
      "step": 150
    },
    {
      "epoch": 0.44542772861356933,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0001926746023798202,
      "loss": 1.6805,
      "step": 151
    },
    {
      "epoch": 0.44837758112094395,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00019255455257181456,
      "loss": 1.6037,
      "step": 152
    },
    {
      "epoch": 0.45132743362831856,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000192433565066091,
      "loss": 1.7223,
      "step": 153
    },
    {
      "epoch": 0.45427728613569324,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00019231164108840995,
      "loss": 1.8775,
      "step": 154
    },
    {
      "epoch": 0.45722713864306785,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00019218878187401948,
      "loss": 1.7495,
      "step": 155
    },
    {
      "epoch": 0.46017699115044247,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00019206498866764288,
      "loss": 1.6175,
      "step": 156
    },
    {
      "epoch": 0.4631268436578171,
      "grad_norm": 0.375,
      "learning_rate": 0.00019194026272346596,
      "loss": 1.6249,
      "step": 157
    },
    {
      "epoch": 0.46607669616519176,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00019181460530512441,
      "loss": 1.5974,
      "step": 158
    },
    {
      "epoch": 0.4690265486725664,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0001916880176856909,
      "loss": 1.7076,
      "step": 159
    },
    {
      "epoch": 0.471976401179941,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0001915605011476623,
      "loss": 1.633,
      "step": 160
    },
    {
      "epoch": 0.4749262536873156,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0001914320569829466,
      "loss": 1.7677,
      "step": 161
    },
    {
      "epoch": 0.4778761061946903,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0001913026864928498,
      "loss": 1.6533,
      "step": 162
    },
    {
      "epoch": 0.4808259587020649,
      "grad_norm": 0.328125,
      "learning_rate": 0.00019117239098806295,
      "loss": 1.8283,
      "step": 163
    },
    {
      "epoch": 0.4837758112094395,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00019104117178864852,
      "loss": 1.5265,
      "step": 164
    },
    {
      "epoch": 0.48672566371681414,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00019090903022402729,
      "loss": 1.6958,
      "step": 165
    },
    {
      "epoch": 0.4896755162241888,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00019077596763296474,
      "loss": 1.7384,
      "step": 166
    },
    {
      "epoch": 0.49262536873156343,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00019064198536355761,
      "loss": 1.6487,
      "step": 167
    },
    {
      "epoch": 0.49557522123893805,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00019050708477322018,
      "loss": 1.9019,
      "step": 168
    },
    {
      "epoch": 0.49852507374631266,
      "grad_norm": 0.34375,
      "learning_rate": 0.00019037126722867045,
      "loss": 1.856,
      "step": 169
    },
    {
      "epoch": 0.5014749262536873,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00019023453410591635,
      "loss": 1.602,
      "step": 170
    },
    {
      "epoch": 0.504424778761062,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0001900968867902419,
      "loss": 1.7144,
      "step": 171
    },
    {
      "epoch": 0.5073746312684366,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000189958326676193,
      "loss": 1.664,
      "step": 172
    },
    {
      "epoch": 0.5103244837758112,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0001898188551675634,
      "loss": 1.818,
      "step": 173
    },
    {
      "epoch": 0.5132743362831859,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00018967847367738048,
      "loss": 1.6334,
      "step": 174
    },
    {
      "epoch": 0.5162241887905604,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00018953718362789085,
      "loss": 1.6842,
      "step": 175
    },
    {
      "epoch": 0.5191740412979351,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0001893949864505461,
      "loss": 1.8626,
      "step": 176
    },
    {
      "epoch": 0.5221238938053098,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00018925188358598813,
      "loss": 1.718,
      "step": 177
    },
    {
      "epoch": 0.5250737463126843,
      "grad_norm": 0.359375,
      "learning_rate": 0.00018910787648403465,
      "loss": 1.5932,
      "step": 178
    },
    {
      "epoch": 0.528023598820059,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00018896296660366447,
      "loss": 1.7042,
      "step": 179
    },
    {
      "epoch": 0.5309734513274337,
      "grad_norm": 0.296875,
      "learning_rate": 0.00018881715541300276,
      "loss": 1.7268,
      "step": 180
    },
    {
      "epoch": 0.5339233038348082,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000188670444389306,
      "loss": 1.5908,
      "step": 181
    },
    {
      "epoch": 0.5368731563421829,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00018852283501894732,
      "loss": 1.5886,
      "step": 182
    },
    {
      "epoch": 0.5398230088495575,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00018837432879740114,
      "loss": 1.7165,
      "step": 183
    },
    {
      "epoch": 0.5427728613569321,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0001882249272292282,
      "loss": 1.8307,
      "step": 184
    },
    {
      "epoch": 0.5457227138643068,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0001880746318280602,
      "loss": 1.6305,
      "step": 185
    },
    {
      "epoch": 0.5486725663716814,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00018792344411658468,
      "loss": 1.5587,
      "step": 186
    },
    {
      "epoch": 0.551622418879056,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00018777136562652929,
      "loss": 1.5655,
      "step": 187
    },
    {
      "epoch": 0.5545722713864307,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00018761839789864645,
      "loss": 1.8039,
      "step": 188
    },
    {
      "epoch": 0.5575221238938053,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00018746454248269777,
      "loss": 1.6224,
      "step": 189
    },
    {
      "epoch": 0.56047197640118,
      "grad_norm": 0.34375,
      "learning_rate": 0.00018730980093743823,
      "loss": 1.6452,
      "step": 190
    },
    {
      "epoch": 0.5634218289085545,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0001871541748306005,
      "loss": 1.7146,
      "step": 191
    },
    {
      "epoch": 0.5663716814159292,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000186997665738879,
      "loss": 1.6701,
      "step": 192
    },
    {
      "epoch": 0.5693215339233039,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00018684027524791386,
      "loss": 1.6254,
      "step": 193
    },
    {
      "epoch": 0.5722713864306784,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00018668200495227505,
      "loss": 1.7132,
      "step": 194
    },
    {
      "epoch": 0.5752212389380531,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00018652285645544603,
      "loss": 1.6175,
      "step": 195
    },
    {
      "epoch": 0.5781710914454278,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00018636283136980758,
      "loss": 1.7819,
      "step": 196
    },
    {
      "epoch": 0.5811209439528023,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0001862019313166214,
      "loss": 1.7777,
      "step": 197
    },
    {
      "epoch": 0.584070796460177,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00018604015792601396,
      "loss": 1.6488,
      "step": 198
    },
    {
      "epoch": 0.5870206489675516,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00018587751283695949,
      "loss": 1.6517,
      "step": 199
    },
    {
      "epoch": 0.5899705014749262,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00018571399769726386,
      "loss": 1.8747,
      "step": 200
    },
    {
      "epoch": 0.5899705014749262,
      "eval_loss": 1.701263189315796,
      "eval_runtime": 31.6775,
      "eval_samples_per_second": 31.568,
      "eval_steps_per_second": 3.946,
      "step": 200
    },
    {
      "epoch": 0.5929203539823009,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0001855496141635476,
      "loss": 1.6067,
      "step": 201
    },
    {
      "epoch": 0.5958702064896755,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0001853843639012292,
      "loss": 1.7201,
      "step": 202
    },
    {
      "epoch": 0.5988200589970502,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00018521824858450827,
      "loss": 1.7772,
      "step": 203
    },
    {
      "epoch": 0.6017699115044248,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0001850512698963485,
      "loss": 1.7896,
      "step": 204
    },
    {
      "epoch": 0.6047197640117994,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00018488342952846073,
      "loss": 1.5824,
      "step": 205
    },
    {
      "epoch": 0.6076696165191741,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00018471472918128563,
      "loss": 1.6861,
      "step": 206
    },
    {
      "epoch": 0.6106194690265486,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00018454517056397661,
      "loss": 1.7572,
      "step": 207
    },
    {
      "epoch": 0.6135693215339233,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00018437475539438255,
      "loss": 1.9539,
      "step": 208
    },
    {
      "epoch": 0.616519174041298,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00018420348539903019,
      "loss": 1.657,
      "step": 209
    },
    {
      "epoch": 0.6194690265486725,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00018403136231310684,
      "loss": 1.5934,
      "step": 210
    },
    {
      "epoch": 0.6224188790560472,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00018385838788044273,
      "loss": 1.7199,
      "step": 211
    },
    {
      "epoch": 0.6253687315634219,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00018368456385349334,
      "loss": 1.5833,
      "step": 212
    },
    {
      "epoch": 0.6283185840707964,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00018350989199332154,
      "loss": 1.6056,
      "step": 213
    },
    {
      "epoch": 0.6312684365781711,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00018333437406957995,
      "loss": 1.8369,
      "step": 214
    },
    {
      "epoch": 0.6342182890855457,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000183158011860493,
      "loss": 1.7488,
      "step": 215
    },
    {
      "epoch": 0.6371681415929203,
      "grad_norm": 0.296875,
      "learning_rate": 0.00018298080715283858,
      "loss": 1.7316,
      "step": 216
    },
    {
      "epoch": 0.640117994100295,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0001828027617419304,
      "loss": 1.641,
      "step": 217
    },
    {
      "epoch": 0.6430678466076696,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0001826238774315995,
      "loss": 1.7285,
      "step": 218
    },
    {
      "epoch": 0.6460176991150443,
      "grad_norm": 0.34375,
      "learning_rate": 0.00018244415603417603,
      "loss": 1.5975,
      "step": 219
    },
    {
      "epoch": 0.6489675516224189,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000182263599370471,
      "loss": 1.7427,
      "step": 220
    },
    {
      "epoch": 0.6519174041297935,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0001820822092697577,
      "loss": 1.8156,
      "step": 221
    },
    {
      "epoch": 0.6548672566371682,
      "grad_norm": 0.328125,
      "learning_rate": 0.00018189998756975318,
      "loss": 1.7881,
      "step": 222
    },
    {
      "epoch": 0.6578171091445427,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00018171693611659977,
      "loss": 1.8643,
      "step": 223
    },
    {
      "epoch": 0.6607669616519174,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00018153305676484619,
      "loss": 1.7019,
      "step": 224
    },
    {
      "epoch": 0.6637168141592921,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0001813483513774289,
      "loss": 1.7559,
      "step": 225
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00018116282182565311,
      "loss": 1.7332,
      "step": 226
    },
    {
      "epoch": 0.6696165191740413,
      "grad_norm": 0.328125,
      "learning_rate": 0.00018097646998917397,
      "loss": 1.6294,
      "step": 227
    },
    {
      "epoch": 0.672566371681416,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0001807892977559774,
      "loss": 1.671,
      "step": 228
    },
    {
      "epoch": 0.6755162241887905,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00018060130702236097,
      "loss": 1.7488,
      "step": 229
    },
    {
      "epoch": 0.6784660766961652,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00018041249969291475,
      "loss": 1.7029,
      "step": 230
    },
    {
      "epoch": 0.6814159292035398,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00018022287768050202,
      "loss": 1.6486,
      "step": 231
    },
    {
      "epoch": 0.6843657817109144,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0001800324429062398,
      "loss": 1.6692,
      "step": 232
    },
    {
      "epoch": 0.6873156342182891,
      "grad_norm": 0.34375,
      "learning_rate": 0.00017984119729947944,
      "loss": 1.64,
      "step": 233
    },
    {
      "epoch": 0.6902654867256637,
      "grad_norm": 0.34375,
      "learning_rate": 0.00017964914279778715,
      "loss": 1.714,
      "step": 234
    },
    {
      "epoch": 0.6932153392330384,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00017945628134692423,
      "loss": 1.6772,
      "step": 235
    },
    {
      "epoch": 0.696165191740413,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0001792626149008274,
      "loss": 1.5846,
      "step": 236
    },
    {
      "epoch": 0.6991150442477876,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0001790681454215891,
      "loss": 1.5758,
      "step": 237
    },
    {
      "epoch": 0.7020648967551623,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00017887287487943754,
      "loss": 1.6947,
      "step": 238
    },
    {
      "epoch": 0.7050147492625368,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00017867680525271662,
      "loss": 1.9267,
      "step": 239
    },
    {
      "epoch": 0.7079646017699115,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0001784799385278661,
      "loss": 1.7433,
      "step": 240
    },
    {
      "epoch": 0.7109144542772862,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0001782822766994014,
      "loss": 1.8449,
      "step": 241
    },
    {
      "epoch": 0.7138643067846607,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0001780838217698933,
      "loss": 1.7898,
      "step": 242
    },
    {
      "epoch": 0.7168141592920354,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00017788457574994778,
      "loss": 1.6149,
      "step": 243
    },
    {
      "epoch": 0.7197640117994101,
      "grad_norm": 0.34375,
      "learning_rate": 0.00017768454065818551,
      "loss": 1.7006,
      "step": 244
    },
    {
      "epoch": 0.7227138643067846,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00017748371852122164,
      "loss": 1.7115,
      "step": 245
    },
    {
      "epoch": 0.7256637168141593,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00017728211137364489,
      "loss": 1.6251,
      "step": 246
    },
    {
      "epoch": 0.7286135693215339,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00017707972125799735,
      "loss": 2.012,
      "step": 247
    },
    {
      "epoch": 0.7315634218289085,
      "grad_norm": 0.3125,
      "learning_rate": 0.0001768765502247535,
      "loss": 1.744,
      "step": 248
    },
    {
      "epoch": 0.7345132743362832,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00017667260033229953,
      "loss": 1.8532,
      "step": 249
    },
    {
      "epoch": 0.7374631268436578,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00017646787364691252,
      "loss": 1.483,
      "step": 250
    },
    {
      "epoch": 0.7404129793510325,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00017626237224273945,
      "loss": 1.7557,
      "step": 251
    },
    {
      "epoch": 0.7433628318584071,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00017605609820177617,
      "loss": 1.8172,
      "step": 252
    },
    {
      "epoch": 0.7463126843657817,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00017584905361384644,
      "loss": 1.7924,
      "step": 253
    },
    {
      "epoch": 0.7492625368731564,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00017564124057658056,
      "loss": 1.6829,
      "step": 254
    },
    {
      "epoch": 0.7522123893805309,
      "grad_norm": 0.328125,
      "learning_rate": 0.00017543266119539422,
      "loss": 1.6772,
      "step": 255
    },
    {
      "epoch": 0.7551622418879056,
      "grad_norm": 0.3125,
      "learning_rate": 0.0001752233175834673,
      "loss": 1.7583,
      "step": 256
    },
    {
      "epoch": 0.7581120943952803,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00017501321186172216,
      "loss": 1.533,
      "step": 257
    },
    {
      "epoch": 0.7610619469026548,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00017480234615880247,
      "loss": 1.6097,
      "step": 258
    },
    {
      "epoch": 0.7640117994100295,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00017459072261105137,
      "loss": 1.7074,
      "step": 259
    },
    {
      "epoch": 0.7669616519174042,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00017437834336249001,
      "loss": 1.6533,
      "step": 260
    },
    {
      "epoch": 0.7699115044247787,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00017416521056479577,
      "loss": 1.706,
      "step": 261
    },
    {
      "epoch": 0.7728613569321534,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00017395132637728047,
      "loss": 1.6761,
      "step": 262
    },
    {
      "epoch": 0.775811209439528,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00017373669296686842,
      "loss": 1.7223,
      "step": 263
    },
    {
      "epoch": 0.7787610619469026,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00017352131250807467,
      "loss": 1.6559,
      "step": 264
    },
    {
      "epoch": 0.7817109144542773,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00017330518718298264,
      "loss": 1.6263,
      "step": 265
    },
    {
      "epoch": 0.7846607669616519,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00017308831918122242,
      "loss": 1.6628,
      "step": 266
    },
    {
      "epoch": 0.7876106194690266,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0001728707106999482,
      "loss": 1.7917,
      "step": 267
    },
    {
      "epoch": 0.7905604719764012,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00017265236394381633,
      "loss": 1.7092,
      "step": 268
    },
    {
      "epoch": 0.7935103244837758,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00017243328112496277,
      "loss": 1.4767,
      "step": 269
    },
    {
      "epoch": 0.7964601769911505,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0001722134644629807,
      "loss": 1.6683,
      "step": 270
    },
    {
      "epoch": 0.799410029498525,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0001719929161848982,
      "loss": 1.7758,
      "step": 271
    },
    {
      "epoch": 0.8023598820058997,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00017177163852515553,
      "loss": 1.8755,
      "step": 272
    },
    {
      "epoch": 0.8053097345132744,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00017154963372558246,
      "loss": 1.8143,
      "step": 273
    },
    {
      "epoch": 0.8082595870206489,
      "grad_norm": 0.359375,
      "learning_rate": 0.0001713269040353757,
      "loss": 1.9027,
      "step": 274
    },
    {
      "epoch": 0.8112094395280236,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0001711034517110761,
      "loss": 1.635,
      "step": 275
    },
    {
      "epoch": 0.8141592920353983,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00017087927901654557,
      "loss": 1.7577,
      "step": 276
    },
    {
      "epoch": 0.8171091445427728,
      "grad_norm": 0.296875,
      "learning_rate": 0.00017065438822294447,
      "loss": 1.5825,
      "step": 277
    },
    {
      "epoch": 0.8200589970501475,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00017042878160870829,
      "loss": 1.8417,
      "step": 278
    },
    {
      "epoch": 0.8230088495575221,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00017020246145952477,
      "loss": 1.7256,
      "step": 279
    },
    {
      "epoch": 0.8259587020648967,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00016997543006831082,
      "loss": 1.6442,
      "step": 280
    },
    {
      "epoch": 0.8289085545722714,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00016974768973518893,
      "loss": 1.6599,
      "step": 281
    },
    {
      "epoch": 0.831858407079646,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00016951924276746425,
      "loss": 1.5897,
      "step": 282
    },
    {
      "epoch": 0.8348082595870207,
      "grad_norm": 0.3125,
      "learning_rate": 0.00016929009147960094,
      "loss": 1.9082,
      "step": 283
    },
    {
      "epoch": 0.8377581120943953,
      "grad_norm": 0.296875,
      "learning_rate": 0.00016906023819319893,
      "loss": 1.6846,
      "step": 284
    },
    {
      "epoch": 0.8407079646017699,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00016882968523697028,
      "loss": 1.6893,
      "step": 285
    },
    {
      "epoch": 0.8436578171091446,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0001685984349467156,
      "loss": 1.6329,
      "step": 286
    },
    {
      "epoch": 0.8466076696165191,
      "grad_norm": 0.34375,
      "learning_rate": 0.0001683664896653004,
      "loss": 1.6538,
      "step": 287
    },
    {
      "epoch": 0.8495575221238938,
      "grad_norm": 0.3125,
      "learning_rate": 0.00016813385174263137,
      "loss": 1.8233,
      "step": 288
    },
    {
      "epoch": 0.8525073746312685,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00016790052353563253,
      "loss": 1.5222,
      "step": 289
    },
    {
      "epoch": 0.855457227138643,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00016766650740822136,
      "loss": 1.7913,
      "step": 290
    },
    {
      "epoch": 0.8584070796460177,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00016743180573128495,
      "loss": 1.6088,
      "step": 291
    },
    {
      "epoch": 0.8613569321533924,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00016719642088265578,
      "loss": 1.6839,
      "step": 292
    },
    {
      "epoch": 0.8643067846607669,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0001669603552470879,
      "loss": 1.6752,
      "step": 293
    },
    {
      "epoch": 0.8672566371681416,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00016672361121623238,
      "loss": 1.7121,
      "step": 294
    },
    {
      "epoch": 0.8702064896755162,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0001664861911886136,
      "loss": 1.6364,
      "step": 295
    },
    {
      "epoch": 0.8731563421828908,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00016624809756960444,
      "loss": 1.7002,
      "step": 296
    },
    {
      "epoch": 0.8761061946902655,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0001660093327714022,
      "loss": 1.797,
      "step": 297
    },
    {
      "epoch": 0.8790560471976401,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00016576989921300418,
      "loss": 1.8461,
      "step": 298
    },
    {
      "epoch": 0.8820058997050148,
      "grad_norm": 0.3125,
      "learning_rate": 0.00016552979932018297,
      "loss": 1.6665,
      "step": 299
    },
    {
      "epoch": 0.8849557522123894,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00016528903552546207,
      "loss": 1.6472,
      "step": 300
    },
    {
      "epoch": 0.887905604719764,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0001650476102680911,
      "loss": 1.6908,
      "step": 301
    },
    {
      "epoch": 0.8908554572271387,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0001648055259940212,
      "loss": 1.6468,
      "step": 302
    },
    {
      "epoch": 0.8938053097345132,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00016456278515588024,
      "loss": 1.6656,
      "step": 303
    },
    {
      "epoch": 0.8967551622418879,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00016431939021294787,
      "loss": 1.7536,
      "step": 304
    },
    {
      "epoch": 0.8997050147492626,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00016407534363113073,
      "loss": 1.7766,
      "step": 305
    },
    {
      "epoch": 0.9026548672566371,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0001638306478829373,
      "loss": 1.6868,
      "step": 306
    },
    {
      "epoch": 0.9056047197640118,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00016358530544745308,
      "loss": 1.6418,
      "step": 307
    },
    {
      "epoch": 0.9085545722713865,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00016333931881031528,
      "loss": 1.6935,
      "step": 308
    },
    {
      "epoch": 0.911504424778761,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00016309269046368776,
      "loss": 1.6796,
      "step": 309
    },
    {
      "epoch": 0.9144542772861357,
      "grad_norm": 0.296875,
      "learning_rate": 0.00016284542290623567,
      "loss": 1.5933,
      "step": 310
    },
    {
      "epoch": 0.9174041297935103,
      "grad_norm": 0.296875,
      "learning_rate": 0.00016259751864310026,
      "loss": 1.587,
      "step": 311
    },
    {
      "epoch": 0.9203539823008849,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00016234898018587337,
      "loss": 1.7507,
      "step": 312
    },
    {
      "epoch": 0.9233038348082596,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00016209981005257208,
      "loss": 1.7791,
      "step": 313
    },
    {
      "epoch": 0.9262536873156342,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0001618500107676132,
      "loss": 1.7078,
      "step": 314
    },
    {
      "epoch": 0.9292035398230089,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0001615995848617876,
      "loss": 1.7454,
      "step": 315
    },
    {
      "epoch": 0.9321533923303835,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00016134853487223465,
      "loss": 1.7158,
      "step": 316
    },
    {
      "epoch": 0.9351032448377581,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00016109686334241655,
      "loss": 1.6761,
      "step": 317
    },
    {
      "epoch": 0.9380530973451328,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00016084457282209243,
      "loss": 1.7169,
      "step": 318
    },
    {
      "epoch": 0.9410029498525073,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0001605916658672927,
      "loss": 1.6098,
      "step": 319
    },
    {
      "epoch": 0.943952802359882,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00016033814504029292,
      "loss": 1.6303,
      "step": 320
    },
    {
      "epoch": 0.9469026548672567,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00016008401290958807,
      "loss": 1.6885,
      "step": 321
    },
    {
      "epoch": 0.9498525073746312,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0001598292720498664,
      "loss": 1.7594,
      "step": 322
    },
    {
      "epoch": 0.9528023598820059,
      "grad_norm": 0.3125,
      "learning_rate": 0.00015957392504198337,
      "loss": 1.8732,
      "step": 323
    },
    {
      "epoch": 0.9557522123893806,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00015931797447293552,
      "loss": 1.5923,
      "step": 324
    },
    {
      "epoch": 0.9587020648967551,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00015906142293583425,
      "loss": 1.5408,
      "step": 325
    },
    {
      "epoch": 0.9616519174041298,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00015880427302987951,
      "loss": 1.7809,
      "step": 326
    },
    {
      "epoch": 0.9646017699115044,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00015854652736033354,
      "loss": 1.5759,
      "step": 327
    },
    {
      "epoch": 0.967551622418879,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00015828818853849444,
      "loss": 1.6399,
      "step": 328
    },
    {
      "epoch": 0.9705014749262537,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0001580292591816697,
      "loss": 1.7938,
      "step": 329
    },
    {
      "epoch": 0.9734513274336283,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0001577697419131497,
      "loss": 1.8051,
      "step": 330
    },
    {
      "epoch": 0.976401179941003,
      "grad_norm": 0.421875,
      "learning_rate": 0.00015750963936218105,
      "loss": 1.6255,
      "step": 331
    },
    {
      "epoch": 0.9793510324483776,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00015724895416394018,
      "loss": 1.7337,
      "step": 332
    },
    {
      "epoch": 0.9823008849557522,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00015698768895950642,
      "loss": 1.6922,
      "step": 333
    },
    {
      "epoch": 0.9852507374631269,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00015672584639583528,
      "loss": 1.6776,
      "step": 334
    },
    {
      "epoch": 0.9882005899705014,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00015646342912573177,
      "loss": 1.8007,
      "step": 335
    },
    {
      "epoch": 0.9911504424778761,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00015620043980782327,
      "loss": 1.566,
      "step": 336
    },
    {
      "epoch": 0.9941002949852508,
      "grad_norm": 0.34375,
      "learning_rate": 0.00015593688110653283,
      "loss": 1.4985,
      "step": 337
    },
    {
      "epoch": 0.9970501474926253,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00015567275569205218,
      "loss": 1.7079,
      "step": 338
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00015540806624031442,
      "loss": 1.6612,
      "step": 339
    },
    {
      "epoch": 1.0029498525073746,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00015514281543296715,
      "loss": 1.6204,
      "step": 340
    },
    {
      "epoch": 1.0058997050147493,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00015487700595734536,
      "loss": 1.6187,
      "step": 341
    },
    {
      "epoch": 1.008849557522124,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0001546106405064438,
      "loss": 1.561,
      "step": 342
    },
    {
      "epoch": 1.0117994100294985,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00015434372177889022,
      "loss": 1.6984,
      "step": 343
    },
    {
      "epoch": 1.0147492625368733,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00015407625247891772,
      "loss": 1.542,
      "step": 344
    },
    {
      "epoch": 1.0176991150442478,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00015380823531633729,
      "loss": 1.6418,
      "step": 345
    },
    {
      "epoch": 1.0206489675516224,
      "grad_norm": 0.296875,
      "learning_rate": 0.0001535396730065106,
      "loss": 1.4689,
      "step": 346
    },
    {
      "epoch": 1.023598820058997,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0001532705682703224,
      "loss": 1.5845,
      "step": 347
    },
    {
      "epoch": 1.0265486725663717,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00015300092383415282,
      "loss": 1.5536,
      "step": 348
    },
    {
      "epoch": 1.0294985250737463,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00015273074242984987,
      "loss": 1.825,
      "step": 349
    },
    {
      "epoch": 1.0324483775811208,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00015246002679470175,
      "loss": 1.6439,
      "step": 350
    },
    {
      "epoch": 1.0353982300884956,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0001521887796714092,
      "loss": 1.7412,
      "step": 351
    },
    {
      "epoch": 1.0383480825958702,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00015191700380805752,
      "loss": 1.6896,
      "step": 352
    },
    {
      "epoch": 1.0412979351032448,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0001516447019580889,
      "loss": 1.714,
      "step": 353
    },
    {
      "epoch": 1.0442477876106195,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00015137187688027436,
      "loss": 1.6801,
      "step": 354
    },
    {
      "epoch": 1.047197640117994,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000151098531338686,
      "loss": 1.6533,
      "step": 355
    },
    {
      "epoch": 1.0501474926253687,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00015082466810266884,
      "loss": 1.8058,
      "step": 356
    },
    {
      "epoch": 1.0530973451327434,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00015055028994681284,
      "loss": 1.7444,
      "step": 357
    },
    {
      "epoch": 1.056047197640118,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00015027539965092477,
      "loss": 1.6367,
      "step": 358
    },
    {
      "epoch": 1.0589970501474926,
      "grad_norm": 0.34375,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.6673,
      "step": 359
    },
    {
      "epoch": 1.0619469026548674,
      "grad_norm": 0.3125,
      "learning_rate": 0.0001497240937841944,
      "loss": 1.5997,
      "step": 360
    },
    {
      "epoch": 1.064896755162242,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00014944768379879591,
      "loss": 1.7991,
      "step": 361
    },
    {
      "epoch": 1.0678466076696165,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00014917077284419634,
      "loss": 1.6099,
      "step": 362
    },
    {
      "epoch": 1.0707964601769913,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00014889336372586305,
      "loss": 1.6051,
      "step": 363
    },
    {
      "epoch": 1.0737463126843658,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00014861545925431036,
      "loss": 1.5927,
      "step": 364
    },
    {
      "epoch": 1.0766961651917404,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00014833706224507114,
      "loss": 1.7938,
      "step": 365
    },
    {
      "epoch": 1.079646017699115,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00014805817551866838,
      "loss": 1.5313,
      "step": 366
    },
    {
      "epoch": 1.0825958702064897,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00014777880190058654,
      "loss": 1.6738,
      "step": 367
    },
    {
      "epoch": 1.0855457227138643,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0001474989442212428,
      "loss": 1.7013,
      "step": 368
    },
    {
      "epoch": 1.0884955752212389,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0001472186053159587,
      "loss": 1.7573,
      "step": 369
    },
    {
      "epoch": 1.0914454277286136,
      "grad_norm": 0.296875,
      "learning_rate": 0.00014693778802493104,
      "loss": 1.7217,
      "step": 370
    },
    {
      "epoch": 1.0943952802359882,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00014665649519320342,
      "loss": 1.562,
      "step": 371
    },
    {
      "epoch": 1.0973451327433628,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0001463747296706372,
      "loss": 1.666,
      "step": 372
    },
    {
      "epoch": 1.1002949852507375,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00014609249431188278,
      "loss": 1.6303,
      "step": 373
    },
    {
      "epoch": 1.103244837758112,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0001458097919763506,
      "loss": 1.7065,
      "step": 374
    },
    {
      "epoch": 1.1061946902654867,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0001455266255281821,
      "loss": 1.5575,
      "step": 375
    },
    {
      "epoch": 1.1091445427728615,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0001452429978362209,
      "loss": 1.6452,
      "step": 376
    },
    {
      "epoch": 1.112094395280236,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00014495891177398353,
      "loss": 1.6286,
      "step": 377
    },
    {
      "epoch": 1.1150442477876106,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0001446743702196304,
      "loss": 1.7517,
      "step": 378
    },
    {
      "epoch": 1.1179941002949851,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0001443893760559367,
      "loss": 1.6429,
      "step": 379
    },
    {
      "epoch": 1.12094395280236,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00014410393217026318,
      "loss": 1.6122,
      "step": 380
    },
    {
      "epoch": 1.1238938053097345,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0001438180414545267,
      "loss": 1.5116,
      "step": 381
    },
    {
      "epoch": 1.1268436578171093,
      "grad_norm": 0.296875,
      "learning_rate": 0.00014353170680517132,
      "loss": 1.7445,
      "step": 382
    },
    {
      "epoch": 1.1297935103244838,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00014324493112313844,
      "loss": 1.8679,
      "step": 383
    },
    {
      "epoch": 1.1327433628318584,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00014295771731383797,
      "loss": 1.8117,
      "step": 384
    },
    {
      "epoch": 1.135693215339233,
      "grad_norm": 0.328125,
      "learning_rate": 0.0001426700682871184,
      "loss": 1.7062,
      "step": 385
    },
    {
      "epoch": 1.1386430678466077,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0001423819869572377,
      "loss": 1.6174,
      "step": 386
    },
    {
      "epoch": 1.1415929203539823,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0001420934762428335,
      "loss": 1.5873,
      "step": 387
    },
    {
      "epoch": 1.1445427728613569,
      "grad_norm": 0.40625,
      "learning_rate": 0.00014180453906689378,
      "loss": 1.6217,
      "step": 388
    },
    {
      "epoch": 1.1474926253687316,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00014151517835672697,
      "loss": 1.5944,
      "step": 389
    },
    {
      "epoch": 1.1504424778761062,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00014122539704393265,
      "loss": 1.7194,
      "step": 390
    },
    {
      "epoch": 1.1533923303834808,
      "grad_norm": 0.28125,
      "learning_rate": 0.00014093519806437148,
      "loss": 1.6986,
      "step": 391
    },
    {
      "epoch": 1.1563421828908556,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00014064458435813566,
      "loss": 1.6477,
      "step": 392
    },
    {
      "epoch": 1.1592920353982301,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00014035355886951923,
      "loss": 1.6155,
      "step": 393
    },
    {
      "epoch": 1.1622418879056047,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00014006212454698797,
      "loss": 1.6334,
      "step": 394
    },
    {
      "epoch": 1.1651917404129795,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00013977028434314975,
      "loss": 1.5663,
      "step": 395
    },
    {
      "epoch": 1.168141592920354,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0001394780412147245,
      "loss": 1.6925,
      "step": 396
    },
    {
      "epoch": 1.1710914454277286,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0001391853981225144,
      "loss": 1.9437,
      "step": 397
    },
    {
      "epoch": 1.1740412979351031,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00013889235803137364,
      "loss": 1.5375,
      "step": 398
    },
    {
      "epoch": 1.176991150442478,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00013859892391017865,
      "loss": 1.5203,
      "step": 399
    },
    {
      "epoch": 1.1799410029498525,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00013830509873179785,
      "loss": 1.7761,
      "step": 400
    },
    {
      "epoch": 1.1799410029498525,
      "eval_loss": 1.6681677103042603,
      "eval_runtime": 31.9388,
      "eval_samples_per_second": 31.31,
      "eval_steps_per_second": 3.914,
      "step": 400
    },
    {
      "epoch": 1.182890855457227,
      "grad_norm": 0.359375,
      "learning_rate": 0.00013801088547306148,
      "loss": 1.6017,
      "step": 401
    },
    {
      "epoch": 1.1858407079646018,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00013771628711473172,
      "loss": 1.4662,
      "step": 402
    },
    {
      "epoch": 1.1887905604719764,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00013742130664147218,
      "loss": 1.5061,
      "step": 403
    },
    {
      "epoch": 1.191740412979351,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00013712594704181784,
      "loss": 1.5444,
      "step": 404
    },
    {
      "epoch": 1.1946902654867257,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0001368302113081447,
      "loss": 1.5087,
      "step": 405
    },
    {
      "epoch": 1.1976401179941003,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00013653410243663952,
      "loss": 1.8815,
      "step": 406
    },
    {
      "epoch": 1.2005899705014749,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00013623762342726935,
      "loss": 1.8163,
      "step": 407
    },
    {
      "epoch": 1.2035398230088497,
      "grad_norm": 0.34375,
      "learning_rate": 0.00013594077728375128,
      "loss": 1.6584,
      "step": 408
    },
    {
      "epoch": 1.2064896755162242,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00013564356701352198,
      "loss": 1.7079,
      "step": 409
    },
    {
      "epoch": 1.2094395280235988,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00013534599562770714,
      "loss": 1.5648,
      "step": 410
    },
    {
      "epoch": 1.2123893805309733,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00013504806614109098,
      "loss": 1.839,
      "step": 411
    },
    {
      "epoch": 1.2153392330383481,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00013474978157208592,
      "loss": 1.6327,
      "step": 412
    },
    {
      "epoch": 1.2182890855457227,
      "grad_norm": 0.3125,
      "learning_rate": 0.00013445114494270154,
      "loss": 1.692,
      "step": 413
    },
    {
      "epoch": 1.2212389380530975,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0001341521592785145,
      "loss": 1.6227,
      "step": 414
    },
    {
      "epoch": 1.224188790560472,
      "grad_norm": 0.34375,
      "learning_rate": 0.00013385282760863758,
      "loss": 1.7722,
      "step": 415
    },
    {
      "epoch": 1.2271386430678466,
      "grad_norm": 0.3125,
      "learning_rate": 0.00013355315296568893,
      "loss": 1.5891,
      "step": 416
    },
    {
      "epoch": 1.2300884955752212,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0001332531383857616,
      "loss": 1.6964,
      "step": 417
    },
    {
      "epoch": 1.233038348082596,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0001329527869083926,
      "loss": 1.5819,
      "step": 418
    },
    {
      "epoch": 1.2359882005899705,
      "grad_norm": 0.296875,
      "learning_rate": 0.00013265210157653213,
      "loss": 1.7053,
      "step": 419
    },
    {
      "epoch": 1.238938053097345,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00013235108543651272,
      "loss": 1.8764,
      "step": 420
    },
    {
      "epoch": 1.2418879056047198,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0001320497415380185,
      "loss": 1.6492,
      "step": 421
    },
    {
      "epoch": 1.2448377581120944,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00013174807293405428,
      "loss": 1.6954,
      "step": 422
    },
    {
      "epoch": 1.247787610619469,
      "grad_norm": 0.328125,
      "learning_rate": 0.00013144608268091435,
      "loss": 1.6719,
      "step": 423
    },
    {
      "epoch": 1.2507374631268435,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00013114377383815188,
      "loss": 1.6428,
      "step": 424
    },
    {
      "epoch": 1.2536873156342183,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00013084114946854776,
      "loss": 1.7714,
      "step": 425
    },
    {
      "epoch": 1.2566371681415929,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00013053821263807946,
      "loss": 1.6289,
      "step": 426
    },
    {
      "epoch": 1.2595870206489677,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00013023496641589025,
      "loss": 1.6812,
      "step": 427
    },
    {
      "epoch": 1.2625368731563422,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00012993141387425788,
      "loss": 1.7832,
      "step": 428
    },
    {
      "epoch": 1.2654867256637168,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00012962755808856342,
      "loss": 1.5353,
      "step": 429
    },
    {
      "epoch": 1.2684365781710913,
      "grad_norm": 0.296875,
      "learning_rate": 0.0001293234021372603,
      "loss": 1.7298,
      "step": 430
    },
    {
      "epoch": 1.2713864306784661,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00012901894910184297,
      "loss": 1.6888,
      "step": 431
    },
    {
      "epoch": 1.2743362831858407,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00012871420206681571,
      "loss": 1.5897,
      "step": 432
    },
    {
      "epoch": 1.2772861356932155,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00012840916411966153,
      "loss": 1.7212,
      "step": 433
    },
    {
      "epoch": 1.28023598820059,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00012810383835081058,
      "loss": 1.5934,
      "step": 434
    },
    {
      "epoch": 1.2831858407079646,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00012779822785360912,
      "loss": 1.5638,
      "step": 435
    },
    {
      "epoch": 1.2861356932153392,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00012749233572428804,
      "loss": 1.6373,
      "step": 436
    },
    {
      "epoch": 1.289085545722714,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00012718616506193151,
      "loss": 1.7397,
      "step": 437
    },
    {
      "epoch": 1.2920353982300885,
      "grad_norm": 0.421875,
      "learning_rate": 0.00012687971896844575,
      "loss": 1.7015,
      "step": 438
    },
    {
      "epoch": 1.294985250737463,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00012657300054852718,
      "loss": 1.5377,
      "step": 439
    },
    {
      "epoch": 1.2979351032448379,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0001262660129096315,
      "loss": 1.6684,
      "step": 440
    },
    {
      "epoch": 1.3008849557522124,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00012595875916194188,
      "loss": 1.7431,
      "step": 441
    },
    {
      "epoch": 1.303834808259587,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0001256512424183373,
      "loss": 1.6242,
      "step": 442
    },
    {
      "epoch": 1.3067846607669615,
      "grad_norm": 0.3125,
      "learning_rate": 0.0001253434657943616,
      "loss": 1.5406,
      "step": 443
    },
    {
      "epoch": 1.3097345132743363,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00012503543240819127,
      "loss": 1.7173,
      "step": 444
    },
    {
      "epoch": 1.3126843657817109,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00012472714538060422,
      "loss": 1.7823,
      "step": 445
    },
    {
      "epoch": 1.3156342182890857,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0001244186078349481,
      "loss": 1.7012,
      "step": 446
    },
    {
      "epoch": 1.3185840707964602,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00012410982289710865,
      "loss": 1.6575,
      "step": 447
    },
    {
      "epoch": 1.3215339233038348,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0001238007936954779,
      "loss": 1.7275,
      "step": 448
    },
    {
      "epoch": 1.3244837758112094,
      "grad_norm": 0.34375,
      "learning_rate": 0.0001234915233609227,
      "loss": 1.6566,
      "step": 449
    },
    {
      "epoch": 1.3274336283185841,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00012318201502675285,
      "loss": 1.5599,
      "step": 450
    },
    {
      "epoch": 1.3303834808259587,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00012287227182868938,
      "loss": 1.7428,
      "step": 451
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00012256229690483283,
      "loss": 1.5681,
      "step": 452
    },
    {
      "epoch": 1.336283185840708,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00012225209339563145,
      "loss": 1.6235,
      "step": 453
    },
    {
      "epoch": 1.3392330383480826,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00012194166444384927,
      "loss": 1.6855,
      "step": 454
    },
    {
      "epoch": 1.3421828908554572,
      "grad_norm": 0.3125,
      "learning_rate": 0.00012163101319453436,
      "loss": 1.7948,
      "step": 455
    },
    {
      "epoch": 1.3451327433628317,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00012132014279498703,
      "loss": 1.5448,
      "step": 456
    },
    {
      "epoch": 1.3480825958702065,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00012100905639472779,
      "loss": 1.7487,
      "step": 457
    },
    {
      "epoch": 1.351032448377581,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00012069775714546559,
      "loss": 1.6448,
      "step": 458
    },
    {
      "epoch": 1.3539823008849559,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00012038624820106572,
      "loss": 1.6214,
      "step": 459
    },
    {
      "epoch": 1.3569321533923304,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00012007453271751805,
      "loss": 1.6763,
      "step": 460
    },
    {
      "epoch": 1.359882005899705,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00011976261385290486,
      "loss": 1.6629,
      "step": 461
    },
    {
      "epoch": 1.3628318584070795,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00011945049476736905,
      "loss": 1.6993,
      "step": 462
    },
    {
      "epoch": 1.3657817109144543,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00011913817862308194,
      "loss": 1.631,
      "step": 463
    },
    {
      "epoch": 1.368731563421829,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00011882566858421135,
      "loss": 1.6783,
      "step": 464
    },
    {
      "epoch": 1.3716814159292037,
      "grad_norm": 0.3125,
      "learning_rate": 0.00011851296781688952,
      "loss": 1.5765,
      "step": 465
    },
    {
      "epoch": 1.3746312684365782,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00011820007948918093,
      "loss": 1.612,
      "step": 466
    },
    {
      "epoch": 1.3775811209439528,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00011788700677105037,
      "loss": 1.6183,
      "step": 467
    },
    {
      "epoch": 1.3805309734513274,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00011757375283433076,
      "loss": 1.7006,
      "step": 468
    },
    {
      "epoch": 1.3834808259587021,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00011726032085269092,
      "loss": 1.6204,
      "step": 469
    },
    {
      "epoch": 1.3864306784660767,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00011694671400160356,
      "loss": 1.6769,
      "step": 470
    },
    {
      "epoch": 1.3893805309734513,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00011663293545831302,
      "loss": 1.7014,
      "step": 471
    },
    {
      "epoch": 1.392330383480826,
      "grad_norm": 0.28125,
      "learning_rate": 0.00011631898840180309,
      "loss": 1.602,
      "step": 472
    },
    {
      "epoch": 1.3952802359882006,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00011600487601276486,
      "loss": 1.7864,
      "step": 473
    },
    {
      "epoch": 1.3982300884955752,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00011569060147356441,
      "loss": 1.783,
      "step": 474
    },
    {
      "epoch": 1.4011799410029497,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00011537616796821064,
      "loss": 1.6512,
      "step": 475
    },
    {
      "epoch": 1.4041297935103245,
      "grad_norm": 0.34375,
      "learning_rate": 0.000115061578682323,
      "loss": 1.6049,
      "step": 476
    },
    {
      "epoch": 1.407079646017699,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00011474683680309912,
      "loss": 1.9239,
      "step": 477
    },
    {
      "epoch": 1.4100294985250739,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00011443194551928266,
      "loss": 1.4879,
      "step": 478
    },
    {
      "epoch": 1.4129793510324484,
      "grad_norm": 0.390625,
      "learning_rate": 0.000114116908021131,
      "loss": 1.6713,
      "step": 479
    },
    {
      "epoch": 1.415929203539823,
      "grad_norm": 0.40625,
      "learning_rate": 0.00011380172750038269,
      "loss": 1.5695,
      "step": 480
    },
    {
      "epoch": 1.4188790560471976,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00011348640715022544,
      "loss": 1.861,
      "step": 481
    },
    {
      "epoch": 1.4218289085545723,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00011317095016526362,
      "loss": 1.6248,
      "step": 482
    },
    {
      "epoch": 1.424778761061947,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00011285535974148576,
      "loss": 1.6543,
      "step": 483
    },
    {
      "epoch": 1.4277286135693215,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00011253963907623235,
      "loss": 1.4798,
      "step": 484
    },
    {
      "epoch": 1.4306784660766962,
      "grad_norm": 0.296875,
      "learning_rate": 0.00011222379136816345,
      "loss": 1.6346,
      "step": 485
    },
    {
      "epoch": 1.4336283185840708,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00011190781981722623,
      "loss": 1.6701,
      "step": 486
    },
    {
      "epoch": 1.4365781710914454,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00011159172762462242,
      "loss": 1.6681,
      "step": 487
    },
    {
      "epoch": 1.43952802359882,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00011127551799277616,
      "loss": 1.8147,
      "step": 488
    },
    {
      "epoch": 1.4424778761061947,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00011095919412530136,
      "loss": 1.8219,
      "step": 489
    },
    {
      "epoch": 1.4454277286135693,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0001106427592269692,
      "loss": 1.7514,
      "step": 490
    },
    {
      "epoch": 1.448377581120944,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00011032621650367585,
      "loss": 1.6597,
      "step": 491
    },
    {
      "epoch": 1.4513274336283186,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00011000956916240985,
      "loss": 1.6328,
      "step": 492
    },
    {
      "epoch": 1.4542772861356932,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00010969282041121962,
      "loss": 1.6175,
      "step": 493
    },
    {
      "epoch": 1.4572271386430677,
      "grad_norm": 0.3125,
      "learning_rate": 0.00010937597345918109,
      "loss": 1.5568,
      "step": 494
    },
    {
      "epoch": 1.4601769911504425,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00010905903151636501,
      "loss": 1.6987,
      "step": 495
    },
    {
      "epoch": 1.463126843657817,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00010874199779380446,
      "loss": 1.5353,
      "step": 496
    },
    {
      "epoch": 1.4660766961651919,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0001084248755034625,
      "loss": 1.6101,
      "step": 497
    },
    {
      "epoch": 1.4690265486725664,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00010810766785819946,
      "loss": 1.7283,
      "step": 498
    },
    {
      "epoch": 1.471976401179941,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00010779037807174033,
      "loss": 1.7475,
      "step": 499
    },
    {
      "epoch": 1.4749262536873156,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00010747300935864243,
      "loss": 1.6163,
      "step": 500
    },
    {
      "epoch": 1.4778761061946903,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00010715556493426262,
      "loss": 1.7581,
      "step": 501
    },
    {
      "epoch": 1.480825958702065,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00010683804801472486,
      "loss": 1.8644,
      "step": 502
    },
    {
      "epoch": 1.4837758112094395,
      "grad_norm": 0.34375,
      "learning_rate": 0.00010652046181688751,
      "loss": 1.8357,
      "step": 503
    },
    {
      "epoch": 1.4867256637168142,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00010620280955831087,
      "loss": 1.5575,
      "step": 504
    },
    {
      "epoch": 1.4896755162241888,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00010588509445722459,
      "loss": 1.7064,
      "step": 505
    },
    {
      "epoch": 1.4926253687315634,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00010556731973249485,
      "loss": 1.6476,
      "step": 506
    },
    {
      "epoch": 1.495575221238938,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00010524948860359193,
      "loss": 1.625,
      "step": 507
    },
    {
      "epoch": 1.4985250737463127,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00010493160429055766,
      "loss": 1.7089,
      "step": 508
    },
    {
      "epoch": 1.5014749262536873,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00010461367001397258,
      "loss": 1.6814,
      "step": 509
    },
    {
      "epoch": 1.504424778761062,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00010429568899492348,
      "loss": 1.69,
      "step": 510
    },
    {
      "epoch": 1.5073746312684366,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00010397766445497072,
      "loss": 1.7063,
      "step": 511
    },
    {
      "epoch": 1.5103244837758112,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00010365959961611553,
      "loss": 1.6066,
      "step": 512
    },
    {
      "epoch": 1.5132743362831858,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00010334149770076747,
      "loss": 1.6865,
      "step": 513
    },
    {
      "epoch": 1.5162241887905603,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00010302336193171174,
      "loss": 1.7555,
      "step": 514
    },
    {
      "epoch": 1.519174041297935,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00010270519553207642,
      "loss": 1.5106,
      "step": 515
    },
    {
      "epoch": 1.5221238938053099,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00010238700172530009,
      "loss": 1.5335,
      "step": 516
    },
    {
      "epoch": 1.5250737463126844,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00010206878373509887,
      "loss": 1.5687,
      "step": 517
    },
    {
      "epoch": 1.528023598820059,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00010175054478543393,
      "loss": 1.6076,
      "step": 518
    },
    {
      "epoch": 1.5309734513274336,
      "grad_norm": 0.3125,
      "learning_rate": 0.00010143228810047875,
      "loss": 1.7202,
      "step": 519
    },
    {
      "epoch": 1.5339233038348081,
      "grad_norm": 0.296875,
      "learning_rate": 0.00010111401690458654,
      "loss": 1.6842,
      "step": 520
    },
    {
      "epoch": 1.536873156342183,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00010079573442225759,
      "loss": 1.6798,
      "step": 521
    },
    {
      "epoch": 1.5398230088495575,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00010047744387810632,
      "loss": 1.6449,
      "step": 522
    },
    {
      "epoch": 1.5427728613569323,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00010015914849682904,
      "loss": 1.5466,
      "step": 523
    },
    {
      "epoch": 1.5457227138643068,
      "grad_norm": 0.33984375,
      "learning_rate": 9.9840851503171e-05,
      "loss": 1.5876,
      "step": 524
    },
    {
      "epoch": 1.5486725663716814,
      "grad_norm": 0.333984375,
      "learning_rate": 9.952255612189368e-05,
      "loss": 1.9133,
      "step": 525
    },
    {
      "epoch": 1.551622418879056,
      "grad_norm": 0.326171875,
      "learning_rate": 9.920426557774245e-05,
      "loss": 1.7234,
      "step": 526
    },
    {
      "epoch": 1.5545722713864307,
      "grad_norm": 0.28515625,
      "learning_rate": 9.888598309541347e-05,
      "loss": 1.6855,
      "step": 527
    },
    {
      "epoch": 1.5575221238938053,
      "grad_norm": 0.349609375,
      "learning_rate": 9.856771189952126e-05,
      "loss": 1.844,
      "step": 528
    },
    {
      "epoch": 1.56047197640118,
      "grad_norm": 0.33203125,
      "learning_rate": 9.824945521456612e-05,
      "loss": 1.6246,
      "step": 529
    },
    {
      "epoch": 1.5634218289085546,
      "grad_norm": 0.3203125,
      "learning_rate": 9.793121626490115e-05,
      "loss": 1.6824,
      "step": 530
    },
    {
      "epoch": 1.5663716814159292,
      "grad_norm": 0.357421875,
      "learning_rate": 9.761299827469992e-05,
      "loss": 1.7217,
      "step": 531
    },
    {
      "epoch": 1.5693215339233038,
      "grad_norm": 0.3359375,
      "learning_rate": 9.729480446792357e-05,
      "loss": 1.6912,
      "step": 532
    },
    {
      "epoch": 1.5722713864306783,
      "grad_norm": 0.283203125,
      "learning_rate": 9.69766380682883e-05,
      "loss": 1.7145,
      "step": 533
    },
    {
      "epoch": 1.575221238938053,
      "grad_norm": 0.275390625,
      "learning_rate": 9.665850229923258e-05,
      "loss": 1.7526,
      "step": 534
    },
    {
      "epoch": 1.5781710914454279,
      "grad_norm": 0.31640625,
      "learning_rate": 9.634040038388448e-05,
      "loss": 1.6355,
      "step": 535
    },
    {
      "epoch": 1.5811209439528024,
      "grad_norm": 0.30859375,
      "learning_rate": 9.602233554502931e-05,
      "loss": 1.5954,
      "step": 536
    },
    {
      "epoch": 1.584070796460177,
      "grad_norm": 0.283203125,
      "learning_rate": 9.570431100507651e-05,
      "loss": 1.6228,
      "step": 537
    },
    {
      "epoch": 1.5870206489675516,
      "grad_norm": 0.28515625,
      "learning_rate": 9.538632998602745e-05,
      "loss": 1.6955,
      "step": 538
    },
    {
      "epoch": 1.5899705014749261,
      "grad_norm": 0.3046875,
      "learning_rate": 9.506839570944238e-05,
      "loss": 1.7207,
      "step": 539
    },
    {
      "epoch": 1.592920353982301,
      "grad_norm": 0.291015625,
      "learning_rate": 9.475051139640809e-05,
      "loss": 1.5637,
      "step": 540
    },
    {
      "epoch": 1.5958702064896755,
      "grad_norm": 0.328125,
      "learning_rate": 9.44326802675052e-05,
      "loss": 1.5857,
      "step": 541
    },
    {
      "epoch": 1.5988200589970503,
      "grad_norm": 0.294921875,
      "learning_rate": 9.411490554277541e-05,
      "loss": 1.5639,
      "step": 542
    },
    {
      "epoch": 1.6017699115044248,
      "grad_norm": 0.296875,
      "learning_rate": 9.379719044168915e-05,
      "loss": 1.5414,
      "step": 543
    },
    {
      "epoch": 1.6047197640117994,
      "grad_norm": 0.333984375,
      "learning_rate": 9.34795381831125e-05,
      "loss": 1.4982,
      "step": 544
    },
    {
      "epoch": 1.607669616519174,
      "grad_norm": 0.3125,
      "learning_rate": 9.316195198527518e-05,
      "loss": 1.7949,
      "step": 545
    },
    {
      "epoch": 1.6106194690265485,
      "grad_norm": 0.31640625,
      "learning_rate": 9.28444350657374e-05,
      "loss": 1.7075,
      "step": 546
    },
    {
      "epoch": 1.6135693215339233,
      "grad_norm": 0.310546875,
      "learning_rate": 9.252699064135758e-05,
      "loss": 1.69,
      "step": 547
    },
    {
      "epoch": 1.616519174041298,
      "grad_norm": 0.2890625,
      "learning_rate": 9.220962192825968e-05,
      "loss": 1.6767,
      "step": 548
    },
    {
      "epoch": 1.6194690265486726,
      "grad_norm": 0.3203125,
      "learning_rate": 9.189233214180056e-05,
      "loss": 1.6374,
      "step": 549
    },
    {
      "epoch": 1.6224188790560472,
      "grad_norm": 0.3828125,
      "learning_rate": 9.157512449653751e-05,
      "loss": 1.6882,
      "step": 550
    },
    {
      "epoch": 1.6253687315634218,
      "grad_norm": 0.3125,
      "learning_rate": 9.125800220619558e-05,
      "loss": 1.7315,
      "step": 551
    },
    {
      "epoch": 1.6283185840707963,
      "grad_norm": 0.32421875,
      "learning_rate": 9.094096848363502e-05,
      "loss": 1.7225,
      "step": 552
    },
    {
      "epoch": 1.631268436578171,
      "grad_norm": 0.306640625,
      "learning_rate": 9.062402654081895e-05,
      "loss": 1.714,
      "step": 553
    },
    {
      "epoch": 1.6342182890855457,
      "grad_norm": 0.294921875,
      "learning_rate": 9.030717958878037e-05,
      "loss": 1.8014,
      "step": 554
    },
    {
      "epoch": 1.6371681415929205,
      "grad_norm": 0.365234375,
      "learning_rate": 8.999043083759017e-05,
      "loss": 1.5867,
      "step": 555
    },
    {
      "epoch": 1.640117994100295,
      "grad_norm": 0.34375,
      "learning_rate": 8.967378349632415e-05,
      "loss": 1.5943,
      "step": 556
    },
    {
      "epoch": 1.6430678466076696,
      "grad_norm": 0.31640625,
      "learning_rate": 8.935724077303083e-05,
      "loss": 1.6402,
      "step": 557
    },
    {
      "epoch": 1.6460176991150441,
      "grad_norm": 0.294921875,
      "learning_rate": 8.904080587469868e-05,
      "loss": 1.6993,
      "step": 558
    },
    {
      "epoch": 1.648967551622419,
      "grad_norm": 0.328125,
      "learning_rate": 8.872448200722385e-05,
      "loss": 1.8536,
      "step": 559
    },
    {
      "epoch": 1.6519174041297935,
      "grad_norm": 0.3046875,
      "learning_rate": 8.840827237537761e-05,
      "loss": 1.6816,
      "step": 560
    },
    {
      "epoch": 1.6548672566371683,
      "grad_norm": 0.337890625,
      "learning_rate": 8.809218018277378e-05,
      "loss": 1.5556,
      "step": 561
    },
    {
      "epoch": 1.6578171091445428,
      "grad_norm": 0.318359375,
      "learning_rate": 8.777620863183657e-05,
      "loss": 1.6722,
      "step": 562
    },
    {
      "epoch": 1.6607669616519174,
      "grad_norm": 0.318359375,
      "learning_rate": 8.74603609237677e-05,
      "loss": 1.7428,
      "step": 563
    },
    {
      "epoch": 1.663716814159292,
      "grad_norm": 0.314453125,
      "learning_rate": 8.714464025851427e-05,
      "loss": 1.6679,
      "step": 564
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.318359375,
      "learning_rate": 8.682904983473641e-05,
      "loss": 1.7588,
      "step": 565
    },
    {
      "epoch": 1.6696165191740413,
      "grad_norm": 0.29296875,
      "learning_rate": 8.651359284977454e-05,
      "loss": 1.7624,
      "step": 566
    },
    {
      "epoch": 1.672566371681416,
      "grad_norm": 0.287109375,
      "learning_rate": 8.619827249961733e-05,
      "loss": 1.6439,
      "step": 567
    },
    {
      "epoch": 1.6755162241887906,
      "grad_norm": 0.328125,
      "learning_rate": 8.588309197886905e-05,
      "loss": 1.7156,
      "step": 568
    },
    {
      "epoch": 1.6784660766961652,
      "grad_norm": 0.34765625,
      "learning_rate": 8.556805448071735e-05,
      "loss": 1.5685,
      "step": 569
    },
    {
      "epoch": 1.6814159292035398,
      "grad_norm": 0.27734375,
      "learning_rate": 8.525316319690092e-05,
      "loss": 1.6659,
      "step": 570
    },
    {
      "epoch": 1.6843657817109143,
      "grad_norm": 0.318359375,
      "learning_rate": 8.493842131767701e-05,
      "loss": 1.5682,
      "step": 571
    },
    {
      "epoch": 1.6873156342182891,
      "grad_norm": 0.296875,
      "learning_rate": 8.462383203178938e-05,
      "loss": 1.61,
      "step": 572
    },
    {
      "epoch": 1.6902654867256637,
      "grad_norm": 0.34375,
      "learning_rate": 8.430939852643558e-05,
      "loss": 1.6964,
      "step": 573
    },
    {
      "epoch": 1.6932153392330385,
      "grad_norm": 0.365234375,
      "learning_rate": 8.399512398723515e-05,
      "loss": 1.6285,
      "step": 574
    },
    {
      "epoch": 1.696165191740413,
      "grad_norm": 0.3046875,
      "learning_rate": 8.368101159819693e-05,
      "loss": 1.6619,
      "step": 575
    },
    {
      "epoch": 1.6991150442477876,
      "grad_norm": 0.3125,
      "learning_rate": 8.336706454168701e-05,
      "loss": 1.6103,
      "step": 576
    },
    {
      "epoch": 1.7020648967551621,
      "grad_norm": 0.314453125,
      "learning_rate": 8.305328599839647e-05,
      "loss": 1.6996,
      "step": 577
    },
    {
      "epoch": 1.7050147492625367,
      "grad_norm": 0.310546875,
      "learning_rate": 8.273967914730909e-05,
      "loss": 1.712,
      "step": 578
    },
    {
      "epoch": 1.7079646017699115,
      "grad_norm": 0.345703125,
      "learning_rate": 8.242624716566927e-05,
      "loss": 1.6079,
      "step": 579
    },
    {
      "epoch": 1.7109144542772863,
      "grad_norm": 0.30078125,
      "learning_rate": 8.211299322894965e-05,
      "loss": 1.4922,
      "step": 580
    },
    {
      "epoch": 1.7138643067846608,
      "grad_norm": 0.32421875,
      "learning_rate": 8.17999205108191e-05,
      "loss": 1.7535,
      "step": 581
    },
    {
      "epoch": 1.7168141592920354,
      "grad_norm": 0.3359375,
      "learning_rate": 8.148703218311053e-05,
      "loss": 1.5719,
      "step": 582
    },
    {
      "epoch": 1.71976401179941,
      "grad_norm": 0.31640625,
      "learning_rate": 8.117433141578866e-05,
      "loss": 1.7844,
      "step": 583
    },
    {
      "epoch": 1.7227138643067845,
      "grad_norm": 0.333984375,
      "learning_rate": 8.086182137691808e-05,
      "loss": 1.6151,
      "step": 584
    },
    {
      "epoch": 1.7256637168141593,
      "grad_norm": 0.33203125,
      "learning_rate": 8.054950523263096e-05,
      "loss": 1.6327,
      "step": 585
    },
    {
      "epoch": 1.7286135693215339,
      "grad_norm": 0.3359375,
      "learning_rate": 8.023738614709516e-05,
      "loss": 1.5235,
      "step": 586
    },
    {
      "epoch": 1.7315634218289087,
      "grad_norm": 0.3515625,
      "learning_rate": 7.9925467282482e-05,
      "loss": 1.6449,
      "step": 587
    },
    {
      "epoch": 1.7345132743362832,
      "grad_norm": 0.310546875,
      "learning_rate": 7.96137517989343e-05,
      "loss": 1.7244,
      "step": 588
    },
    {
      "epoch": 1.7374631268436578,
      "grad_norm": 0.30859375,
      "learning_rate": 7.930224285453445e-05,
      "loss": 1.7338,
      "step": 589
    },
    {
      "epoch": 1.7404129793510323,
      "grad_norm": 0.26171875,
      "learning_rate": 7.89909436052722e-05,
      "loss": 1.7002,
      "step": 590
    },
    {
      "epoch": 1.7433628318584071,
      "grad_norm": 0.3125,
      "learning_rate": 7.867985720501301e-05,
      "loss": 1.7839,
      "step": 591
    },
    {
      "epoch": 1.7463126843657817,
      "grad_norm": 0.306640625,
      "learning_rate": 7.836898680546569e-05,
      "loss": 1.7261,
      "step": 592
    },
    {
      "epoch": 1.7492625368731565,
      "grad_norm": 0.3359375,
      "learning_rate": 7.805833555615077e-05,
      "loss": 1.588,
      "step": 593
    },
    {
      "epoch": 1.752212389380531,
      "grad_norm": 0.30859375,
      "learning_rate": 7.774790660436858e-05,
      "loss": 1.7156,
      "step": 594
    },
    {
      "epoch": 1.7551622418879056,
      "grad_norm": 0.29296875,
      "learning_rate": 7.743770309516715e-05,
      "loss": 1.4764,
      "step": 595
    },
    {
      "epoch": 1.7581120943952802,
      "grad_norm": 0.310546875,
      "learning_rate": 7.712772817131064e-05,
      "loss": 1.4958,
      "step": 596
    },
    {
      "epoch": 1.7610619469026547,
      "grad_norm": 0.318359375,
      "learning_rate": 7.681798497324716e-05,
      "loss": 1.6959,
      "step": 597
    },
    {
      "epoch": 1.7640117994100295,
      "grad_norm": 0.359375,
      "learning_rate": 7.650847663907733e-05,
      "loss": 1.5634,
      "step": 598
    },
    {
      "epoch": 1.7669616519174043,
      "grad_norm": 0.30859375,
      "learning_rate": 7.619920630452214e-05,
      "loss": 1.6262,
      "step": 599
    },
    {
      "epoch": 1.7699115044247788,
      "grad_norm": 0.30859375,
      "learning_rate": 7.589017710289139e-05,
      "loss": 1.708,
      "step": 600
    },
    {
      "epoch": 1.7699115044247788,
      "eval_loss": 1.6580859422683716,
      "eval_runtime": 31.6648,
      "eval_samples_per_second": 31.581,
      "eval_steps_per_second": 3.948,
      "step": 600
    },
    {
      "epoch": 1.7728613569321534,
      "grad_norm": 0.3125,
      "learning_rate": 7.558139216505192e-05,
      "loss": 1.7115,
      "step": 601
    },
    {
      "epoch": 1.775811209439528,
      "grad_norm": 0.326171875,
      "learning_rate": 7.527285461939577e-05,
      "loss": 1.5915,
      "step": 602
    },
    {
      "epoch": 1.7787610619469025,
      "grad_norm": 0.30078125,
      "learning_rate": 7.496456759180875e-05,
      "loss": 1.6569,
      "step": 603
    },
    {
      "epoch": 1.7817109144542773,
      "grad_norm": 0.345703125,
      "learning_rate": 7.465653420563845e-05,
      "loss": 1.6496,
      "step": 604
    },
    {
      "epoch": 1.7846607669616519,
      "grad_norm": 0.326171875,
      "learning_rate": 7.434875758166271e-05,
      "loss": 1.6294,
      "step": 605
    },
    {
      "epoch": 1.7876106194690267,
      "grad_norm": 0.30078125,
      "learning_rate": 7.404124083805819e-05,
      "loss": 1.6477,
      "step": 606
    },
    {
      "epoch": 1.7905604719764012,
      "grad_norm": 0.365234375,
      "learning_rate": 7.373398709036849e-05,
      "loss": 1.668,
      "step": 607
    },
    {
      "epoch": 1.7935103244837758,
      "grad_norm": 0.341796875,
      "learning_rate": 7.342699945147282e-05,
      "loss": 1.7326,
      "step": 608
    },
    {
      "epoch": 1.7964601769911503,
      "grad_norm": 0.328125,
      "learning_rate": 7.312028103155426e-05,
      "loss": 1.7393,
      "step": 609
    },
    {
      "epoch": 1.799410029498525,
      "grad_norm": 0.29296875,
      "learning_rate": 7.281383493806848e-05,
      "loss": 1.7425,
      "step": 610
    },
    {
      "epoch": 1.8023598820058997,
      "grad_norm": 0.296875,
      "learning_rate": 7.2507664275712e-05,
      "loss": 1.5446,
      "step": 611
    },
    {
      "epoch": 1.8053097345132745,
      "grad_norm": 0.310546875,
      "learning_rate": 7.220177214639088e-05,
      "loss": 1.7148,
      "step": 612
    },
    {
      "epoch": 1.808259587020649,
      "grad_norm": 0.3203125,
      "learning_rate": 7.189616164918943e-05,
      "loss": 1.8348,
      "step": 613
    },
    {
      "epoch": 1.8112094395280236,
      "grad_norm": 0.330078125,
      "learning_rate": 7.159083588033848e-05,
      "loss": 1.6544,
      "step": 614
    },
    {
      "epoch": 1.8141592920353982,
      "grad_norm": 0.28515625,
      "learning_rate": 7.128579793318428e-05,
      "loss": 1.7254,
      "step": 615
    },
    {
      "epoch": 1.8171091445427727,
      "grad_norm": 0.291015625,
      "learning_rate": 7.098105089815707e-05,
      "loss": 1.891,
      "step": 616
    },
    {
      "epoch": 1.8200589970501475,
      "grad_norm": 0.359375,
      "learning_rate": 7.067659786273974e-05,
      "loss": 1.8228,
      "step": 617
    },
    {
      "epoch": 1.823008849557522,
      "grad_norm": 0.33203125,
      "learning_rate": 7.037244191143661e-05,
      "loss": 1.6688,
      "step": 618
    },
    {
      "epoch": 1.8259587020648969,
      "grad_norm": 0.3359375,
      "learning_rate": 7.006858612574215e-05,
      "loss": 1.7359,
      "step": 619
    },
    {
      "epoch": 1.8289085545722714,
      "grad_norm": 0.3515625,
      "learning_rate": 6.976503358410976e-05,
      "loss": 1.6354,
      "step": 620
    },
    {
      "epoch": 1.831858407079646,
      "grad_norm": 0.373046875,
      "learning_rate": 6.946178736192053e-05,
      "loss": 1.6249,
      "step": 621
    },
    {
      "epoch": 1.8348082595870205,
      "grad_norm": 0.310546875,
      "learning_rate": 6.915885053145228e-05,
      "loss": 1.5185,
      "step": 622
    },
    {
      "epoch": 1.8377581120943953,
      "grad_norm": 0.314453125,
      "learning_rate": 6.885622616184817e-05,
      "loss": 1.7161,
      "step": 623
    },
    {
      "epoch": 1.8407079646017699,
      "grad_norm": 0.287109375,
      "learning_rate": 6.855391731908567e-05,
      "loss": 1.8381,
      "step": 624
    },
    {
      "epoch": 1.8436578171091447,
      "grad_norm": 0.326171875,
      "learning_rate": 6.825192706594575e-05,
      "loss": 1.4908,
      "step": 625
    },
    {
      "epoch": 1.8466076696165192,
      "grad_norm": 0.322265625,
      "learning_rate": 6.795025846198148e-05,
      "loss": 1.6379,
      "step": 626
    },
    {
      "epoch": 1.8495575221238938,
      "grad_norm": 0.2890625,
      "learning_rate": 6.764891456348729e-05,
      "loss": 1.6859,
      "step": 627
    },
    {
      "epoch": 1.8525073746312684,
      "grad_norm": 0.330078125,
      "learning_rate": 6.734789842346791e-05,
      "loss": 1.5771,
      "step": 628
    },
    {
      "epoch": 1.855457227138643,
      "grad_norm": 0.359375,
      "learning_rate": 6.704721309160743e-05,
      "loss": 1.79,
      "step": 629
    },
    {
      "epoch": 1.8584070796460177,
      "grad_norm": 0.30078125,
      "learning_rate": 6.674686161423843e-05,
      "loss": 1.495,
      "step": 630
    },
    {
      "epoch": 1.8613569321533925,
      "grad_norm": 0.3515625,
      "learning_rate": 6.644684703431108e-05,
      "loss": 1.7951,
      "step": 631
    },
    {
      "epoch": 1.864306784660767,
      "grad_norm": 0.3515625,
      "learning_rate": 6.614717239136246e-05,
      "loss": 1.7541,
      "step": 632
    },
    {
      "epoch": 1.8672566371681416,
      "grad_norm": 0.33203125,
      "learning_rate": 6.584784072148555e-05,
      "loss": 1.9289,
      "step": 633
    },
    {
      "epoch": 1.8702064896755162,
      "grad_norm": 0.31640625,
      "learning_rate": 6.554885505729849e-05,
      "loss": 1.6045,
      "step": 634
    },
    {
      "epoch": 1.8731563421828907,
      "grad_norm": 0.294921875,
      "learning_rate": 6.525021842791414e-05,
      "loss": 1.6308,
      "step": 635
    },
    {
      "epoch": 1.8761061946902655,
      "grad_norm": 0.3671875,
      "learning_rate": 6.495193385890901e-05,
      "loss": 1.4904,
      "step": 636
    },
    {
      "epoch": 1.87905604719764,
      "grad_norm": 0.30859375,
      "learning_rate": 6.46540043722929e-05,
      "loss": 1.6158,
      "step": 637
    },
    {
      "epoch": 1.8820058997050149,
      "grad_norm": 0.3828125,
      "learning_rate": 6.435643298647802e-05,
      "loss": 1.749,
      "step": 638
    },
    {
      "epoch": 1.8849557522123894,
      "grad_norm": 0.322265625,
      "learning_rate": 6.405922271624874e-05,
      "loss": 1.7184,
      "step": 639
    },
    {
      "epoch": 1.887905604719764,
      "grad_norm": 0.31640625,
      "learning_rate": 6.37623765727307e-05,
      "loss": 1.6861,
      "step": 640
    },
    {
      "epoch": 1.8908554572271385,
      "grad_norm": 0.302734375,
      "learning_rate": 6.34658975633605e-05,
      "loss": 1.7182,
      "step": 641
    },
    {
      "epoch": 1.893805309734513,
      "grad_norm": 0.291015625,
      "learning_rate": 6.316978869185532e-05,
      "loss": 1.5248,
      "step": 642
    },
    {
      "epoch": 1.896755162241888,
      "grad_norm": 0.3515625,
      "learning_rate": 6.287405295818215e-05,
      "loss": 1.649,
      "step": 643
    },
    {
      "epoch": 1.8997050147492627,
      "grad_norm": 0.333984375,
      "learning_rate": 6.257869335852782e-05,
      "loss": 1.9492,
      "step": 644
    },
    {
      "epoch": 1.9026548672566372,
      "grad_norm": 0.33203125,
      "learning_rate": 6.22837128852683e-05,
      "loss": 1.5825,
      "step": 645
    },
    {
      "epoch": 1.9056047197640118,
      "grad_norm": 0.296875,
      "learning_rate": 6.198911452693853e-05,
      "loss": 1.7139,
      "step": 646
    },
    {
      "epoch": 1.9085545722713864,
      "grad_norm": 0.275390625,
      "learning_rate": 6.169490126820221e-05,
      "loss": 1.4473,
      "step": 647
    },
    {
      "epoch": 1.911504424778761,
      "grad_norm": 0.306640625,
      "learning_rate": 6.140107608982136e-05,
      "loss": 1.707,
      "step": 648
    },
    {
      "epoch": 1.9144542772861357,
      "grad_norm": 0.30859375,
      "learning_rate": 6.110764196862638e-05,
      "loss": 1.6014,
      "step": 649
    },
    {
      "epoch": 1.9174041297935103,
      "grad_norm": 0.3125,
      "learning_rate": 6.08146018774856e-05,
      "loss": 1.7926,
      "step": 650
    },
    {
      "epoch": 1.920353982300885,
      "grad_norm": 0.296875,
      "learning_rate": 6.05219587852755e-05,
      "loss": 1.6587,
      "step": 651
    },
    {
      "epoch": 1.9233038348082596,
      "grad_norm": 0.328125,
      "learning_rate": 6.0229715656850305e-05,
      "loss": 1.7686,
      "step": 652
    },
    {
      "epoch": 1.9262536873156342,
      "grad_norm": 0.294921875,
      "learning_rate": 5.993787545301204e-05,
      "loss": 1.8097,
      "step": 653
    },
    {
      "epoch": 1.9292035398230087,
      "grad_norm": 0.275390625,
      "learning_rate": 5.964644113048079e-05,
      "loss": 1.5351,
      "step": 654
    },
    {
      "epoch": 1.9321533923303835,
      "grad_norm": 0.298828125,
      "learning_rate": 5.9355415641864334e-05,
      "loss": 1.6233,
      "step": 655
    },
    {
      "epoch": 1.935103244837758,
      "grad_norm": 0.29296875,
      "learning_rate": 5.9064801935628555e-05,
      "loss": 1.6599,
      "step": 656
    },
    {
      "epoch": 1.9380530973451329,
      "grad_norm": 0.322265625,
      "learning_rate": 5.877460295606738e-05,
      "loss": 1.6859,
      "step": 657
    },
    {
      "epoch": 1.9410029498525074,
      "grad_norm": 0.29296875,
      "learning_rate": 5.8484821643273036e-05,
      "loss": 1.6999,
      "step": 658
    },
    {
      "epoch": 1.943952802359882,
      "grad_norm": 0.326171875,
      "learning_rate": 5.819546093310627e-05,
      "loss": 1.6546,
      "step": 659
    },
    {
      "epoch": 1.9469026548672566,
      "grad_norm": 0.3203125,
      "learning_rate": 5.790652375716652e-05,
      "loss": 1.5823,
      "step": 660
    },
    {
      "epoch": 1.9498525073746311,
      "grad_norm": 0.328125,
      "learning_rate": 5.761801304276232e-05,
      "loss": 1.6418,
      "step": 661
    },
    {
      "epoch": 1.952802359882006,
      "grad_norm": 0.333984375,
      "learning_rate": 5.732993171288159e-05,
      "loss": 2.0341,
      "step": 662
    },
    {
      "epoch": 1.9557522123893807,
      "grad_norm": 0.33203125,
      "learning_rate": 5.704228268616208e-05,
      "loss": 1.868,
      "step": 663
    },
    {
      "epoch": 1.9587020648967552,
      "grad_norm": 0.349609375,
      "learning_rate": 5.675506887686157e-05,
      "loss": 1.5891,
      "step": 664
    },
    {
      "epoch": 1.9616519174041298,
      "grad_norm": 0.330078125,
      "learning_rate": 5.6468293194828715e-05,
      "loss": 1.6423,
      "step": 665
    },
    {
      "epoch": 1.9646017699115044,
      "grad_norm": 0.30078125,
      "learning_rate": 5.6181958545473325e-05,
      "loss": 1.6751,
      "step": 666
    },
    {
      "epoch": 1.967551622418879,
      "grad_norm": 0.349609375,
      "learning_rate": 5.589606782973683e-05,
      "loss": 1.5909,
      "step": 667
    },
    {
      "epoch": 1.9705014749262537,
      "grad_norm": 0.302734375,
      "learning_rate": 5.5610623944063325e-05,
      "loss": 1.6203,
      "step": 668
    },
    {
      "epoch": 1.9734513274336283,
      "grad_norm": 0.296875,
      "learning_rate": 5.5325629780369635e-05,
      "loss": 1.6008,
      "step": 669
    },
    {
      "epoch": 1.976401179941003,
      "grad_norm": 0.33984375,
      "learning_rate": 5.50410882260165e-05,
      "loss": 1.5562,
      "step": 670
    },
    {
      "epoch": 1.9793510324483776,
      "grad_norm": 0.306640625,
      "learning_rate": 5.4757002163779136e-05,
      "loss": 1.6538,
      "step": 671
    },
    {
      "epoch": 1.9823008849557522,
      "grad_norm": 0.296875,
      "learning_rate": 5.4473374471817906e-05,
      "loss": 1.6784,
      "step": 672
    },
    {
      "epoch": 1.9852507374631267,
      "grad_norm": 0.3125,
      "learning_rate": 5.41902080236494e-05,
      "loss": 1.835,
      "step": 673
    },
    {
      "epoch": 1.9882005899705013,
      "grad_norm": 0.328125,
      "learning_rate": 5.39075056881172e-05,
      "loss": 1.7589,
      "step": 674
    },
    {
      "epoch": 1.991150442477876,
      "grad_norm": 0.294921875,
      "learning_rate": 5.362527032936277e-05,
      "loss": 1.5125,
      "step": 675
    },
    {
      "epoch": 1.9941002949852509,
      "grad_norm": 0.28515625,
      "learning_rate": 5.334350480679662e-05,
      "loss": 1.4691,
      "step": 676
    },
    {
      "epoch": 1.9970501474926254,
      "grad_norm": 0.306640625,
      "learning_rate": 5.306221197506899e-05,
      "loss": 1.5478,
      "step": 677
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.41015625,
      "learning_rate": 5.278139468404133e-05,
      "loss": 1.705,
      "step": 678
    },
    {
      "epoch": 2.0029498525073746,
      "grad_norm": 0.328125,
      "learning_rate": 5.2501055778757194e-05,
      "loss": 1.6805,
      "step": 679
    },
    {
      "epoch": 2.005899705014749,
      "grad_norm": 0.291015625,
      "learning_rate": 5.22211980994135e-05,
      "loss": 1.59,
      "step": 680
    },
    {
      "epoch": 2.0088495575221237,
      "grad_norm": 0.310546875,
      "learning_rate": 5.1941824481331626e-05,
      "loss": 1.7236,
      "step": 681
    },
    {
      "epoch": 2.0117994100294987,
      "grad_norm": 0.279296875,
      "learning_rate": 5.166293775492887e-05,
      "loss": 1.5412,
      "step": 682
    },
    {
      "epoch": 2.0147492625368733,
      "grad_norm": 0.326171875,
      "learning_rate": 5.13845407456897e-05,
      "loss": 1.6976,
      "step": 683
    },
    {
      "epoch": 2.017699115044248,
      "grad_norm": 0.3828125,
      "learning_rate": 5.110663627413694e-05,
      "loss": 1.7459,
      "step": 684
    },
    {
      "epoch": 2.0206489675516224,
      "grad_norm": 0.3515625,
      "learning_rate": 5.082922715580367e-05,
      "loss": 1.7716,
      "step": 685
    },
    {
      "epoch": 2.023598820058997,
      "grad_norm": 0.341796875,
      "learning_rate": 5.055231620120413e-05,
      "loss": 1.6577,
      "step": 686
    },
    {
      "epoch": 2.0265486725663715,
      "grad_norm": 0.279296875,
      "learning_rate": 5.0275906215805625e-05,
      "loss": 1.7055,
      "step": 687
    },
    {
      "epoch": 2.0294985250737465,
      "grad_norm": 0.3203125,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.7497,
      "step": 688
    },
    {
      "epoch": 2.032448377581121,
      "grad_norm": 0.3125,
      "learning_rate": 4.972460034907524e-05,
      "loss": 1.5918,
      "step": 689
    },
    {
      "epoch": 2.0353982300884956,
      "grad_norm": 0.296875,
      "learning_rate": 4.944971005318716e-05,
      "loss": 1.563,
      "step": 690
    },
    {
      "epoch": 2.03834808259587,
      "grad_norm": 0.32421875,
      "learning_rate": 4.9175331897331154e-05,
      "loss": 1.4705,
      "step": 691
    },
    {
      "epoch": 2.0412979351032448,
      "grad_norm": 0.306640625,
      "learning_rate": 4.890146866131403e-05,
      "loss": 1.6201,
      "step": 692
    },
    {
      "epoch": 2.0442477876106193,
      "grad_norm": 0.3203125,
      "learning_rate": 4.862812311972567e-05,
      "loss": 1.5944,
      "step": 693
    },
    {
      "epoch": 2.047197640117994,
      "grad_norm": 0.3203125,
      "learning_rate": 4.8355298041911125e-05,
      "loss": 1.6683,
      "step": 694
    },
    {
      "epoch": 2.050147492625369,
      "grad_norm": 0.3125,
      "learning_rate": 4.808299619194251e-05,
      "loss": 1.5897,
      "step": 695
    },
    {
      "epoch": 2.0530973451327434,
      "grad_norm": 0.341796875,
      "learning_rate": 4.781122032859079e-05,
      "loss": 1.5515,
      "step": 696
    },
    {
      "epoch": 2.056047197640118,
      "grad_norm": 0.3671875,
      "learning_rate": 4.753997320529827e-05,
      "loss": 1.6306,
      "step": 697
    },
    {
      "epoch": 2.0589970501474926,
      "grad_norm": 0.306640625,
      "learning_rate": 4.726925757015017e-05,
      "loss": 1.6803,
      "step": 698
    },
    {
      "epoch": 2.061946902654867,
      "grad_norm": 0.30078125,
      "learning_rate": 4.699907616584721e-05,
      "loss": 1.8112,
      "step": 699
    },
    {
      "epoch": 2.0648967551622417,
      "grad_norm": 0.32421875,
      "learning_rate": 4.672943172967764e-05,
      "loss": 1.6841,
      "step": 700
    },
    {
      "epoch": 2.0678466076696167,
      "grad_norm": 0.3203125,
      "learning_rate": 4.6460326993489414e-05,
      "loss": 1.6514,
      "step": 701
    },
    {
      "epoch": 2.0707964601769913,
      "grad_norm": 0.384765625,
      "learning_rate": 4.6191764683662744e-05,
      "loss": 1.6776,
      "step": 702
    },
    {
      "epoch": 2.073746312684366,
      "grad_norm": 0.373046875,
      "learning_rate": 4.592374752108231e-05,
      "loss": 1.8347,
      "step": 703
    },
    {
      "epoch": 2.0766961651917404,
      "grad_norm": 0.30859375,
      "learning_rate": 4.5656278221109804e-05,
      "loss": 1.6331,
      "step": 704
    },
    {
      "epoch": 2.079646017699115,
      "grad_norm": 0.298828125,
      "learning_rate": 4.538935949355623e-05,
      "loss": 1.7079,
      "step": 705
    },
    {
      "epoch": 2.0825958702064895,
      "grad_norm": 0.310546875,
      "learning_rate": 4.512299404265469e-05,
      "loss": 1.5765,
      "step": 706
    },
    {
      "epoch": 2.0855457227138645,
      "grad_norm": 0.3125,
      "learning_rate": 4.485718456703284e-05,
      "loss": 1.8369,
      "step": 707
    },
    {
      "epoch": 2.088495575221239,
      "grad_norm": 0.3203125,
      "learning_rate": 4.45919337596856e-05,
      "loss": 1.6378,
      "step": 708
    },
    {
      "epoch": 2.0914454277286136,
      "grad_norm": 0.322265625,
      "learning_rate": 4.432724430794786e-05,
      "loss": 1.6439,
      "step": 709
    },
    {
      "epoch": 2.094395280235988,
      "grad_norm": 0.40625,
      "learning_rate": 4.406311889346717e-05,
      "loss": 1.7181,
      "step": 710
    },
    {
      "epoch": 2.0973451327433628,
      "grad_norm": 0.3359375,
      "learning_rate": 4.379956019217675e-05,
      "loss": 1.6335,
      "step": 711
    },
    {
      "epoch": 2.1002949852507373,
      "grad_norm": 0.306640625,
      "learning_rate": 4.3536570874268266e-05,
      "loss": 1.6247,
      "step": 712
    },
    {
      "epoch": 2.103244837758112,
      "grad_norm": 0.32421875,
      "learning_rate": 4.327415360416468e-05,
      "loss": 1.5901,
      "step": 713
    },
    {
      "epoch": 2.106194690265487,
      "grad_norm": 0.330078125,
      "learning_rate": 4.3012311040493594e-05,
      "loss": 1.7575,
      "step": 714
    },
    {
      "epoch": 2.1091445427728615,
      "grad_norm": 0.3046875,
      "learning_rate": 4.275104583605982e-05,
      "loss": 1.6593,
      "step": 715
    },
    {
      "epoch": 2.112094395280236,
      "grad_norm": 0.33203125,
      "learning_rate": 4.249036063781896e-05,
      "loss": 1.5962,
      "step": 716
    },
    {
      "epoch": 2.1150442477876106,
      "grad_norm": 0.33984375,
      "learning_rate": 4.2230258086850374e-05,
      "loss": 1.7337,
      "step": 717
    },
    {
      "epoch": 2.117994100294985,
      "grad_norm": 0.29296875,
      "learning_rate": 4.197074081833033e-05,
      "loss": 1.6672,
      "step": 718
    },
    {
      "epoch": 2.1209439528023597,
      "grad_norm": 0.326171875,
      "learning_rate": 4.171181146150557e-05,
      "loss": 1.692,
      "step": 719
    },
    {
      "epoch": 2.1238938053097347,
      "grad_norm": 0.2890625,
      "learning_rate": 4.1453472639666457e-05,
      "loss": 1.5694,
      "step": 720
    },
    {
      "epoch": 2.1268436578171093,
      "grad_norm": 0.330078125,
      "learning_rate": 4.1195726970120516e-05,
      "loss": 1.6111,
      "step": 721
    },
    {
      "epoch": 2.129793510324484,
      "grad_norm": 0.314453125,
      "learning_rate": 4.093857706416577e-05,
      "loss": 1.5507,
      "step": 722
    },
    {
      "epoch": 2.1327433628318584,
      "grad_norm": 0.275390625,
      "learning_rate": 4.0682025527064486e-05,
      "loss": 1.5692,
      "step": 723
    },
    {
      "epoch": 2.135693215339233,
      "grad_norm": 0.306640625,
      "learning_rate": 4.042607495801667e-05,
      "loss": 1.6376,
      "step": 724
    },
    {
      "epoch": 2.1386430678466075,
      "grad_norm": 0.296875,
      "learning_rate": 4.017072795013359e-05,
      "loss": 1.6968,
      "step": 725
    },
    {
      "epoch": 2.1415929203539825,
      "grad_norm": 0.302734375,
      "learning_rate": 3.991598709041196e-05,
      "loss": 1.6051,
      "step": 726
    },
    {
      "epoch": 2.144542772861357,
      "grad_norm": 0.314453125,
      "learning_rate": 3.96618549597071e-05,
      "loss": 1.5706,
      "step": 727
    },
    {
      "epoch": 2.1474926253687316,
      "grad_norm": 0.30078125,
      "learning_rate": 3.9408334132707315e-05,
      "loss": 1.6237,
      "step": 728
    },
    {
      "epoch": 2.150442477876106,
      "grad_norm": 0.294921875,
      "learning_rate": 3.915542717790759e-05,
      "loss": 1.7036,
      "step": 729
    },
    {
      "epoch": 2.1533923303834808,
      "grad_norm": 0.314453125,
      "learning_rate": 3.890313665758348e-05,
      "loss": 1.7589,
      "step": 730
    },
    {
      "epoch": 2.1563421828908553,
      "grad_norm": 0.298828125,
      "learning_rate": 3.865146512776537e-05,
      "loss": 1.7329,
      "step": 731
    },
    {
      "epoch": 2.15929203539823,
      "grad_norm": 0.3515625,
      "learning_rate": 3.840041513821243e-05,
      "loss": 1.7174,
      "step": 732
    },
    {
      "epoch": 2.162241887905605,
      "grad_norm": 0.361328125,
      "learning_rate": 3.814998923238685e-05,
      "loss": 1.6467,
      "step": 733
    },
    {
      "epoch": 2.1651917404129795,
      "grad_norm": 0.3203125,
      "learning_rate": 3.7900189947427944e-05,
      "loss": 1.7202,
      "step": 734
    },
    {
      "epoch": 2.168141592920354,
      "grad_norm": 0.2890625,
      "learning_rate": 3.7651019814126654e-05,
      "loss": 1.5566,
      "step": 735
    },
    {
      "epoch": 2.1710914454277286,
      "grad_norm": 0.2890625,
      "learning_rate": 3.740248135689975e-05,
      "loss": 1.6242,
      "step": 736
    },
    {
      "epoch": 2.174041297935103,
      "grad_norm": 0.36328125,
      "learning_rate": 3.7154577093764334e-05,
      "loss": 1.6517,
      "step": 737
    },
    {
      "epoch": 2.1769911504424777,
      "grad_norm": 0.3203125,
      "learning_rate": 3.6907309536312276e-05,
      "loss": 1.8194,
      "step": 738
    },
    {
      "epoch": 2.1799410029498527,
      "grad_norm": 0.279296875,
      "learning_rate": 3.666068118968474e-05,
      "loss": 1.7721,
      "step": 739
    },
    {
      "epoch": 2.1828908554572273,
      "grad_norm": 0.296875,
      "learning_rate": 3.6414694552546946e-05,
      "loss": 1.4912,
      "step": 740
    },
    {
      "epoch": 2.185840707964602,
      "grad_norm": 0.296875,
      "learning_rate": 3.616935211706275e-05,
      "loss": 1.6488,
      "step": 741
    },
    {
      "epoch": 2.1887905604719764,
      "grad_norm": 0.291015625,
      "learning_rate": 3.592465636886933e-05,
      "loss": 1.5433,
      "step": 742
    },
    {
      "epoch": 2.191740412979351,
      "grad_norm": 0.2890625,
      "learning_rate": 3.568060978705214e-05,
      "loss": 1.407,
      "step": 743
    },
    {
      "epoch": 2.1946902654867255,
      "grad_norm": 0.31640625,
      "learning_rate": 3.543721484411976e-05,
      "loss": 1.7491,
      "step": 744
    },
    {
      "epoch": 2.1976401179941005,
      "grad_norm": 0.365234375,
      "learning_rate": 3.51944740059788e-05,
      "loss": 1.7076,
      "step": 745
    },
    {
      "epoch": 2.200589970501475,
      "grad_norm": 0.29296875,
      "learning_rate": 3.495238973190894e-05,
      "loss": 1.6633,
      "step": 746
    },
    {
      "epoch": 2.2035398230088497,
      "grad_norm": 0.310546875,
      "learning_rate": 3.4710964474537966e-05,
      "loss": 1.6341,
      "step": 747
    },
    {
      "epoch": 2.206489675516224,
      "grad_norm": 0.298828125,
      "learning_rate": 3.447020067981704e-05,
      "loss": 1.4725,
      "step": 748
    },
    {
      "epoch": 2.2094395280235988,
      "grad_norm": 0.30859375,
      "learning_rate": 3.4230100786995824e-05,
      "loss": 1.5887,
      "step": 749
    },
    {
      "epoch": 2.2123893805309733,
      "grad_norm": 0.29296875,
      "learning_rate": 3.399066722859782e-05,
      "loss": 1.7881,
      "step": 750
    },
    {
      "epoch": 2.215339233038348,
      "grad_norm": 0.33203125,
      "learning_rate": 3.375190243039556e-05,
      "loss": 1.6271,
      "step": 751
    },
    {
      "epoch": 2.218289085545723,
      "grad_norm": 0.291015625,
      "learning_rate": 3.351380881138642e-05,
      "loss": 1.7659,
      "step": 752
    },
    {
      "epoch": 2.2212389380530975,
      "grad_norm": 0.328125,
      "learning_rate": 3.327638878376764e-05,
      "loss": 1.5702,
      "step": 753
    },
    {
      "epoch": 2.224188790560472,
      "grad_norm": 0.35546875,
      "learning_rate": 3.3039644752912125e-05,
      "loss": 1.5883,
      "step": 754
    },
    {
      "epoch": 2.2271386430678466,
      "grad_norm": 0.30078125,
      "learning_rate": 3.280357911734423e-05,
      "loss": 1.7298,
      "step": 755
    },
    {
      "epoch": 2.230088495575221,
      "grad_norm": 0.3203125,
      "learning_rate": 3.256819426871507e-05,
      "loss": 1.6289,
      "step": 756
    },
    {
      "epoch": 2.2330383480825957,
      "grad_norm": 0.3203125,
      "learning_rate": 3.233349259177865e-05,
      "loss": 1.5501,
      "step": 757
    },
    {
      "epoch": 2.2359882005899703,
      "grad_norm": 0.3359375,
      "learning_rate": 3.209947646436752e-05,
      "loss": 1.7646,
      "step": 758
    },
    {
      "epoch": 2.2389380530973453,
      "grad_norm": 0.30859375,
      "learning_rate": 3.1866148257368665e-05,
      "loss": 1.5206,
      "step": 759
    },
    {
      "epoch": 2.24188790560472,
      "grad_norm": 0.30078125,
      "learning_rate": 3.163351033469961e-05,
      "loss": 1.6256,
      "step": 760
    },
    {
      "epoch": 2.2448377581120944,
      "grad_norm": 0.310546875,
      "learning_rate": 3.140156505328441e-05,
      "loss": 1.4853,
      "step": 761
    },
    {
      "epoch": 2.247787610619469,
      "grad_norm": 0.3125,
      "learning_rate": 3.117031476302975e-05,
      "loss": 1.6571,
      "step": 762
    },
    {
      "epoch": 2.2507374631268435,
      "grad_norm": 0.361328125,
      "learning_rate": 3.0939761806801096e-05,
      "loss": 1.7517,
      "step": 763
    },
    {
      "epoch": 2.2536873156342185,
      "grad_norm": 0.31640625,
      "learning_rate": 3.0709908520399076e-05,
      "loss": 1.5079,
      "step": 764
    },
    {
      "epoch": 2.256637168141593,
      "grad_norm": 0.306640625,
      "learning_rate": 3.0480757232535772e-05,
      "loss": 1.7051,
      "step": 765
    },
    {
      "epoch": 2.2595870206489677,
      "grad_norm": 0.3203125,
      "learning_rate": 3.0252310264811067e-05,
      "loss": 1.7725,
      "step": 766
    },
    {
      "epoch": 2.262536873156342,
      "grad_norm": 0.306640625,
      "learning_rate": 3.0024569931689207e-05,
      "loss": 1.8137,
      "step": 767
    },
    {
      "epoch": 2.265486725663717,
      "grad_norm": 0.314453125,
      "learning_rate": 2.979753854047522e-05,
      "loss": 1.6787,
      "step": 768
    },
    {
      "epoch": 2.2684365781710913,
      "grad_norm": 0.314453125,
      "learning_rate": 2.9571218391291744e-05,
      "loss": 1.6662,
      "step": 769
    },
    {
      "epoch": 2.271386430678466,
      "grad_norm": 0.3203125,
      "learning_rate": 2.9345611777055594e-05,
      "loss": 1.6513,
      "step": 770
    },
    {
      "epoch": 2.274336283185841,
      "grad_norm": 0.306640625,
      "learning_rate": 2.9120720983454463e-05,
      "loss": 1.7066,
      "step": 771
    },
    {
      "epoch": 2.2772861356932155,
      "grad_norm": 0.271484375,
      "learning_rate": 2.889654828892393e-05,
      "loss": 1.4659,
      "step": 772
    },
    {
      "epoch": 2.28023598820059,
      "grad_norm": 0.302734375,
      "learning_rate": 2.8673095964624296e-05,
      "loss": 1.7731,
      "step": 773
    },
    {
      "epoch": 2.2831858407079646,
      "grad_norm": 0.3125,
      "learning_rate": 2.845036627441755e-05,
      "loss": 1.8289,
      "step": 774
    },
    {
      "epoch": 2.286135693215339,
      "grad_norm": 0.294921875,
      "learning_rate": 2.822836147484452e-05,
      "loss": 1.5135,
      "step": 775
    },
    {
      "epoch": 2.2890855457227137,
      "grad_norm": 0.267578125,
      "learning_rate": 2.800708381510182e-05,
      "loss": 1.6152,
      "step": 776
    },
    {
      "epoch": 2.2920353982300883,
      "grad_norm": 0.365234375,
      "learning_rate": 2.778653553701932e-05,
      "loss": 1.5877,
      "step": 777
    },
    {
      "epoch": 2.2949852507374633,
      "grad_norm": 0.3515625,
      "learning_rate": 2.7566718875037267e-05,
      "loss": 1.6472,
      "step": 778
    },
    {
      "epoch": 2.297935103244838,
      "grad_norm": 0.322265625,
      "learning_rate": 2.73476360561837e-05,
      "loss": 1.5617,
      "step": 779
    },
    {
      "epoch": 2.3008849557522124,
      "grad_norm": 0.310546875,
      "learning_rate": 2.7129289300051787e-05,
      "loss": 1.5242,
      "step": 780
    },
    {
      "epoch": 2.303834808259587,
      "grad_norm": 0.3125,
      "learning_rate": 2.6911680818777606e-05,
      "loss": 1.6186,
      "step": 781
    },
    {
      "epoch": 2.3067846607669615,
      "grad_norm": 0.310546875,
      "learning_rate": 2.669481281701739e-05,
      "loss": 1.6891,
      "step": 782
    },
    {
      "epoch": 2.309734513274336,
      "grad_norm": 0.3515625,
      "learning_rate": 2.6478687491925357e-05,
      "loss": 1.5884,
      "step": 783
    },
    {
      "epoch": 2.312684365781711,
      "grad_norm": 0.30078125,
      "learning_rate": 2.62633070331316e-05,
      "loss": 1.6519,
      "step": 784
    },
    {
      "epoch": 2.3156342182890857,
      "grad_norm": 0.341796875,
      "learning_rate": 2.6048673622719568e-05,
      "loss": 1.595,
      "step": 785
    },
    {
      "epoch": 2.3185840707964602,
      "grad_norm": 0.3359375,
      "learning_rate": 2.5834789435204243e-05,
      "loss": 1.6358,
      "step": 786
    },
    {
      "epoch": 2.321533923303835,
      "grad_norm": 0.302734375,
      "learning_rate": 2.562165663751003e-05,
      "loss": 1.6086,
      "step": 787
    },
    {
      "epoch": 2.3244837758112094,
      "grad_norm": 0.296875,
      "learning_rate": 2.540927738894866e-05,
      "loss": 1.6134,
      "step": 788
    },
    {
      "epoch": 2.327433628318584,
      "grad_norm": 0.279296875,
      "learning_rate": 2.5197653841197543e-05,
      "loss": 1.636,
      "step": 789
    },
    {
      "epoch": 2.330383480825959,
      "grad_norm": 0.30078125,
      "learning_rate": 2.4986788138277827e-05,
      "loss": 1.7181,
      "step": 790
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.296875,
      "learning_rate": 2.4776682416532724e-05,
      "loss": 1.6009,
      "step": 791
    },
    {
      "epoch": 2.336283185840708,
      "grad_norm": 0.275390625,
      "learning_rate": 2.4567338804605756e-05,
      "loss": 1.7156,
      "step": 792
    },
    {
      "epoch": 2.3392330383480826,
      "grad_norm": 0.328125,
      "learning_rate": 2.4358759423419474e-05,
      "loss": 1.5736,
      "step": 793
    },
    {
      "epoch": 2.342182890855457,
      "grad_norm": 0.330078125,
      "learning_rate": 2.4150946386153605e-05,
      "loss": 1.745,
      "step": 794
    },
    {
      "epoch": 2.3451327433628317,
      "grad_norm": 0.3125,
      "learning_rate": 2.394390179822382e-05,
      "loss": 1.628,
      "step": 795
    },
    {
      "epoch": 2.3480825958702063,
      "grad_norm": 0.359375,
      "learning_rate": 2.3737627757260582e-05,
      "loss": 1.792,
      "step": 796
    },
    {
      "epoch": 2.3510324483775813,
      "grad_norm": 0.28515625,
      "learning_rate": 2.3532126353087492e-05,
      "loss": 1.5633,
      "step": 797
    },
    {
      "epoch": 2.353982300884956,
      "grad_norm": 0.298828125,
      "learning_rate": 2.3327399667700477e-05,
      "loss": 1.6054,
      "step": 798
    },
    {
      "epoch": 2.3569321533923304,
      "grad_norm": 0.310546875,
      "learning_rate": 2.312344977524653e-05,
      "loss": 1.5514,
      "step": 799
    },
    {
      "epoch": 2.359882005899705,
      "grad_norm": 0.361328125,
      "learning_rate": 2.2920278742002676e-05,
      "loss": 1.6321,
      "step": 800
    },
    {
      "epoch": 2.359882005899705,
      "eval_loss": 1.656064510345459,
      "eval_runtime": 31.6806,
      "eval_samples_per_second": 31.565,
      "eval_steps_per_second": 3.946,
      "step": 800
    },
    {
      "epoch": 2.3628318584070795,
      "grad_norm": 0.322265625,
      "learning_rate": 2.2717888626355134e-05,
      "loss": 1.7578,
      "step": 801
    },
    {
      "epoch": 2.365781710914454,
      "grad_norm": 0.302734375,
      "learning_rate": 2.251628147877839e-05,
      "loss": 1.5415,
      "step": 802
    },
    {
      "epoch": 2.3687315634218287,
      "grad_norm": 0.296875,
      "learning_rate": 2.2315459341814482e-05,
      "loss": 1.5915,
      "step": 803
    },
    {
      "epoch": 2.3716814159292037,
      "grad_norm": 0.345703125,
      "learning_rate": 2.211542425005223e-05,
      "loss": 1.695,
      "step": 804
    },
    {
      "epoch": 2.3746312684365782,
      "grad_norm": 0.28125,
      "learning_rate": 2.191617823010671e-05,
      "loss": 1.5922,
      "step": 805
    },
    {
      "epoch": 2.377581120943953,
      "grad_norm": 0.279296875,
      "learning_rate": 2.1717723300598613e-05,
      "loss": 1.7543,
      "step": 806
    },
    {
      "epoch": 2.3805309734513274,
      "grad_norm": 0.318359375,
      "learning_rate": 2.1520061472133902e-05,
      "loss": 1.8857,
      "step": 807
    },
    {
      "epoch": 2.383480825958702,
      "grad_norm": 0.26953125,
      "learning_rate": 2.1323194747283416e-05,
      "loss": 1.6589,
      "step": 808
    },
    {
      "epoch": 2.386430678466077,
      "grad_norm": 0.3203125,
      "learning_rate": 2.1127125120562497e-05,
      "loss": 1.665,
      "step": 809
    },
    {
      "epoch": 2.3893805309734515,
      "grad_norm": 0.3125,
      "learning_rate": 2.0931854578410905e-05,
      "loss": 1.7077,
      "step": 810
    },
    {
      "epoch": 2.392330383480826,
      "grad_norm": 0.328125,
      "learning_rate": 2.0737385099172635e-05,
      "loss": 1.8159,
      "step": 811
    },
    {
      "epoch": 2.3952802359882006,
      "grad_norm": 0.314453125,
      "learning_rate": 2.0543718653075782e-05,
      "loss": 1.6015,
      "step": 812
    },
    {
      "epoch": 2.398230088495575,
      "grad_norm": 0.330078125,
      "learning_rate": 2.035085720221288e-05,
      "loss": 1.608,
      "step": 813
    },
    {
      "epoch": 2.4011799410029497,
      "grad_norm": 0.3359375,
      "learning_rate": 2.0158802700520574e-05,
      "loss": 1.7618,
      "step": 814
    },
    {
      "epoch": 2.4041297935103243,
      "grad_norm": 0.30078125,
      "learning_rate": 1.9967557093760226e-05,
      "loss": 1.6038,
      "step": 815
    },
    {
      "epoch": 2.4070796460176993,
      "grad_norm": 0.294921875,
      "learning_rate": 1.9777122319497986e-05,
      "loss": 2.0348,
      "step": 816
    },
    {
      "epoch": 2.410029498525074,
      "grad_norm": 0.275390625,
      "learning_rate": 1.958750030708527e-05,
      "loss": 1.5561,
      "step": 817
    },
    {
      "epoch": 2.4129793510324484,
      "grad_norm": 0.318359375,
      "learning_rate": 1.9398692977639054e-05,
      "loss": 1.5294,
      "step": 818
    },
    {
      "epoch": 2.415929203539823,
      "grad_norm": 0.326171875,
      "learning_rate": 1.9210702244022617e-05,
      "loss": 1.6702,
      "step": 819
    },
    {
      "epoch": 2.4188790560471976,
      "grad_norm": 0.310546875,
      "learning_rate": 1.902353001082605e-05,
      "loss": 1.7828,
      "step": 820
    },
    {
      "epoch": 2.421828908554572,
      "grad_norm": 0.28125,
      "learning_rate": 1.883717817434688e-05,
      "loss": 1.8072,
      "step": 821
    },
    {
      "epoch": 2.4247787610619467,
      "grad_norm": 0.30859375,
      "learning_rate": 1.8651648622571128e-05,
      "loss": 1.5543,
      "step": 822
    },
    {
      "epoch": 2.4277286135693217,
      "grad_norm": 0.31640625,
      "learning_rate": 1.8466943235153844e-05,
      "loss": 1.6933,
      "step": 823
    },
    {
      "epoch": 2.4306784660766962,
      "grad_norm": 0.36328125,
      "learning_rate": 1.8283063883400232e-05,
      "loss": 1.5554,
      "step": 824
    },
    {
      "epoch": 2.433628318584071,
      "grad_norm": 0.34765625,
      "learning_rate": 1.8100012430246837e-05,
      "loss": 1.7567,
      "step": 825
    },
    {
      "epoch": 2.4365781710914454,
      "grad_norm": 0.345703125,
      "learning_rate": 1.7917790730242322e-05,
      "loss": 1.7132,
      "step": 826
    },
    {
      "epoch": 2.43952802359882,
      "grad_norm": 0.298828125,
      "learning_rate": 1.7736400629529003e-05,
      "loss": 1.5405,
      "step": 827
    },
    {
      "epoch": 2.442477876106195,
      "grad_norm": 0.36328125,
      "learning_rate": 1.7555843965823992e-05,
      "loss": 1.7417,
      "step": 828
    },
    {
      "epoch": 2.4454277286135695,
      "grad_norm": 0.349609375,
      "learning_rate": 1.7376122568400532e-05,
      "loss": 1.7138,
      "step": 829
    },
    {
      "epoch": 2.448377581120944,
      "grad_norm": 0.3203125,
      "learning_rate": 1.7197238258069613e-05,
      "loss": 1.6209,
      "step": 830
    },
    {
      "epoch": 2.4513274336283186,
      "grad_norm": 0.357421875,
      "learning_rate": 1.7019192847161425e-05,
      "loss": 1.7802,
      "step": 831
    },
    {
      "epoch": 2.454277286135693,
      "grad_norm": 0.314453125,
      "learning_rate": 1.6841988139507048e-05,
      "loss": 1.8173,
      "step": 832
    },
    {
      "epoch": 2.4572271386430677,
      "grad_norm": 0.3203125,
      "learning_rate": 1.6665625930420024e-05,
      "loss": 1.6358,
      "step": 833
    },
    {
      "epoch": 2.4601769911504423,
      "grad_norm": 0.349609375,
      "learning_rate": 1.6490108006678494e-05,
      "loss": 1.7484,
      "step": 834
    },
    {
      "epoch": 2.4631268436578173,
      "grad_norm": 0.31640625,
      "learning_rate": 1.6315436146506703e-05,
      "loss": 1.5469,
      "step": 835
    },
    {
      "epoch": 2.466076696165192,
      "grad_norm": 0.30078125,
      "learning_rate": 1.614161211955727e-05,
      "loss": 1.6038,
      "step": 836
    },
    {
      "epoch": 2.4690265486725664,
      "grad_norm": 0.2890625,
      "learning_rate": 1.5968637686893186e-05,
      "loss": 1.6087,
      "step": 837
    },
    {
      "epoch": 2.471976401179941,
      "grad_norm": 0.322265625,
      "learning_rate": 1.5796514600969837e-05,
      "loss": 1.6767,
      "step": 838
    },
    {
      "epoch": 2.4749262536873156,
      "grad_norm": 0.310546875,
      "learning_rate": 1.5625244605617472e-05,
      "loss": 1.7009,
      "step": 839
    },
    {
      "epoch": 2.47787610619469,
      "grad_norm": 0.33203125,
      "learning_rate": 1.545482943602341e-05,
      "loss": 1.6035,
      "step": 840
    },
    {
      "epoch": 2.4808259587020647,
      "grad_norm": 0.359375,
      "learning_rate": 1.528527081871438e-05,
      "loss": 1.6898,
      "step": 841
    },
    {
      "epoch": 2.4837758112094397,
      "grad_norm": 0.28515625,
      "learning_rate": 1.5116570471539293e-05,
      "loss": 1.6041,
      "step": 842
    },
    {
      "epoch": 2.4867256637168142,
      "grad_norm": 0.31640625,
      "learning_rate": 1.4948730103651498e-05,
      "loss": 1.586,
      "step": 843
    },
    {
      "epoch": 2.489675516224189,
      "grad_norm": 0.302734375,
      "learning_rate": 1.478175141549174e-05,
      "loss": 1.8168,
      "step": 844
    },
    {
      "epoch": 2.4926253687315634,
      "grad_norm": 0.302734375,
      "learning_rate": 1.4615636098770802e-05,
      "loss": 1.8171,
      "step": 845
    },
    {
      "epoch": 2.495575221238938,
      "grad_norm": 0.34765625,
      "learning_rate": 1.4450385836452429e-05,
      "loss": 1.4769,
      "step": 846
    },
    {
      "epoch": 2.4985250737463125,
      "grad_norm": 0.28125,
      "learning_rate": 1.4286002302736168e-05,
      "loss": 1.7251,
      "step": 847
    },
    {
      "epoch": 2.501474926253687,
      "grad_norm": 0.326171875,
      "learning_rate": 1.412248716304052e-05,
      "loss": 1.6303,
      "step": 848
    },
    {
      "epoch": 2.504424778761062,
      "grad_norm": 0.28515625,
      "learning_rate": 1.3959842073986085e-05,
      "loss": 1.609,
      "step": 849
    },
    {
      "epoch": 2.5073746312684366,
      "grad_norm": 0.32421875,
      "learning_rate": 1.3798068683378574e-05,
      "loss": 1.5212,
      "step": 850
    },
    {
      "epoch": 2.510324483775811,
      "grad_norm": 0.337890625,
      "learning_rate": 1.3637168630192443e-05,
      "loss": 1.5393,
      "step": 851
    },
    {
      "epoch": 2.5132743362831858,
      "grad_norm": 0.326171875,
      "learning_rate": 1.3477143544553995e-05,
      "loss": 1.5415,
      "step": 852
    },
    {
      "epoch": 2.5162241887905603,
      "grad_norm": 0.341796875,
      "learning_rate": 1.331799504772493e-05,
      "loss": 1.5687,
      "step": 853
    },
    {
      "epoch": 2.5191740412979353,
      "grad_norm": 0.314453125,
      "learning_rate": 1.3159724752086144e-05,
      "loss": 1.6611,
      "step": 854
    },
    {
      "epoch": 2.52212389380531,
      "grad_norm": 0.306640625,
      "learning_rate": 1.300233426112103e-05,
      "loss": 1.8336,
      "step": 855
    },
    {
      "epoch": 2.5250737463126844,
      "grad_norm": 0.3671875,
      "learning_rate": 1.2845825169399507e-05,
      "loss": 1.5726,
      "step": 856
    },
    {
      "epoch": 2.528023598820059,
      "grad_norm": 0.291015625,
      "learning_rate": 1.269019906256178e-05,
      "loss": 1.5365,
      "step": 857
    },
    {
      "epoch": 2.5309734513274336,
      "grad_norm": 0.333984375,
      "learning_rate": 1.2535457517302263e-05,
      "loss": 1.7332,
      "step": 858
    },
    {
      "epoch": 2.533923303834808,
      "grad_norm": 0.33203125,
      "learning_rate": 1.2381602101353573e-05,
      "loss": 1.6458,
      "step": 859
    },
    {
      "epoch": 2.5368731563421827,
      "grad_norm": 0.345703125,
      "learning_rate": 1.2228634373470726e-05,
      "loss": 1.54,
      "step": 860
    },
    {
      "epoch": 2.5398230088495577,
      "grad_norm": 0.32421875,
      "learning_rate": 1.207655588341534e-05,
      "loss": 1.5563,
      "step": 861
    },
    {
      "epoch": 2.5427728613569323,
      "grad_norm": 0.322265625,
      "learning_rate": 1.1925368171939777e-05,
      "loss": 1.822,
      "step": 862
    },
    {
      "epoch": 2.545722713864307,
      "grad_norm": 0.3359375,
      "learning_rate": 1.1775072770771834e-05,
      "loss": 1.9668,
      "step": 863
    },
    {
      "epoch": 2.5486725663716814,
      "grad_norm": 0.310546875,
      "learning_rate": 1.1625671202598875e-05,
      "loss": 1.8811,
      "step": 864
    },
    {
      "epoch": 2.551622418879056,
      "grad_norm": 0.361328125,
      "learning_rate": 1.147716498105268e-05,
      "loss": 1.5154,
      "step": 865
    },
    {
      "epoch": 2.554572271386431,
      "grad_norm": 0.263671875,
      "learning_rate": 1.1329555610694008e-05,
      "loss": 1.6577,
      "step": 866
    },
    {
      "epoch": 2.557522123893805,
      "grad_norm": 0.3125,
      "learning_rate": 1.1182844586997266e-05,
      "loss": 1.7692,
      "step": 867
    },
    {
      "epoch": 2.56047197640118,
      "grad_norm": 0.291015625,
      "learning_rate": 1.1037033396335528e-05,
      "loss": 1.7178,
      "step": 868
    },
    {
      "epoch": 2.5634218289085546,
      "grad_norm": 0.326171875,
      "learning_rate": 1.0892123515965348e-05,
      "loss": 1.593,
      "step": 869
    },
    {
      "epoch": 2.566371681415929,
      "grad_norm": 0.30859375,
      "learning_rate": 1.0748116414011888e-05,
      "loss": 1.7809,
      "step": 870
    },
    {
      "epoch": 2.5693215339233038,
      "grad_norm": 0.326171875,
      "learning_rate": 1.0605013549453913e-05,
      "loss": 1.593,
      "step": 871
    },
    {
      "epoch": 2.5722713864306783,
      "grad_norm": 0.34375,
      "learning_rate": 1.0462816372109153e-05,
      "loss": 1.8129,
      "step": 872
    },
    {
      "epoch": 2.5752212389380533,
      "grad_norm": 0.306640625,
      "learning_rate": 1.0321526322619534e-05,
      "loss": 1.5413,
      "step": 873
    },
    {
      "epoch": 2.578171091445428,
      "grad_norm": 0.3203125,
      "learning_rate": 1.0181144832436584e-05,
      "loss": 1.9159,
      "step": 874
    },
    {
      "epoch": 2.5811209439528024,
      "grad_norm": 0.296875,
      "learning_rate": 1.0041673323807e-05,
      "loss": 1.6049,
      "step": 875
    },
    {
      "epoch": 2.584070796460177,
      "grad_norm": 0.306640625,
      "learning_rate": 9.903113209758096e-06,
      "loss": 1.6354,
      "step": 876
    },
    {
      "epoch": 2.5870206489675516,
      "grad_norm": 0.322265625,
      "learning_rate": 9.765465894083636e-06,
      "loss": 1.6943,
      "step": 877
    },
    {
      "epoch": 2.589970501474926,
      "grad_norm": 0.373046875,
      "learning_rate": 9.628732771329573e-06,
      "loss": 1.8668,
      "step": 878
    },
    {
      "epoch": 2.5929203539823007,
      "grad_norm": 0.296875,
      "learning_rate": 9.492915226779808e-06,
      "loss": 1.6031,
      "step": 879
    },
    {
      "epoch": 2.5958702064896757,
      "grad_norm": 0.283203125,
      "learning_rate": 9.358014636442392e-06,
      "loss": 1.6361,
      "step": 880
    },
    {
      "epoch": 2.5988200589970503,
      "grad_norm": 0.30859375,
      "learning_rate": 9.224032367035274e-06,
      "loss": 1.6734,
      "step": 881
    },
    {
      "epoch": 2.601769911504425,
      "grad_norm": 0.3125,
      "learning_rate": 9.090969775972736e-06,
      "loss": 1.6508,
      "step": 882
    },
    {
      "epoch": 2.6047197640117994,
      "grad_norm": 0.314453125,
      "learning_rate": 8.9588282113515e-06,
      "loss": 1.5599,
      "step": 883
    },
    {
      "epoch": 2.607669616519174,
      "grad_norm": 0.357421875,
      "learning_rate": 8.827609011937066e-06,
      "loss": 1.708,
      "step": 884
    },
    {
      "epoch": 2.6106194690265485,
      "grad_norm": 0.287109375,
      "learning_rate": 8.697313507150184e-06,
      "loss": 1.6227,
      "step": 885
    },
    {
      "epoch": 2.613569321533923,
      "grad_norm": 0.28125,
      "learning_rate": 8.567943017053425e-06,
      "loss": 1.7512,
      "step": 886
    },
    {
      "epoch": 2.616519174041298,
      "grad_norm": 0.29296875,
      "learning_rate": 8.439498852337724e-06,
      "loss": 1.6559,
      "step": 887
    },
    {
      "epoch": 2.6194690265486726,
      "grad_norm": 0.30078125,
      "learning_rate": 8.311982314309109e-06,
      "loss": 1.7414,
      "step": 888
    },
    {
      "epoch": 2.622418879056047,
      "grad_norm": 0.298828125,
      "learning_rate": 8.185394694875592e-06,
      "loss": 1.709,
      "step": 889
    },
    {
      "epoch": 2.6253687315634218,
      "grad_norm": 0.291015625,
      "learning_rate": 8.059737276534041e-06,
      "loss": 1.5993,
      "step": 890
    },
    {
      "epoch": 2.6283185840707963,
      "grad_norm": 0.302734375,
      "learning_rate": 7.935011332357112e-06,
      "loss": 1.6718,
      "step": 891
    },
    {
      "epoch": 2.6312684365781713,
      "grad_norm": 0.30859375,
      "learning_rate": 7.811218125980535e-06,
      "loss": 1.6536,
      "step": 892
    },
    {
      "epoch": 2.6342182890855455,
      "grad_norm": 0.30859375,
      "learning_rate": 7.688358911590078e-06,
      "loss": 1.718,
      "step": 893
    },
    {
      "epoch": 2.6371681415929205,
      "grad_norm": 0.29296875,
      "learning_rate": 7.566434933909006e-06,
      "loss": 1.636,
      "step": 894
    },
    {
      "epoch": 2.640117994100295,
      "grad_norm": 0.341796875,
      "learning_rate": 7.445447428185448e-06,
      "loss": 1.7125,
      "step": 895
    },
    {
      "epoch": 2.6430678466076696,
      "grad_norm": 0.3203125,
      "learning_rate": 7.325397620179808e-06,
      "loss": 1.6113,
      "step": 896
    },
    {
      "epoch": 2.646017699115044,
      "grad_norm": 0.310546875,
      "learning_rate": 7.206286726152434e-06,
      "loss": 1.5436,
      "step": 897
    },
    {
      "epoch": 2.6489675516224187,
      "grad_norm": 0.306640625,
      "learning_rate": 7.088115952851238e-06,
      "loss": 1.5289,
      "step": 898
    },
    {
      "epoch": 2.6519174041297937,
      "grad_norm": 0.294921875,
      "learning_rate": 6.970886497499518e-06,
      "loss": 1.5827,
      "step": 899
    },
    {
      "epoch": 2.6548672566371683,
      "grad_norm": 0.294921875,
      "learning_rate": 6.854599547783736e-06,
      "loss": 1.5693,
      "step": 900
    },
    {
      "epoch": 2.657817109144543,
      "grad_norm": 0.314453125,
      "learning_rate": 6.739256281841599e-06,
      "loss": 1.6449,
      "step": 901
    },
    {
      "epoch": 2.6607669616519174,
      "grad_norm": 0.294921875,
      "learning_rate": 6.624857868250079e-06,
      "loss": 1.651,
      "step": 902
    },
    {
      "epoch": 2.663716814159292,
      "grad_norm": 0.34375,
      "learning_rate": 6.5114054660135315e-06,
      "loss": 1.8066,
      "step": 903
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.33984375,
      "learning_rate": 6.39890022455204e-06,
      "loss": 1.6108,
      "step": 904
    },
    {
      "epoch": 2.669616519174041,
      "grad_norm": 0.330078125,
      "learning_rate": 6.287343283689661e-06,
      "loss": 1.7595,
      "step": 905
    },
    {
      "epoch": 2.672566371681416,
      "grad_norm": 0.314453125,
      "learning_rate": 6.176735773642961e-06,
      "loss": 1.6273,
      "step": 906
    },
    {
      "epoch": 2.6755162241887906,
      "grad_norm": 0.34375,
      "learning_rate": 6.067078815009575e-06,
      "loss": 1.6977,
      "step": 907
    },
    {
      "epoch": 2.678466076696165,
      "grad_norm": 0.33203125,
      "learning_rate": 5.958373518756733e-06,
      "loss": 1.7285,
      "step": 908
    },
    {
      "epoch": 2.6814159292035398,
      "grad_norm": 0.380859375,
      "learning_rate": 5.850620986210198e-06,
      "loss": 1.6609,
      "step": 909
    },
    {
      "epoch": 2.6843657817109143,
      "grad_norm": 0.30078125,
      "learning_rate": 5.743822309042912e-06,
      "loss": 1.5915,
      "step": 910
    },
    {
      "epoch": 2.6873156342182893,
      "grad_norm": 0.318359375,
      "learning_rate": 5.63797856926408e-06,
      "loss": 1.9497,
      "step": 911
    },
    {
      "epoch": 2.6902654867256635,
      "grad_norm": 0.306640625,
      "learning_rate": 5.533090839208133e-06,
      "loss": 1.6164,
      "step": 912
    },
    {
      "epoch": 2.6932153392330385,
      "grad_norm": 0.283203125,
      "learning_rate": 5.429160181523852e-06,
      "loss": 1.6054,
      "step": 913
    },
    {
      "epoch": 2.696165191740413,
      "grad_norm": 0.33203125,
      "learning_rate": 5.326187649163672e-06,
      "loss": 1.6886,
      "step": 914
    },
    {
      "epoch": 2.6991150442477876,
      "grad_norm": 0.421875,
      "learning_rate": 5.224174285372974e-06,
      "loss": 1.8212,
      "step": 915
    },
    {
      "epoch": 2.702064896755162,
      "grad_norm": 0.3359375,
      "learning_rate": 5.123121123679519e-06,
      "loss": 1.5959,
      "step": 916
    },
    {
      "epoch": 2.7050147492625367,
      "grad_norm": 0.3125,
      "learning_rate": 5.023029187882944e-06,
      "loss": 1.5412,
      "step": 917
    },
    {
      "epoch": 2.7079646017699117,
      "grad_norm": 0.2734375,
      "learning_rate": 4.923899492044437e-06,
      "loss": 1.6449,
      "step": 918
    },
    {
      "epoch": 2.7109144542772863,
      "grad_norm": 0.29296875,
      "learning_rate": 4.825733040476465e-06,
      "loss": 1.6615,
      "step": 919
    },
    {
      "epoch": 2.713864306784661,
      "grad_norm": 0.361328125,
      "learning_rate": 4.728530827732536e-06,
      "loss": 1.6998,
      "step": 920
    },
    {
      "epoch": 2.7168141592920354,
      "grad_norm": 0.306640625,
      "learning_rate": 4.632293838597246e-06,
      "loss": 1.6826,
      "step": 921
    },
    {
      "epoch": 2.71976401179941,
      "grad_norm": 0.330078125,
      "learning_rate": 4.537023048076128e-06,
      "loss": 1.7873,
      "step": 922
    },
    {
      "epoch": 2.7227138643067845,
      "grad_norm": 0.302734375,
      "learning_rate": 4.442719421385922e-06,
      "loss": 1.6116,
      "step": 923
    },
    {
      "epoch": 2.725663716814159,
      "grad_norm": 0.330078125,
      "learning_rate": 4.349383913944771e-06,
      "loss": 1.569,
      "step": 924
    },
    {
      "epoch": 2.728613569321534,
      "grad_norm": 0.376953125,
      "learning_rate": 4.257017471362435e-06,
      "loss": 1.5746,
      "step": 925
    },
    {
      "epoch": 2.7315634218289087,
      "grad_norm": 0.32421875,
      "learning_rate": 4.165621029430855e-06,
      "loss": 1.757,
      "step": 926
    },
    {
      "epoch": 2.734513274336283,
      "grad_norm": 0.296875,
      "learning_rate": 4.075195514114593e-06,
      "loss": 1.5386,
      "step": 927
    },
    {
      "epoch": 2.737463126843658,
      "grad_norm": 0.32421875,
      "learning_rate": 3.985741841541446e-06,
      "loss": 1.7038,
      "step": 928
    },
    {
      "epoch": 2.7404129793510323,
      "grad_norm": 0.294921875,
      "learning_rate": 3.897260917993184e-06,
      "loss": 1.7146,
      "step": 929
    },
    {
      "epoch": 2.7433628318584073,
      "grad_norm": 0.306640625,
      "learning_rate": 3.8097536398963963e-06,
      "loss": 1.4569,
      "step": 930
    },
    {
      "epoch": 2.7463126843657815,
      "grad_norm": 0.31640625,
      "learning_rate": 3.7232208938133393e-06,
      "loss": 1.5649,
      "step": 931
    },
    {
      "epoch": 2.7492625368731565,
      "grad_norm": 0.27734375,
      "learning_rate": 3.6376635564330463e-06,
      "loss": 1.7154,
      "step": 932
    },
    {
      "epoch": 2.752212389380531,
      "grad_norm": 0.33984375,
      "learning_rate": 3.5530824945623542e-06,
      "loss": 1.7077,
      "step": 933
    },
    {
      "epoch": 2.7551622418879056,
      "grad_norm": 0.33984375,
      "learning_rate": 3.4694785651171456e-06,
      "loss": 1.6512,
      "step": 934
    },
    {
      "epoch": 2.75811209439528,
      "grad_norm": 0.373046875,
      "learning_rate": 3.3868526151137445e-06,
      "loss": 1.6804,
      "step": 935
    },
    {
      "epoch": 2.7610619469026547,
      "grad_norm": 0.302734375,
      "learning_rate": 3.3052054816602452e-06,
      "loss": 1.7667,
      "step": 936
    },
    {
      "epoch": 2.7640117994100297,
      "grad_norm": 0.279296875,
      "learning_rate": 3.224537991948029e-06,
      "loss": 1.6313,
      "step": 937
    },
    {
      "epoch": 2.7669616519174043,
      "grad_norm": 0.31640625,
      "learning_rate": 3.144850963243462e-06,
      "loss": 1.6619,
      "step": 938
    },
    {
      "epoch": 2.769911504424779,
      "grad_norm": 0.302734375,
      "learning_rate": 3.0661452028795336e-06,
      "loss": 1.636,
      "step": 939
    },
    {
      "epoch": 2.7728613569321534,
      "grad_norm": 0.369140625,
      "learning_rate": 2.9884215082477408e-06,
      "loss": 1.6353,
      "step": 940
    },
    {
      "epoch": 2.775811209439528,
      "grad_norm": 0.3203125,
      "learning_rate": 2.9116806667899734e-06,
      "loss": 1.6351,
      "step": 941
    },
    {
      "epoch": 2.7787610619469025,
      "grad_norm": 0.2734375,
      "learning_rate": 2.835923455990508e-06,
      "loss": 1.7801,
      "step": 942
    },
    {
      "epoch": 2.781710914454277,
      "grad_norm": 0.29296875,
      "learning_rate": 2.7611506433682045e-06,
      "loss": 1.729,
      "step": 943
    },
    {
      "epoch": 2.784660766961652,
      "grad_norm": 0.330078125,
      "learning_rate": 2.687362986468689e-06,
      "loss": 1.7433,
      "step": 944
    },
    {
      "epoch": 2.7876106194690267,
      "grad_norm": 0.3203125,
      "learning_rate": 2.6145612328566717e-06,
      "loss": 1.6041,
      "step": 945
    },
    {
      "epoch": 2.7905604719764012,
      "grad_norm": 0.326171875,
      "learning_rate": 2.5427461201083747e-06,
      "loss": 1.8355,
      "step": 946
    },
    {
      "epoch": 2.793510324483776,
      "grad_norm": 0.392578125,
      "learning_rate": 2.471918375804105e-06,
      "loss": 1.7569,
      "step": 947
    },
    {
      "epoch": 2.7964601769911503,
      "grad_norm": 0.302734375,
      "learning_rate": 2.402078717520795e-06,
      "loss": 1.7676,
      "step": 948
    },
    {
      "epoch": 2.799410029498525,
      "grad_norm": 0.283203125,
      "learning_rate": 2.333227852824804e-06,
      "loss": 1.6935,
      "step": 949
    },
    {
      "epoch": 2.8023598820058995,
      "grad_norm": 0.296875,
      "learning_rate": 2.2653664792647634e-06,
      "loss": 1.5871,
      "step": 950
    },
    {
      "epoch": 2.8053097345132745,
      "grad_norm": 0.30078125,
      "learning_rate": 2.19849528436441e-06,
      "loss": 1.6557,
      "step": 951
    },
    {
      "epoch": 2.808259587020649,
      "grad_norm": 0.298828125,
      "learning_rate": 2.132614945615741e-06,
      "loss": 1.6709,
      "step": 952
    },
    {
      "epoch": 2.8112094395280236,
      "grad_norm": 0.29296875,
      "learning_rate": 2.067726130472092e-06,
      "loss": 1.7262,
      "step": 953
    },
    {
      "epoch": 2.814159292035398,
      "grad_norm": 0.373046875,
      "learning_rate": 2.003829496341325e-06,
      "loss": 1.615,
      "step": 954
    },
    {
      "epoch": 2.8171091445427727,
      "grad_norm": 0.310546875,
      "learning_rate": 1.9409256905792762e-06,
      "loss": 1.6451,
      "step": 955
    },
    {
      "epoch": 2.8200589970501477,
      "grad_norm": 0.2890625,
      "learning_rate": 1.8790153504831153e-06,
      "loss": 1.5465,
      "step": 956
    },
    {
      "epoch": 2.823008849557522,
      "grad_norm": 0.294921875,
      "learning_rate": 1.8180991032849426e-06,
      "loss": 1.5904,
      "step": 957
    },
    {
      "epoch": 2.825958702064897,
      "grad_norm": 0.28515625,
      "learning_rate": 1.7581775661453692e-06,
      "loss": 1.5141,
      "step": 958
    },
    {
      "epoch": 2.8289085545722714,
      "grad_norm": 0.30078125,
      "learning_rate": 1.6992513461473237e-06,
      "loss": 1.5942,
      "step": 959
    },
    {
      "epoch": 2.831858407079646,
      "grad_norm": 0.287109375,
      "learning_rate": 1.6413210402898893e-06,
      "loss": 1.4595,
      "step": 960
    },
    {
      "epoch": 2.8348082595870205,
      "grad_norm": 0.31640625,
      "learning_rate": 1.5843872354822097e-06,
      "loss": 1.9405,
      "step": 961
    },
    {
      "epoch": 2.837758112094395,
      "grad_norm": 0.419921875,
      "learning_rate": 1.5284505085376377e-06,
      "loss": 1.7256,
      "step": 962
    },
    {
      "epoch": 2.84070796460177,
      "grad_norm": 0.296875,
      "learning_rate": 1.473511426167784e-06,
      "loss": 1.5533,
      "step": 963
    },
    {
      "epoch": 2.8436578171091447,
      "grad_norm": 0.287109375,
      "learning_rate": 1.4195705449768448e-06,
      "loss": 1.4959,
      "step": 964
    },
    {
      "epoch": 2.8466076696165192,
      "grad_norm": 0.306640625,
      "learning_rate": 1.3666284114559612e-06,
      "loss": 1.6054,
      "step": 965
    },
    {
      "epoch": 2.849557522123894,
      "grad_norm": 0.32421875,
      "learning_rate": 1.3146855619776134e-06,
      "loss": 1.6314,
      "step": 966
    },
    {
      "epoch": 2.8525073746312684,
      "grad_norm": 0.318359375,
      "learning_rate": 1.2637425227902787e-06,
      "loss": 1.5235,
      "step": 967
    },
    {
      "epoch": 2.855457227138643,
      "grad_norm": 0.28515625,
      "learning_rate": 1.21379981001305e-06,
      "loss": 1.6631,
      "step": 968
    },
    {
      "epoch": 2.8584070796460175,
      "grad_norm": 0.32421875,
      "learning_rate": 1.1648579296304253e-06,
      "loss": 1.8005,
      "step": 969
    },
    {
      "epoch": 2.8613569321533925,
      "grad_norm": 0.32421875,
      "learning_rate": 1.1169173774871478e-06,
      "loss": 1.6668,
      "step": 970
    },
    {
      "epoch": 2.864306784660767,
      "grad_norm": 0.34375,
      "learning_rate": 1.0699786392832201e-06,
      "loss": 1.7208,
      "step": 971
    },
    {
      "epoch": 2.8672566371681416,
      "grad_norm": 0.341796875,
      "learning_rate": 1.0240421905689745e-06,
      "loss": 1.7368,
      "step": 972
    },
    {
      "epoch": 2.870206489675516,
      "grad_norm": 0.345703125,
      "learning_rate": 9.79108496740244e-07,
      "loss": 1.5689,
      "step": 973
    },
    {
      "epoch": 2.8731563421828907,
      "grad_norm": 0.32421875,
      "learning_rate": 9.351780130336441e-07,
      "loss": 1.5193,
      "step": 974
    },
    {
      "epoch": 2.8761061946902657,
      "grad_norm": 0.3359375,
      "learning_rate": 8.922511845219971e-07,
      "loss": 1.672,
      "step": 975
    },
    {
      "epoch": 2.87905604719764,
      "grad_norm": 0.330078125,
      "learning_rate": 8.503284461097604e-07,
      "loss": 1.637,
      "step": 976
    },
    {
      "epoch": 2.882005899705015,
      "grad_norm": 0.3203125,
      "learning_rate": 8.094102225286837e-07,
      "loss": 1.6489,
      "step": 977
    },
    {
      "epoch": 2.8849557522123894,
      "grad_norm": 0.3671875,
      "learning_rate": 7.694969283334575e-07,
      "loss": 1.5329,
      "step": 978
    },
    {
      "epoch": 2.887905604719764,
      "grad_norm": 0.3046875,
      "learning_rate": 7.305889678975608e-07,
      "loss": 1.7028,
      "step": 979
    },
    {
      "epoch": 2.8908554572271385,
      "grad_norm": 0.2890625,
      "learning_rate": 6.926867354091093e-07,
      "loss": 1.7493,
      "step": 980
    },
    {
      "epoch": 2.893805309734513,
      "grad_norm": 0.328125,
      "learning_rate": 6.557906148669024e-07,
      "loss": 1.7138,
      "step": 981
    },
    {
      "epoch": 2.896755162241888,
      "grad_norm": 0.28125,
      "learning_rate": 6.199009800765265e-07,
      "loss": 1.5545,
      "step": 982
    },
    {
      "epoch": 2.8997050147492627,
      "grad_norm": 0.283203125,
      "learning_rate": 5.850181946465361e-07,
      "loss": 1.5774,
      "step": 983
    },
    {
      "epoch": 2.9026548672566372,
      "grad_norm": 0.28515625,
      "learning_rate": 5.51142611984834e-07,
      "loss": 1.6533,
      "step": 984
    },
    {
      "epoch": 2.905604719764012,
      "grad_norm": 0.380859375,
      "learning_rate": 5.18274575295008e-07,
      "loss": 1.5782,
      "step": 985
    },
    {
      "epoch": 2.9085545722713864,
      "grad_norm": 0.310546875,
      "learning_rate": 4.864144175729335e-07,
      "loss": 1.5866,
      "step": 986
    },
    {
      "epoch": 2.911504424778761,
      "grad_norm": 0.294921875,
      "learning_rate": 4.555624616033427e-07,
      "loss": 1.7433,
      "step": 987
    },
    {
      "epoch": 2.9144542772861355,
      "grad_norm": 0.3125,
      "learning_rate": 4.2571901995659414e-07,
      "loss": 1.644,
      "step": 988
    },
    {
      "epoch": 2.9174041297935105,
      "grad_norm": 0.306640625,
      "learning_rate": 3.96884394985475e-07,
      "loss": 1.8004,
      "step": 989
    },
    {
      "epoch": 2.920353982300885,
      "grad_norm": 0.35546875,
      "learning_rate": 3.6905887882213717e-07,
      "loss": 1.5914,
      "step": 990
    },
    {
      "epoch": 2.9233038348082596,
      "grad_norm": 0.328125,
      "learning_rate": 3.422427533751771e-07,
      "loss": 1.5159,
      "step": 991
    },
    {
      "epoch": 2.926253687315634,
      "grad_norm": 0.318359375,
      "learning_rate": 3.1643629032674924e-07,
      "loss": 1.761,
      "step": 992
    },
    {
      "epoch": 2.9292035398230087,
      "grad_norm": 0.314453125,
      "learning_rate": 2.916397511298019e-07,
      "loss": 1.4598,
      "step": 993
    },
    {
      "epoch": 2.9321533923303837,
      "grad_norm": 0.3203125,
      "learning_rate": 2.678533870054567e-07,
      "loss": 1.6699,
      "step": 994
    },
    {
      "epoch": 2.935103244837758,
      "grad_norm": 0.322265625,
      "learning_rate": 2.4507743894045533e-07,
      "loss": 1.6699,
      "step": 995
    },
    {
      "epoch": 2.938053097345133,
      "grad_norm": 0.296875,
      "learning_rate": 2.2331213768468363e-07,
      "loss": 1.597,
      "step": 996
    },
    {
      "epoch": 2.9410029498525074,
      "grad_norm": 0.33984375,
      "learning_rate": 2.0255770374890682e-07,
      "loss": 1.8973,
      "step": 997
    },
    {
      "epoch": 2.943952802359882,
      "grad_norm": 0.306640625,
      "learning_rate": 1.8281434740247128e-07,
      "loss": 1.7737,
      "step": 998
    },
    {
      "epoch": 2.9469026548672566,
      "grad_norm": 0.31640625,
      "learning_rate": 1.6408226867118403e-07,
      "loss": 1.64,
      "step": 999
    },
    {
      "epoch": 2.949852507374631,
      "grad_norm": 0.3125,
      "learning_rate": 1.4636165733532546e-07,
      "loss": 1.611,
      "step": 1000
    },
    {
      "epoch": 2.949852507374631,
      "eval_loss": 1.6559995412826538,
      "eval_runtime": 31.6925,
      "eval_samples_per_second": 31.553,
      "eval_steps_per_second": 3.944,
      "step": 1000
    },
    {
      "epoch": 2.952802359882006,
      "grad_norm": 0.3203125,
      "learning_rate": 1.2965269292767313e-07,
      "loss": 1.6172,
      "step": 1001
    },
    {
      "epoch": 2.9557522123893807,
      "grad_norm": 0.37890625,
      "learning_rate": 1.1395554473171422e-07,
      "loss": 1.7035,
      "step": 1002
    },
    {
      "epoch": 2.9587020648967552,
      "grad_norm": 0.32421875,
      "learning_rate": 9.927037177993592e-08,
      "loss": 1.8667,
      "step": 1003
    },
    {
      "epoch": 2.96165191740413,
      "grad_norm": 0.294921875,
      "learning_rate": 8.559732285219335e-08,
      "loss": 1.5963,
      "step": 1004
    },
    {
      "epoch": 2.9646017699115044,
      "grad_norm": 0.3203125,
      "learning_rate": 7.293653647421073e-08,
      "loss": 1.7494,
      "step": 1005
    },
    {
      "epoch": 2.967551622418879,
      "grad_norm": 0.31640625,
      "learning_rate": 6.128814091619362e-08,
      "loss": 1.639,
      "step": 1006
    },
    {
      "epoch": 2.9705014749262535,
      "grad_norm": 0.275390625,
      "learning_rate": 5.0652254191496664e-08,
      "loss": 1.4368,
      "step": 1007
    },
    {
      "epoch": 2.9734513274336285,
      "grad_norm": 0.35546875,
      "learning_rate": 4.102898405545785e-08,
      "loss": 1.5194,
      "step": 1008
    },
    {
      "epoch": 2.976401179941003,
      "grad_norm": 0.318359375,
      "learning_rate": 3.241842800428829e-08,
      "loss": 1.7057,
      "step": 1009
    },
    {
      "epoch": 2.9793510324483776,
      "grad_norm": 0.416015625,
      "learning_rate": 2.482067327409521e-08,
      "loss": 1.6251,
      "step": 1010
    },
    {
      "epoch": 2.982300884955752,
      "grad_norm": 0.326171875,
      "learning_rate": 1.8235796839982665e-08,
      "loss": 1.6894,
      "step": 1011
    },
    {
      "epoch": 2.9852507374631267,
      "grad_norm": 0.341796875,
      "learning_rate": 1.266386541530773e-08,
      "loss": 1.6548,
      "step": 1012
    },
    {
      "epoch": 2.9882005899705013,
      "grad_norm": 0.29296875,
      "learning_rate": 8.104935450969908e-09,
      "loss": 1.6608,
      "step": 1013
    },
    {
      "epoch": 2.991150442477876,
      "grad_norm": 0.30078125,
      "learning_rate": 4.559053134822744e-09,
      "loss": 1.7403,
      "step": 1014
    },
    {
      "epoch": 2.994100294985251,
      "grad_norm": 0.326171875,
      "learning_rate": 2.0262543912741295e-09,
      "loss": 1.6677,
      "step": 1015
    },
    {
      "epoch": 2.9970501474926254,
      "grad_norm": 0.306640625,
      "learning_rate": 5.065648808533219e-10,
      "loss": 1.5926,
      "step": 1016
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5,
      "learning_rate": 0.0,
      "loss": 1.8633,
      "step": 1017
    }
  ],
  "logging_steps": 1,
  "max_steps": 1017,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.426452217371034e+16,
  "train_batch_size": 24,
  "trial_name": null,
  "trial_params": null
}