{
  "best_metric": 0.6885719895362854,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.8456659619450317,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004228329809725159,
      "grad_norm": 11.073358535766602,
      "learning_rate": 1.003e-05,
      "loss": 5.643,
      "step": 1
    },
    {
      "epoch": 0.004228329809725159,
      "eval_loss": 3.1174144744873047,
      "eval_runtime": 5.7638,
      "eval_samples_per_second": 17.35,
      "eval_steps_per_second": 4.337,
      "step": 1
    },
    {
      "epoch": 0.008456659619450317,
      "grad_norm": 10.447219848632812,
      "learning_rate": 2.006e-05,
      "loss": 5.9506,
      "step": 2
    },
    {
      "epoch": 0.012684989429175475,
      "grad_norm": 9.980358123779297,
      "learning_rate": 3.0089999999999998e-05,
      "loss": 5.7898,
      "step": 3
    },
    {
      "epoch": 0.016913319238900635,
      "grad_norm": 9.749902725219727,
      "learning_rate": 4.012e-05,
      "loss": 5.4138,
      "step": 4
    },
    {
      "epoch": 0.021141649048625793,
      "grad_norm": 9.539119720458984,
      "learning_rate": 5.015e-05,
      "loss": 5.1088,
      "step": 5
    },
    {
      "epoch": 0.02536997885835095,
      "grad_norm": 8.347413063049316,
      "learning_rate": 6.0179999999999996e-05,
      "loss": 4.2051,
      "step": 6
    },
    {
      "epoch": 0.02959830866807611,
      "grad_norm": 7.077137470245361,
      "learning_rate": 7.021e-05,
      "loss": 3.6186,
      "step": 7
    },
    {
      "epoch": 0.03382663847780127,
      "grad_norm": 9.487677574157715,
      "learning_rate": 8.024e-05,
      "loss": 3.6076,
      "step": 8
    },
    {
      "epoch": 0.03805496828752643,
      "grad_norm": 10.196379661560059,
      "learning_rate": 9.027e-05,
      "loss": 3.1322,
      "step": 9
    },
    {
      "epoch": 0.042283298097251586,
      "grad_norm": 12.022560119628906,
      "learning_rate": 0.0001003,
      "loss": 2.7098,
      "step": 10
    },
    {
      "epoch": 0.046511627906976744,
      "grad_norm": 15.521639823913574,
      "learning_rate": 9.97721052631579e-05,
      "loss": 2.2643,
      "step": 11
    },
    {
      "epoch": 0.0507399577167019,
      "grad_norm": 6.743194580078125,
      "learning_rate": 9.924421052631578e-05,
      "loss": 2.1405,
      "step": 12
    },
    {
      "epoch": 0.05496828752642706,
      "grad_norm": 9.670368194580078,
      "learning_rate": 9.871631578947368e-05,
      "loss": 1.8923,
      "step": 13
    },
    {
      "epoch": 0.05919661733615222,
      "grad_norm": 8.677050590515137,
      "learning_rate": 9.818842105263158e-05,
      "loss": 2.2197,
      "step": 14
    },
    {
      "epoch": 0.06342494714587738,
      "grad_norm": 7.338422775268555,
      "learning_rate": 9.766052631578948e-05,
      "loss": 2.0557,
      "step": 15
    },
    {
      "epoch": 0.06765327695560254,
      "grad_norm": 6.696906566619873,
      "learning_rate": 9.713263157894736e-05,
      "loss": 2.096,
      "step": 16
    },
    {
      "epoch": 0.07188160676532769,
      "grad_norm": 5.84743595123291,
      "learning_rate": 9.660473684210526e-05,
      "loss": 1.8474,
      "step": 17
    },
    {
      "epoch": 0.07610993657505286,
      "grad_norm": 7.314126014709473,
      "learning_rate": 9.607684210526316e-05,
      "loss": 2.4141,
      "step": 18
    },
    {
      "epoch": 0.080338266384778,
      "grad_norm": 6.064625263214111,
      "learning_rate": 9.554894736842104e-05,
      "loss": 2.6405,
      "step": 19
    },
    {
      "epoch": 0.08456659619450317,
      "grad_norm": 5.384665012359619,
      "learning_rate": 9.502105263157894e-05,
      "loss": 1.6806,
      "step": 20
    },
    {
      "epoch": 0.08879492600422834,
      "grad_norm": 5.510768890380859,
      "learning_rate": 9.449315789473684e-05,
      "loss": 1.7548,
      "step": 21
    },
    {
      "epoch": 0.09302325581395349,
      "grad_norm": 4.57204008102417,
      "learning_rate": 9.396526315789474e-05,
      "loss": 1.3787,
      "step": 22
    },
    {
      "epoch": 0.09725158562367865,
      "grad_norm": 5.039892673492432,
      "learning_rate": 9.343736842105264e-05,
      "loss": 1.759,
      "step": 23
    },
    {
      "epoch": 0.1014799154334038,
      "grad_norm": 4.377096176147461,
      "learning_rate": 9.290947368421052e-05,
      "loss": 1.4788,
      "step": 24
    },
    {
      "epoch": 0.10570824524312897,
      "grad_norm": 4.842981338500977,
      "learning_rate": 9.238157894736842e-05,
      "loss": 1.8572,
      "step": 25
    },
    {
      "epoch": 0.10993657505285412,
      "grad_norm": 5.80984354019165,
      "learning_rate": 9.18536842105263e-05,
      "loss": 1.6392,
      "step": 26
    },
    {
      "epoch": 0.11416490486257928,
      "grad_norm": 5.012007713317871,
      "learning_rate": 9.132578947368422e-05,
      "loss": 1.4387,
      "step": 27
    },
    {
      "epoch": 0.11839323467230443,
      "grad_norm": 6.048362731933594,
      "learning_rate": 9.07978947368421e-05,
      "loss": 1.5655,
      "step": 28
    },
    {
      "epoch": 0.1226215644820296,
      "grad_norm": 4.299436092376709,
      "learning_rate": 9.027e-05,
      "loss": 1.8684,
      "step": 29
    },
    {
      "epoch": 0.12684989429175475,
      "grad_norm": 5.066212177276611,
      "learning_rate": 8.97421052631579e-05,
      "loss": 1.6783,
      "step": 30
    },
    {
      "epoch": 0.13107822410147993,
      "grad_norm": 4.753271102905273,
      "learning_rate": 8.921421052631578e-05,
      "loss": 1.6225,
      "step": 31
    },
    {
      "epoch": 0.13530655391120508,
      "grad_norm": 5.7661895751953125,
      "learning_rate": 8.868631578947368e-05,
      "loss": 1.868,
      "step": 32
    },
    {
      "epoch": 0.13953488372093023,
      "grad_norm": 5.406352519989014,
      "learning_rate": 8.815842105263157e-05,
      "loss": 1.977,
      "step": 33
    },
    {
      "epoch": 0.14376321353065538,
      "grad_norm": 4.46878719329834,
      "learning_rate": 8.763052631578948e-05,
      "loss": 1.4895,
      "step": 34
    },
    {
      "epoch": 0.14799154334038056,
      "grad_norm": 5.39655065536499,
      "learning_rate": 8.710263157894737e-05,
      "loss": 1.4773,
      "step": 35
    },
    {
      "epoch": 0.1522198731501057,
      "grad_norm": 4.072203636169434,
      "learning_rate": 8.657473684210526e-05,
      "loss": 1.7476,
      "step": 36
    },
    {
      "epoch": 0.15644820295983086,
      "grad_norm": 4.167860984802246,
      "learning_rate": 8.604684210526316e-05,
      "loss": 1.4803,
      "step": 37
    },
    {
      "epoch": 0.160676532769556,
      "grad_norm": 4.288084506988525,
      "learning_rate": 8.551894736842105e-05,
      "loss": 1.4423,
      "step": 38
    },
    {
      "epoch": 0.1649048625792812,
      "grad_norm": 4.44950532913208,
      "learning_rate": 8.499105263157895e-05,
      "loss": 1.5582,
      "step": 39
    },
    {
      "epoch": 0.16913319238900634,
      "grad_norm": 4.558293342590332,
      "learning_rate": 8.446315789473683e-05,
      "loss": 1.734,
      "step": 40
    },
    {
      "epoch": 0.1733615221987315,
      "grad_norm": 4.502613544464111,
      "learning_rate": 8.393526315789474e-05,
      "loss": 1.6463,
      "step": 41
    },
    {
      "epoch": 0.17758985200845667,
      "grad_norm": 4.373521327972412,
      "learning_rate": 8.340736842105263e-05,
      "loss": 1.609,
      "step": 42
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 3.7503859996795654,
      "learning_rate": 8.287947368421053e-05,
      "loss": 1.7519,
      "step": 43
    },
    {
      "epoch": 0.18604651162790697,
      "grad_norm": 4.906320571899414,
      "learning_rate": 8.235157894736842e-05,
      "loss": 1.9239,
      "step": 44
    },
    {
      "epoch": 0.19027484143763213,
      "grad_norm": 5.652688026428223,
      "learning_rate": 8.182368421052631e-05,
      "loss": 1.7768,
      "step": 45
    },
    {
      "epoch": 0.1945031712473573,
      "grad_norm": 4.200952529907227,
      "learning_rate": 8.129578947368421e-05,
      "loss": 1.7825,
      "step": 46
    },
    {
      "epoch": 0.19873150105708245,
      "grad_norm": 5.004155158996582,
      "learning_rate": 8.07678947368421e-05,
      "loss": 1.7813,
      "step": 47
    },
    {
      "epoch": 0.2029598308668076,
      "grad_norm": 4.404897212982178,
      "learning_rate": 8.024e-05,
      "loss": 1.832,
      "step": 48
    },
    {
      "epoch": 0.20718816067653276,
      "grad_norm": 3.675750732421875,
      "learning_rate": 7.97121052631579e-05,
      "loss": 1.4443,
      "step": 49
    },
    {
      "epoch": 0.21141649048625794,
      "grad_norm": 3.979156017303467,
      "learning_rate": 7.918421052631579e-05,
      "loss": 1.2943,
      "step": 50
    },
    {
      "epoch": 0.21141649048625794,
      "eval_loss": 0.8498546481132507,
      "eval_runtime": 5.7069,
      "eval_samples_per_second": 17.523,
      "eval_steps_per_second": 4.381,
      "step": 50
    },
    {
      "epoch": 0.2156448202959831,
      "grad_norm": 7.621855735778809,
      "learning_rate": 7.865631578947369e-05,
      "loss": 2.1544,
      "step": 51
    },
    {
      "epoch": 0.21987315010570824,
      "grad_norm": 4.06264591217041,
      "learning_rate": 7.812842105263157e-05,
      "loss": 1.8834,
      "step": 52
    },
    {
      "epoch": 0.22410147991543342,
      "grad_norm": 3.7094693183898926,
      "learning_rate": 7.760052631578947e-05,
      "loss": 1.5202,
      "step": 53
    },
    {
      "epoch": 0.22832980972515857,
      "grad_norm": 3.561109781265259,
      "learning_rate": 7.707263157894737e-05,
      "loss": 1.2441,
      "step": 54
    },
    {
      "epoch": 0.23255813953488372,
      "grad_norm": 5.160130977630615,
      "learning_rate": 7.654473684210527e-05,
      "loss": 1.6565,
      "step": 55
    },
    {
      "epoch": 0.23678646934460887,
      "grad_norm": 5.131112098693848,
      "learning_rate": 7.601684210526316e-05,
      "loss": 1.8948,
      "step": 56
    },
    {
      "epoch": 0.24101479915433405,
      "grad_norm": 3.6626875400543213,
      "learning_rate": 7.548894736842105e-05,
      "loss": 1.5234,
      "step": 57
    },
    {
      "epoch": 0.2452431289640592,
      "grad_norm": 4.525848388671875,
      "learning_rate": 7.496105263157895e-05,
      "loss": 1.8312,
      "step": 58
    },
    {
      "epoch": 0.24947145877378435,
      "grad_norm": 4.960063457489014,
      "learning_rate": 7.443315789473683e-05,
      "loss": 1.4319,
      "step": 59
    },
    {
      "epoch": 0.2536997885835095,
      "grad_norm": 4.464987754821777,
      "learning_rate": 7.390526315789473e-05,
      "loss": 1.5477,
      "step": 60
    },
    {
      "epoch": 0.25792811839323465,
      "grad_norm": 3.986722469329834,
      "learning_rate": 7.337736842105263e-05,
      "loss": 1.8538,
      "step": 61
    },
    {
      "epoch": 0.26215644820295986,
      "grad_norm": 4.5078229904174805,
      "learning_rate": 7.284947368421053e-05,
      "loss": 1.602,
      "step": 62
    },
    {
      "epoch": 0.266384778012685,
      "grad_norm": 3.2191338539123535,
      "learning_rate": 7.232157894736843e-05,
      "loss": 1.6102,
      "step": 63
    },
    {
      "epoch": 0.27061310782241016,
      "grad_norm": 4.5015740394592285,
      "learning_rate": 7.179368421052631e-05,
      "loss": 1.8807,
      "step": 64
    },
    {
      "epoch": 0.2748414376321353,
      "grad_norm": 3.7431957721710205,
      "learning_rate": 7.126578947368421e-05,
      "loss": 1.4629,
      "step": 65
    },
    {
      "epoch": 0.27906976744186046,
      "grad_norm": 3.6365103721618652,
      "learning_rate": 7.07378947368421e-05,
      "loss": 1.773,
      "step": 66
    },
    {
      "epoch": 0.2832980972515856,
      "grad_norm": 3.7285256385803223,
      "learning_rate": 7.021e-05,
      "loss": 1.5884,
      "step": 67
    },
    {
      "epoch": 0.28752642706131076,
      "grad_norm": 3.462409496307373,
      "learning_rate": 6.968210526315789e-05,
      "loss": 1.4521,
      "step": 68
    },
    {
      "epoch": 0.2917547568710359,
      "grad_norm": 3.4212324619293213,
      "learning_rate": 6.915421052631579e-05,
      "loss": 1.3898,
      "step": 69
    },
    {
      "epoch": 0.2959830866807611,
      "grad_norm": 4.631465911865234,
      "learning_rate": 6.862631578947369e-05,
      "loss": 1.4781,
      "step": 70
    },
    {
      "epoch": 0.30021141649048627,
      "grad_norm": 3.8875584602355957,
      "learning_rate": 6.809842105263157e-05,
      "loss": 1.6148,
      "step": 71
    },
    {
      "epoch": 0.3044397463002114,
      "grad_norm": 2.895688533782959,
      "learning_rate": 6.757052631578947e-05,
      "loss": 1.0492,
      "step": 72
    },
    {
      "epoch": 0.3086680761099366,
      "grad_norm": 3.4434566497802734,
      "learning_rate": 6.704263157894737e-05,
      "loss": 1.4178,
      "step": 73
    },
    {
      "epoch": 0.3128964059196617,
      "grad_norm": 3.873994827270508,
      "learning_rate": 6.651473684210526e-05,
      "loss": 1.137,
      "step": 74
    },
    {
      "epoch": 0.3171247357293869,
      "grad_norm": 3.3192250728607178,
      "learning_rate": 6.598684210526317e-05,
      "loss": 1.3614,
      "step": 75
    },
    {
      "epoch": 0.321353065539112,
      "grad_norm": 4.050655841827393,
      "learning_rate": 6.545894736842105e-05,
      "loss": 1.3856,
      "step": 76
    },
    {
      "epoch": 0.32558139534883723,
      "grad_norm": 4.588745594024658,
      "learning_rate": 6.493105263157895e-05,
      "loss": 1.297,
      "step": 77
    },
    {
      "epoch": 0.3298097251585624,
      "grad_norm": 3.7719461917877197,
      "learning_rate": 6.440315789473684e-05,
      "loss": 1.3099,
      "step": 78
    },
    {
      "epoch": 0.33403805496828753,
      "grad_norm": 4.607173442840576,
      "learning_rate": 6.387526315789473e-05,
      "loss": 1.429,
      "step": 79
    },
    {
      "epoch": 0.3382663847780127,
      "grad_norm": 4.6649274826049805,
      "learning_rate": 6.334736842105263e-05,
      "loss": 1.2815,
      "step": 80
    },
    {
      "epoch": 0.34249471458773784,
      "grad_norm": 3.6917057037353516,
      "learning_rate": 6.281947368421052e-05,
      "loss": 1.4684,
      "step": 81
    },
    {
      "epoch": 0.346723044397463,
      "grad_norm": 3.909883975982666,
      "learning_rate": 6.229157894736843e-05,
      "loss": 0.9787,
      "step": 82
    },
    {
      "epoch": 0.35095137420718814,
      "grad_norm": 3.1992759704589844,
      "learning_rate": 6.176368421052631e-05,
      "loss": 1.0485,
      "step": 83
    },
    {
      "epoch": 0.35517970401691334,
      "grad_norm": 3.8723549842834473,
      "learning_rate": 6.123578947368421e-05,
      "loss": 1.4232,
      "step": 84
    },
    {
      "epoch": 0.3594080338266385,
      "grad_norm": 4.698264122009277,
      "learning_rate": 6.0707894736842105e-05,
      "loss": 1.2502,
      "step": 85
    },
    {
      "epoch": 0.36363636363636365,
      "grad_norm": 3.754831552505493,
      "learning_rate": 6.0179999999999996e-05,
      "loss": 1.5293,
      "step": 86
    },
    {
      "epoch": 0.3678646934460888,
      "grad_norm": 3.6360344886779785,
      "learning_rate": 5.965210526315789e-05,
      "loss": 1.1618,
      "step": 87
    },
    {
      "epoch": 0.37209302325581395,
      "grad_norm": 4.314610481262207,
      "learning_rate": 5.912421052631578e-05,
      "loss": 1.4931,
      "step": 88
    },
    {
      "epoch": 0.3763213530655391,
      "grad_norm": 5.007490634918213,
      "learning_rate": 5.8596315789473685e-05,
      "loss": 1.8385,
      "step": 89
    },
    {
      "epoch": 0.38054968287526425,
      "grad_norm": 4.942836761474609,
      "learning_rate": 5.8068421052631583e-05,
      "loss": 1.3829,
      "step": 90
    },
    {
      "epoch": 0.38477801268498946,
      "grad_norm": 3.696213483810425,
      "learning_rate": 5.7540526315789475e-05,
      "loss": 1.099,
      "step": 91
    },
    {
      "epoch": 0.3890063424947146,
      "grad_norm": 4.049077033996582,
      "learning_rate": 5.701263157894737e-05,
      "loss": 1.6017,
      "step": 92
    },
    {
      "epoch": 0.39323467230443976,
      "grad_norm": 3.5421807765960693,
      "learning_rate": 5.648473684210526e-05,
      "loss": 1.0827,
      "step": 93
    },
    {
      "epoch": 0.3974630021141649,
      "grad_norm": 4.088818550109863,
      "learning_rate": 5.595684210526315e-05,
      "loss": 1.4112,
      "step": 94
    },
    {
      "epoch": 0.40169133192389006,
      "grad_norm": 4.132923126220703,
      "learning_rate": 5.5428947368421055e-05,
      "loss": 1.604,
      "step": 95
    },
    {
      "epoch": 0.4059196617336152,
      "grad_norm": 3.0214345455169678,
      "learning_rate": 5.490105263157895e-05,
      "loss": 1.2154,
      "step": 96
    },
    {
      "epoch": 0.41014799154334036,
      "grad_norm": 3.6884512901306152,
      "learning_rate": 5.4373157894736846e-05,
      "loss": 1.4904,
      "step": 97
    },
    {
      "epoch": 0.4143763213530655,
      "grad_norm": 3.7597897052764893,
      "learning_rate": 5.384526315789474e-05,
      "loss": 1.0783,
      "step": 98
    },
    {
      "epoch": 0.4186046511627907,
      "grad_norm": 3.8981921672821045,
      "learning_rate": 5.331736842105263e-05,
      "loss": 1.6631,
      "step": 99
    },
    {
      "epoch": 0.42283298097251587,
      "grad_norm": 3.765083074569702,
      "learning_rate": 5.278947368421052e-05,
      "loss": 1.3793,
      "step": 100
    },
    {
      "epoch": 0.42283298097251587,
      "eval_loss": 0.7587301731109619,
      "eval_runtime": 5.755,
      "eval_samples_per_second": 17.376,
      "eval_steps_per_second": 4.344,
      "step": 100
    },
    {
      "epoch": 0.427061310782241,
      "grad_norm": 4.627155780792236,
      "learning_rate": 5.226157894736842e-05,
      "loss": 1.485,
      "step": 101
    },
    {
      "epoch": 0.4312896405919662,
      "grad_norm": 3.788050413131714,
      "learning_rate": 5.173368421052632e-05,
      "loss": 1.7146,
      "step": 102
    },
    {
      "epoch": 0.4355179704016913,
      "grad_norm": 5.50797176361084,
      "learning_rate": 5.1205789473684216e-05,
      "loss": 2.0113,
      "step": 103
    },
    {
      "epoch": 0.4397463002114165,
      "grad_norm": 4.740911960601807,
      "learning_rate": 5.067789473684211e-05,
      "loss": 1.5711,
      "step": 104
    },
    {
      "epoch": 0.4439746300211416,
      "grad_norm": 3.6303420066833496,
      "learning_rate": 5.015e-05,
      "loss": 1.6327,
      "step": 105
    },
    {
      "epoch": 0.44820295983086683,
      "grad_norm": 3.5763580799102783,
      "learning_rate": 4.962210526315789e-05,
      "loss": 1.6419,
      "step": 106
    },
    {
      "epoch": 0.452431289640592,
      "grad_norm": 3.025585174560547,
      "learning_rate": 4.909421052631579e-05,
      "loss": 1.5414,
      "step": 107
    },
    {
      "epoch": 0.45665961945031713,
      "grad_norm": 3.4086949825286865,
      "learning_rate": 4.856631578947368e-05,
      "loss": 1.4932,
      "step": 108
    },
    {
      "epoch": 0.4608879492600423,
      "grad_norm": 3.8956422805786133,
      "learning_rate": 4.803842105263158e-05,
      "loss": 1.3085,
      "step": 109
    },
    {
      "epoch": 0.46511627906976744,
      "grad_norm": 3.278071403503418,
      "learning_rate": 4.751052631578947e-05,
      "loss": 1.2975,
      "step": 110
    },
    {
      "epoch": 0.4693446088794926,
      "grad_norm": 3.818755865097046,
      "learning_rate": 4.698263157894737e-05,
      "loss": 1.5909,
      "step": 111
    },
    {
      "epoch": 0.47357293868921774,
      "grad_norm": 3.7384696006774902,
      "learning_rate": 4.645473684210526e-05,
      "loss": 1.3486,
      "step": 112
    },
    {
      "epoch": 0.47780126849894294,
      "grad_norm": 3.4900832176208496,
      "learning_rate": 4.592684210526315e-05,
      "loss": 1.5567,
      "step": 113
    },
    {
      "epoch": 0.4820295983086681,
      "grad_norm": 3.342031240463257,
      "learning_rate": 4.539894736842105e-05,
      "loss": 1.4477,
      "step": 114
    },
    {
      "epoch": 0.48625792811839325,
      "grad_norm": 3.9853925704956055,
      "learning_rate": 4.487105263157895e-05,
      "loss": 1.6359,
      "step": 115
    },
    {
      "epoch": 0.4904862579281184,
      "grad_norm": 4.304673671722412,
      "learning_rate": 4.434315789473684e-05,
      "loss": 1.4315,
      "step": 116
    },
    {
      "epoch": 0.49471458773784355,
      "grad_norm": 3.2769739627838135,
      "learning_rate": 4.381526315789474e-05,
      "loss": 1.194,
      "step": 117
    },
    {
      "epoch": 0.4989429175475687,
      "grad_norm": 4.3398613929748535,
      "learning_rate": 4.328736842105263e-05,
      "loss": 1.5875,
      "step": 118
    },
    {
      "epoch": 0.5031712473572939,
      "grad_norm": 3.4101338386535645,
      "learning_rate": 4.2759473684210523e-05,
      "loss": 1.2428,
      "step": 119
    },
    {
      "epoch": 0.507399577167019,
      "grad_norm": 3.519439220428467,
      "learning_rate": 4.2231578947368415e-05,
      "loss": 1.3977,
      "step": 120
    },
    {
      "epoch": 0.5116279069767442,
      "grad_norm": 4.388018608093262,
      "learning_rate": 4.1703684210526314e-05,
      "loss": 1.1579,
      "step": 121
    },
    {
      "epoch": 0.5158562367864693,
      "grad_norm": 3.707937479019165,
      "learning_rate": 4.117578947368421e-05,
      "loss": 1.3327,
      "step": 122
    },
    {
      "epoch": 0.5200845665961945,
      "grad_norm": 3.4220097064971924,
      "learning_rate": 4.0647894736842104e-05,
      "loss": 1.2987,
      "step": 123
    },
    {
      "epoch": 0.5243128964059197,
      "grad_norm": 3.3859260082244873,
      "learning_rate": 4.012e-05,
      "loss": 1.1072,
      "step": 124
    },
    {
      "epoch": 0.5285412262156448,
      "grad_norm": 3.898872137069702,
      "learning_rate": 3.9592105263157894e-05,
      "loss": 1.4708,
      "step": 125
    },
    {
      "epoch": 0.53276955602537,
      "grad_norm": 3.9642343521118164,
      "learning_rate": 3.9064210526315785e-05,
      "loss": 1.2602,
      "step": 126
    },
    {
      "epoch": 0.5369978858350951,
      "grad_norm": 3.559969902038574,
      "learning_rate": 3.8536315789473684e-05,
      "loss": 1.3167,
      "step": 127
    },
    {
      "epoch": 0.5412262156448203,
      "grad_norm": 3.6455488204956055,
      "learning_rate": 3.800842105263158e-05,
      "loss": 1.2683,
      "step": 128
    },
    {
      "epoch": 0.5454545454545454,
      "grad_norm": 3.075777769088745,
      "learning_rate": 3.7480526315789474e-05,
      "loss": 1.1117,
      "step": 129
    },
    {
      "epoch": 0.5496828752642706,
      "grad_norm": 5.10760498046875,
      "learning_rate": 3.6952631578947366e-05,
      "loss": 1.7565,
      "step": 130
    },
    {
      "epoch": 0.5539112050739958,
      "grad_norm": 4.103846073150635,
      "learning_rate": 3.6424736842105264e-05,
      "loss": 1.4042,
      "step": 131
    },
    {
      "epoch": 0.5581395348837209,
      "grad_norm": 3.2791740894317627,
      "learning_rate": 3.5896842105263156e-05,
      "loss": 1.1384,
      "step": 132
    },
    {
      "epoch": 0.5623678646934461,
      "grad_norm": 3.4126391410827637,
      "learning_rate": 3.536894736842105e-05,
      "loss": 1.3939,
      "step": 133
    },
    {
      "epoch": 0.5665961945031712,
      "grad_norm": 3.3856968879699707,
      "learning_rate": 3.4841052631578946e-05,
      "loss": 1.1905,
      "step": 134
    },
    {
      "epoch": 0.5708245243128964,
      "grad_norm": 4.06540584564209,
      "learning_rate": 3.4313157894736844e-05,
      "loss": 1.263,
      "step": 135
    },
    {
      "epoch": 0.5750528541226215,
      "grad_norm": 3.7850067615509033,
      "learning_rate": 3.3785263157894736e-05,
      "loss": 1.4219,
      "step": 136
    },
    {
      "epoch": 0.5792811839323467,
      "grad_norm": 4.634840965270996,
      "learning_rate": 3.325736842105263e-05,
      "loss": 1.5011,
      "step": 137
    },
    {
      "epoch": 0.5835095137420718,
      "grad_norm": 3.5834591388702393,
      "learning_rate": 3.2729473684210526e-05,
      "loss": 1.3533,
      "step": 138
    },
    {
      "epoch": 0.587737843551797,
      "grad_norm": 4.309558391571045,
      "learning_rate": 3.220157894736842e-05,
      "loss": 1.4682,
      "step": 139
    },
    {
      "epoch": 0.5919661733615222,
      "grad_norm": 3.153954029083252,
      "learning_rate": 3.1673684210526316e-05,
      "loss": 1.3094,
      "step": 140
    },
    {
      "epoch": 0.5961945031712473,
      "grad_norm": 2.9534919261932373,
      "learning_rate": 3.1145789473684215e-05,
      "loss": 1.0215,
      "step": 141
    },
    {
      "epoch": 0.6004228329809725,
      "grad_norm": 3.1818530559539795,
      "learning_rate": 3.0617894736842107e-05,
      "loss": 0.7931,
      "step": 142
    },
    {
      "epoch": 0.6046511627906976,
      "grad_norm": 3.4314210414886475,
      "learning_rate": 3.0089999999999998e-05,
      "loss": 1.1634,
      "step": 143
    },
    {
      "epoch": 0.6088794926004228,
      "grad_norm": 4.303430557250977,
      "learning_rate": 2.956210526315789e-05,
      "loss": 1.4449,
      "step": 144
    },
    {
      "epoch": 0.6131078224101479,
      "grad_norm": 4.216327667236328,
      "learning_rate": 2.9034210526315792e-05,
      "loss": 1.2162,
      "step": 145
    },
    {
      "epoch": 0.6173361522198731,
      "grad_norm": 3.905322551727295,
      "learning_rate": 2.8506315789473683e-05,
      "loss": 1.2161,
      "step": 146
    },
    {
      "epoch": 0.6215644820295984,
      "grad_norm": 4.05627965927124,
      "learning_rate": 2.7978421052631575e-05,
      "loss": 1.2655,
      "step": 147
    },
    {
      "epoch": 0.6257928118393234,
      "grad_norm": 3.8176534175872803,
      "learning_rate": 2.7450526315789474e-05,
      "loss": 1.2523,
      "step": 148
    },
    {
      "epoch": 0.6300211416490487,
      "grad_norm": 4.6492156982421875,
      "learning_rate": 2.692263157894737e-05,
      "loss": 1.8036,
      "step": 149
    },
    {
      "epoch": 0.6342494714587738,
      "grad_norm": 7.181614875793457,
      "learning_rate": 2.639473684210526e-05,
      "loss": 1.6942,
      "step": 150
    },
    {
      "epoch": 0.6342494714587738,
      "eval_loss": 0.7120175361633301,
      "eval_runtime": 5.6992,
      "eval_samples_per_second": 17.546,
      "eval_steps_per_second": 4.387,
      "step": 150
    },
    {
      "epoch": 0.638477801268499,
      "grad_norm": 3.7120771408081055,
      "learning_rate": 2.586684210526316e-05,
      "loss": 1.6074,
      "step": 151
    },
    {
      "epoch": 0.642706131078224,
      "grad_norm": 4.883687973022461,
      "learning_rate": 2.5338947368421054e-05,
      "loss": 1.7242,
      "step": 152
    },
    {
      "epoch": 0.6469344608879493,
      "grad_norm": 3.719517707824707,
      "learning_rate": 2.4811052631578945e-05,
      "loss": 1.5066,
      "step": 153
    },
    {
      "epoch": 0.6511627906976745,
      "grad_norm": 3.921480417251587,
      "learning_rate": 2.428315789473684e-05,
      "loss": 1.3122,
      "step": 154
    },
    {
      "epoch": 0.6553911205073996,
      "grad_norm": 4.006931304931641,
      "learning_rate": 2.3755263157894736e-05,
      "loss": 1.5879,
      "step": 155
    },
    {
      "epoch": 0.6596194503171248,
      "grad_norm": 3.2869625091552734,
      "learning_rate": 2.322736842105263e-05,
      "loss": 1.3118,
      "step": 156
    },
    {
      "epoch": 0.6638477801268499,
      "grad_norm": 4.165566921234131,
      "learning_rate": 2.2699473684210526e-05,
      "loss": 1.816,
      "step": 157
    },
    {
      "epoch": 0.6680761099365751,
      "grad_norm": 3.342907667160034,
      "learning_rate": 2.217157894736842e-05,
      "loss": 1.491,
      "step": 158
    },
    {
      "epoch": 0.6723044397463002,
      "grad_norm": 3.698087453842163,
      "learning_rate": 2.1643684210526316e-05,
      "loss": 1.3681,
      "step": 159
    },
    {
      "epoch": 0.6765327695560254,
      "grad_norm": 3.9737207889556885,
      "learning_rate": 2.1115789473684208e-05,
      "loss": 1.4224,
      "step": 160
    },
    {
      "epoch": 0.6807610993657506,
      "grad_norm": 4.067697048187256,
      "learning_rate": 2.0587894736842106e-05,
      "loss": 1.4399,
      "step": 161
    },
    {
      "epoch": 0.6849894291754757,
      "grad_norm": 4.039961338043213,
      "learning_rate": 2.006e-05,
      "loss": 1.4007,
      "step": 162
    },
    {
      "epoch": 0.6892177589852009,
      "grad_norm": 3.65069842338562,
      "learning_rate": 1.9532105263157893e-05,
      "loss": 1.2616,
      "step": 163
    },
    {
      "epoch": 0.693446088794926,
      "grad_norm": 3.4885332584381104,
      "learning_rate": 1.900421052631579e-05,
      "loss": 1.325,
      "step": 164
    },
    {
      "epoch": 0.6976744186046512,
      "grad_norm": 3.8202478885650635,
      "learning_rate": 1.8476315789473683e-05,
      "loss": 1.4452,
      "step": 165
    },
    {
      "epoch": 0.7019027484143763,
      "grad_norm": 3.3636627197265625,
      "learning_rate": 1.7948421052631578e-05,
      "loss": 1.4768,
      "step": 166
    },
    {
      "epoch": 0.7061310782241015,
      "grad_norm": 3.3209993839263916,
      "learning_rate": 1.7420526315789473e-05,
      "loss": 1.5622,
      "step": 167
    },
    {
      "epoch": 0.7103594080338267,
      "grad_norm": 3.561314105987549,
      "learning_rate": 1.6892631578947368e-05,
      "loss": 1.3776,
      "step": 168
    },
    {
      "epoch": 0.7145877378435518,
      "grad_norm": 3.6763312816619873,
      "learning_rate": 1.6364736842105263e-05,
      "loss": 1.2834,
      "step": 169
    },
    {
      "epoch": 0.718816067653277,
      "grad_norm": 3.0946156978607178,
      "learning_rate": 1.5836842105263158e-05,
      "loss": 1.1698,
      "step": 170
    },
    {
      "epoch": 0.7230443974630021,
      "grad_norm": 3.4231629371643066,
      "learning_rate": 1.5308947368421053e-05,
      "loss": 1.5614,
      "step": 171
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 3.3777573108673096,
      "learning_rate": 1.4781052631578945e-05,
      "loss": 1.3396,
      "step": 172
    },
    {
      "epoch": 0.7315010570824524,
      "grad_norm": 3.4750330448150635,
      "learning_rate": 1.4253157894736842e-05,
      "loss": 1.5131,
      "step": 173
    },
    {
      "epoch": 0.7357293868921776,
      "grad_norm": 3.9094483852386475,
      "learning_rate": 1.3725263157894737e-05,
      "loss": 1.0579,
      "step": 174
    },
    {
      "epoch": 0.7399577167019028,
      "grad_norm": 5.054296016693115,
      "learning_rate": 1.319736842105263e-05,
      "loss": 1.5261,
      "step": 175
    },
    {
      "epoch": 0.7441860465116279,
      "grad_norm": 3.3590009212493896,
      "learning_rate": 1.2669473684210527e-05,
      "loss": 0.9721,
      "step": 176
    },
    {
      "epoch": 0.7484143763213531,
      "grad_norm": 3.868457078933716,
      "learning_rate": 1.214157894736842e-05,
      "loss": 1.3163,
      "step": 177
    },
    {
      "epoch": 0.7526427061310782,
      "grad_norm": 3.910431146621704,
      "learning_rate": 1.1613684210526315e-05,
      "loss": 1.5807,
      "step": 178
    },
    {
      "epoch": 0.7568710359408034,
      "grad_norm": 4.657809734344482,
      "learning_rate": 1.108578947368421e-05,
      "loss": 1.8147,
      "step": 179
    },
    {
      "epoch": 0.7610993657505285,
      "grad_norm": 2.995884656906128,
      "learning_rate": 1.0557894736842104e-05,
      "loss": 1.1418,
      "step": 180
    },
    {
      "epoch": 0.7653276955602537,
      "grad_norm": 3.5650057792663574,
      "learning_rate": 1.003e-05,
      "loss": 1.2171,
      "step": 181
    },
    {
      "epoch": 0.7695560253699789,
      "grad_norm": 2.947834014892578,
      "learning_rate": 9.502105263157896e-06,
      "loss": 0.9077,
      "step": 182
    },
    {
      "epoch": 0.773784355179704,
      "grad_norm": 4.190479755401611,
      "learning_rate": 8.974210526315789e-06,
      "loss": 1.3593,
      "step": 183
    },
    {
      "epoch": 0.7780126849894292,
      "grad_norm": 4.313446998596191,
      "learning_rate": 8.446315789473684e-06,
      "loss": 1.4314,
      "step": 184
    },
    {
      "epoch": 0.7822410147991543,
      "grad_norm": 3.5509700775146484,
      "learning_rate": 7.918421052631579e-06,
      "loss": 0.8924,
      "step": 185
    },
    {
      "epoch": 0.7864693446088795,
      "grad_norm": 3.5839693546295166,
      "learning_rate": 7.3905263157894725e-06,
      "loss": 1.2589,
      "step": 186
    },
    {
      "epoch": 0.7906976744186046,
      "grad_norm": 3.49641489982605,
      "learning_rate": 6.862631578947368e-06,
      "loss": 1.2195,
      "step": 187
    },
    {
      "epoch": 0.7949260042283298,
      "grad_norm": 4.494103908538818,
      "learning_rate": 6.3347368421052634e-06,
      "loss": 0.9546,
      "step": 188
    },
    {
      "epoch": 0.7991543340380549,
      "grad_norm": 4.106745719909668,
      "learning_rate": 5.806842105263158e-06,
      "loss": 1.3837,
      "step": 189
    },
    {
      "epoch": 0.8033826638477801,
      "grad_norm": 3.3557074069976807,
      "learning_rate": 5.278947368421052e-06,
      "loss": 1.0517,
      "step": 190
    },
    {
      "epoch": 0.8076109936575053,
      "grad_norm": 3.182860851287842,
      "learning_rate": 4.751052631578948e-06,
      "loss": 0.9986,
      "step": 191
    },
    {
      "epoch": 0.8118393234672304,
      "grad_norm": 3.671976327896118,
      "learning_rate": 4.223157894736842e-06,
      "loss": 1.0945,
      "step": 192
    },
    {
      "epoch": 0.8160676532769556,
      "grad_norm": 3.382333517074585,
      "learning_rate": 3.6952631578947362e-06,
      "loss": 1.0867,
      "step": 193
    },
    {
      "epoch": 0.8202959830866807,
      "grad_norm": 3.876882314682007,
      "learning_rate": 3.1673684210526317e-06,
      "loss": 1.5588,
      "step": 194
    },
    {
      "epoch": 0.8245243128964059,
      "grad_norm": 4.147052764892578,
      "learning_rate": 2.639473684210526e-06,
      "loss": 1.0961,
      "step": 195
    },
    {
      "epoch": 0.828752642706131,
      "grad_norm": 4.046473979949951,
      "learning_rate": 2.111578947368421e-06,
      "loss": 1.5097,
      "step": 196
    },
    {
      "epoch": 0.8329809725158562,
      "grad_norm": 3.203843116760254,
      "learning_rate": 1.5836842105263159e-06,
      "loss": 0.9054,
      "step": 197
    },
    {
      "epoch": 0.8372093023255814,
      "grad_norm": 3.514685869216919,
      "learning_rate": 1.0557894736842105e-06,
      "loss": 1.2774,
      "step": 198
    },
    {
      "epoch": 0.8414376321353065,
      "grad_norm": 4.663123607635498,
      "learning_rate": 5.278947368421053e-07,
      "loss": 1.5852,
      "step": 199
    },
    {
      "epoch": 0.8456659619450317,
      "grad_norm": 3.930481433868408,
      "learning_rate": 0.0,
      "loss": 1.3282,
      "step": 200
    },
    {
      "epoch": 0.8456659619450317,
      "eval_loss": 0.6885719895362854,
      "eval_runtime": 5.7331,
      "eval_samples_per_second": 17.443,
      "eval_steps_per_second": 4.361,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.23758274674688e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}