{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.272108843537415,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0027210884353741495,
      "grad_norm": 0.3794247806072235,
      "learning_rate": 1e-05,
      "loss": 1.0094,
      "step": 1
    },
    {
      "epoch": 0.0027210884353741495,
      "eval_loss": 1.1417770385742188,
      "eval_runtime": 33.13,
      "eval_samples_per_second": 37.338,
      "eval_steps_per_second": 1.177,
      "step": 1
    },
    {
      "epoch": 0.005442176870748299,
      "grad_norm": 0.3934107720851898,
      "learning_rate": 2e-05,
      "loss": 1.1666,
      "step": 2
    },
    {
      "epoch": 0.00816326530612245,
      "grad_norm": 0.8221097588539124,
      "learning_rate": 3e-05,
      "loss": 1.0843,
      "step": 3
    },
    {
      "epoch": 0.010884353741496598,
      "grad_norm": 0.5988331437110901,
      "learning_rate": 4e-05,
      "loss": 1.0903,
      "step": 4
    },
    {
      "epoch": 0.013605442176870748,
      "grad_norm": 0.6393041014671326,
      "learning_rate": 5e-05,
      "loss": 1.244,
      "step": 5
    },
    {
      "epoch": 0.0163265306122449,
      "grad_norm": 0.7438321113586426,
      "learning_rate": 6e-05,
      "loss": 1.1998,
      "step": 6
    },
    {
      "epoch": 0.01904761904761905,
      "grad_norm": 0.36231476068496704,
      "learning_rate": 7e-05,
      "loss": 1.0755,
      "step": 7
    },
    {
      "epoch": 0.021768707482993196,
      "grad_norm": 0.3180386424064636,
      "learning_rate": 8e-05,
      "loss": 1.0824,
      "step": 8
    },
    {
      "epoch": 0.024489795918367346,
      "grad_norm": 0.36147695779800415,
      "learning_rate": 9e-05,
      "loss": 0.9747,
      "step": 9
    },
    {
      "epoch": 0.024489795918367346,
      "eval_loss": 1.029716968536377,
      "eval_runtime": 32.1419,
      "eval_samples_per_second": 38.486,
      "eval_steps_per_second": 1.213,
      "step": 9
    },
    {
      "epoch": 0.027210884353741496,
      "grad_norm": 0.3791433274745941,
      "learning_rate": 0.0001,
      "loss": 0.9881,
      "step": 10
    },
    {
      "epoch": 0.029931972789115645,
      "grad_norm": 0.321811318397522,
      "learning_rate": 9.99695413509548e-05,
      "loss": 0.9243,
      "step": 11
    },
    {
      "epoch": 0.0326530612244898,
      "grad_norm": 0.323947548866272,
      "learning_rate": 9.987820251299122e-05,
      "loss": 1.028,
      "step": 12
    },
    {
      "epoch": 0.03537414965986395,
      "grad_norm": 0.23239950835704803,
      "learning_rate": 9.972609476841367e-05,
      "loss": 0.9217,
      "step": 13
    },
    {
      "epoch": 0.0380952380952381,
      "grad_norm": 0.2645728886127472,
      "learning_rate": 9.951340343707852e-05,
      "loss": 0.9599,
      "step": 14
    },
    {
      "epoch": 0.04081632653061224,
      "grad_norm": 0.2669348418712616,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.9107,
      "step": 15
    },
    {
      "epoch": 0.04353741496598639,
      "grad_norm": 0.29545190930366516,
      "learning_rate": 9.890738003669029e-05,
      "loss": 0.9072,
      "step": 16
    },
    {
      "epoch": 0.04625850340136054,
      "grad_norm": 0.4265272915363312,
      "learning_rate": 9.851478631379982e-05,
      "loss": 0.8363,
      "step": 17
    },
    {
      "epoch": 0.04897959183673469,
      "grad_norm": 0.33793905377388,
      "learning_rate": 9.806308479691595e-05,
      "loss": 0.8548,
      "step": 18
    },
    {
      "epoch": 0.04897959183673469,
      "eval_loss": 0.8921555876731873,
      "eval_runtime": 32.1659,
      "eval_samples_per_second": 38.457,
      "eval_steps_per_second": 1.212,
      "step": 18
    },
    {
      "epoch": 0.05170068027210884,
      "grad_norm": 0.29521119594573975,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.0262,
      "step": 19
    },
    {
      "epoch": 0.05442176870748299,
      "grad_norm": 0.25814828276634216,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.8723,
      "step": 20
    },
    {
      "epoch": 0.05714285714285714,
      "grad_norm": 0.22949723899364471,
      "learning_rate": 9.635919272833938e-05,
      "loss": 0.8136,
      "step": 21
    },
    {
      "epoch": 0.05986394557823129,
      "grad_norm": 0.23182009160518646,
      "learning_rate": 9.567727288213005e-05,
      "loss": 0.879,
      "step": 22
    },
    {
      "epoch": 0.06258503401360545,
      "grad_norm": 0.22675925493240356,
      "learning_rate": 9.493970231495835e-05,
      "loss": 0.9667,
      "step": 23
    },
    {
      "epoch": 0.0653061224489796,
      "grad_norm": 0.21427354216575623,
      "learning_rate": 9.414737964294636e-05,
      "loss": 0.8858,
      "step": 24
    },
    {
      "epoch": 0.06802721088435375,
      "grad_norm": 0.2081420123577118,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.7384,
      "step": 25
    },
    {
      "epoch": 0.0707482993197279,
      "grad_norm": 0.2715436816215515,
      "learning_rate": 9.24024048078213e-05,
      "loss": 0.8313,
      "step": 26
    },
    {
      "epoch": 0.07346938775510205,
      "grad_norm": 0.17196820676326752,
      "learning_rate": 9.145187862775209e-05,
      "loss": 0.7049,
      "step": 27
    },
    {
      "epoch": 0.07346938775510205,
      "eval_loss": 0.8358339071273804,
      "eval_runtime": 32.2462,
      "eval_samples_per_second": 38.361,
      "eval_steps_per_second": 1.209,
      "step": 27
    },
    {
      "epoch": 0.0761904761904762,
      "grad_norm": 0.20034591853618622,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.7915,
      "step": 28
    },
    {
      "epoch": 0.07891156462585033,
      "grad_norm": 0.1871924102306366,
      "learning_rate": 8.940053768033609e-05,
      "loss": 0.8078,
      "step": 29
    },
    {
      "epoch": 0.08163265306122448,
      "grad_norm": 0.17880544066429138,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.7792,
      "step": 30
    },
    {
      "epoch": 0.08435374149659863,
      "grad_norm": 0.1694069802761078,
      "learning_rate": 8.715724127386972e-05,
      "loss": 0.8721,
      "step": 31
    },
    {
      "epoch": 0.08707482993197278,
      "grad_norm": 0.18936829268932343,
      "learning_rate": 8.596699001693255e-05,
      "loss": 0.7516,
      "step": 32
    },
    {
      "epoch": 0.08979591836734693,
      "grad_norm": 0.16061776876449585,
      "learning_rate": 8.473291852294987e-05,
      "loss": 0.7355,
      "step": 33
    },
    {
      "epoch": 0.09251700680272108,
      "grad_norm": 0.19893476366996765,
      "learning_rate": 8.345653031794292e-05,
      "loss": 0.7707,
      "step": 34
    },
    {
      "epoch": 0.09523809523809523,
      "grad_norm": 0.1766090989112854,
      "learning_rate": 8.213938048432697e-05,
      "loss": 0.833,
      "step": 35
    },
    {
      "epoch": 0.09795918367346938,
      "grad_norm": 0.1876072734594345,
      "learning_rate": 8.07830737662829e-05,
      "loss": 0.8513,
      "step": 36
    },
    {
      "epoch": 0.09795918367346938,
      "eval_loss": 0.8078206181526184,
      "eval_runtime": 32.2017,
      "eval_samples_per_second": 38.414,
      "eval_steps_per_second": 1.211,
      "step": 36
    },
    {
      "epoch": 0.10068027210884353,
      "grad_norm": 0.1298530101776123,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.6483,
      "step": 37
    },
    {
      "epoch": 0.10340136054421768,
      "grad_norm": 0.16686002910137177,
      "learning_rate": 7.795964517353735e-05,
      "loss": 0.8881,
      "step": 38
    },
    {
      "epoch": 0.10612244897959183,
      "grad_norm": 0.15148180723190308,
      "learning_rate": 7.649596321166024e-05,
      "loss": 0.8094,
      "step": 39
    },
    {
      "epoch": 0.10884353741496598,
      "grad_norm": 0.1587265133857727,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.7672,
      "step": 40
    },
    {
      "epoch": 0.11156462585034013,
      "grad_norm": 0.15945087373256683,
      "learning_rate": 7.347357813929454e-05,
      "loss": 0.7693,
      "step": 41
    },
    {
      "epoch": 0.11428571428571428,
      "grad_norm": 0.15975786745548248,
      "learning_rate": 7.191855733945387e-05,
      "loss": 0.8368,
      "step": 42
    },
    {
      "epoch": 0.11700680272108843,
      "grad_norm": 0.14709369838237762,
      "learning_rate": 7.033683215379002e-05,
      "loss": 0.8473,
      "step": 43
    },
    {
      "epoch": 0.11972789115646258,
      "grad_norm": 0.1621030569076538,
      "learning_rate": 6.873032967079561e-05,
      "loss": 0.7492,
      "step": 44
    },
    {
      "epoch": 0.12244897959183673,
      "grad_norm": 0.15357595682144165,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.7588,
      "step": 45
    },
    {
      "epoch": 0.12244897959183673,
      "eval_loss": 0.7915312647819519,
      "eval_runtime": 32.2242,
      "eval_samples_per_second": 38.387,
      "eval_steps_per_second": 1.21,
      "step": 45
    },
    {
      "epoch": 0.1251700680272109,
      "grad_norm": 0.16721992194652557,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.7627,
      "step": 46
    },
    {
      "epoch": 0.12789115646258503,
      "grad_norm": 0.16086964309215546,
      "learning_rate": 6.378186779084995e-05,
      "loss": 0.7481,
      "step": 47
    },
    {
      "epoch": 0.1306122448979592,
      "grad_norm": 0.15973734855651855,
      "learning_rate": 6.209609477998338e-05,
      "loss": 0.7528,
      "step": 48
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.17462700605392456,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 0.7995,
      "step": 49
    },
    {
      "epoch": 0.1360544217687075,
      "grad_norm": 0.18057961761951447,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.8498,
      "step": 50
    },
    {
      "epoch": 0.13877551020408163,
      "grad_norm": 0.15415266156196594,
      "learning_rate": 5.695865504800327e-05,
      "loss": 0.7771,
      "step": 51
    },
    {
      "epoch": 0.1414965986394558,
      "grad_norm": 0.1774042248725891,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.717,
      "step": 52
    },
    {
      "epoch": 0.14421768707482993,
      "grad_norm": 0.16443832218647003,
      "learning_rate": 5.348782368720626e-05,
      "loss": 0.7107,
      "step": 53
    },
    {
      "epoch": 0.1469387755102041,
      "grad_norm": 0.3110049366950989,
      "learning_rate": 5.174497483512506e-05,
      "loss": 0.7663,
      "step": 54
    },
    {
      "epoch": 0.1469387755102041,
      "eval_loss": 0.7780860662460327,
      "eval_runtime": 32.1926,
      "eval_samples_per_second": 38.425,
      "eval_steps_per_second": 1.211,
      "step": 54
    },
    {
      "epoch": 0.14965986394557823,
      "grad_norm": 0.162954643368721,
      "learning_rate": 5e-05,
      "loss": 0.8011,
      "step": 55
    },
    {
      "epoch": 0.1523809523809524,
      "grad_norm": 0.15792061388492584,
      "learning_rate": 4.825502516487497e-05,
      "loss": 0.6729,
      "step": 56
    },
    {
      "epoch": 0.15510204081632653,
      "grad_norm": 0.16148516535758972,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 0.7716,
      "step": 57
    },
    {
      "epoch": 0.15782312925170067,
      "grad_norm": 0.18516238033771515,
      "learning_rate": 4.477357683661734e-05,
      "loss": 0.8414,
      "step": 58
    },
    {
      "epoch": 0.16054421768707483,
      "grad_norm": 0.15963776409626007,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 0.6786,
      "step": 59
    },
    {
      "epoch": 0.16326530612244897,
      "grad_norm": 0.16753989458084106,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.6879,
      "step": 60
    },
    {
      "epoch": 0.16598639455782313,
      "grad_norm": 0.1455644816160202,
      "learning_rate": 3.960441545911204e-05,
      "loss": 0.805,
      "step": 61
    },
    {
      "epoch": 0.16870748299319727,
      "grad_norm": 0.14705294370651245,
      "learning_rate": 3.790390522001662e-05,
      "loss": 0.7684,
      "step": 62
    },
    {
      "epoch": 0.17142857142857143,
      "grad_norm": 0.15972404181957245,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 0.7692,
      "step": 63
    },
    {
      "epoch": 0.17142857142857143,
      "eval_loss": 0.769826352596283,
      "eval_runtime": 32.2039,
      "eval_samples_per_second": 38.412,
      "eval_steps_per_second": 1.211,
      "step": 63
    },
    {
      "epoch": 0.17414965986394557,
      "grad_norm": 0.15599988400936127,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.7016,
      "step": 64
    },
    {
      "epoch": 0.17687074829931973,
      "grad_norm": 0.16458293795585632,
      "learning_rate": 3.289899283371657e-05,
      "loss": 0.737,
      "step": 65
    },
    {
      "epoch": 0.17959183673469387,
      "grad_norm": 0.16159993410110474,
      "learning_rate": 3.12696703292044e-05,
      "loss": 0.694,
      "step": 66
    },
    {
      "epoch": 0.18231292517006803,
      "grad_norm": 0.19860902428627014,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 0.7017,
      "step": 67
    },
    {
      "epoch": 0.18503401360544217,
      "grad_norm": 0.15855588018894196,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 0.7375,
      "step": 68
    },
    {
      "epoch": 0.18775510204081633,
      "grad_norm": 0.15132443606853485,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 0.788,
      "step": 69
    },
    {
      "epoch": 0.19047619047619047,
      "grad_norm": 0.17159850895404816,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.7215,
      "step": 70
    },
    {
      "epoch": 0.19319727891156463,
      "grad_norm": 0.18645420670509338,
      "learning_rate": 2.350403678833976e-05,
      "loss": 0.6954,
      "step": 71
    },
    {
      "epoch": 0.19591836734693877,
      "grad_norm": 0.18445448577404022,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 0.707,
      "step": 72
    },
    {
      "epoch": 0.19591836734693877,
      "eval_loss": 0.7648636698722839,
      "eval_runtime": 32.2267,
      "eval_samples_per_second": 38.384,
      "eval_steps_per_second": 1.21,
      "step": 72
    },
    {
      "epoch": 0.19863945578231293,
      "grad_norm": 0.20582908391952515,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.7801,
      "step": 73
    },
    {
      "epoch": 0.20136054421768707,
      "grad_norm": 0.18542836606502533,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 0.7553,
      "step": 74
    },
    {
      "epoch": 0.20408163265306123,
      "grad_norm": 0.17091642320156097,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 0.7707,
      "step": 75
    },
    {
      "epoch": 0.20680272108843537,
      "grad_norm": 0.1923210769891739,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 0.7343,
      "step": 76
    },
    {
      "epoch": 0.20952380952380953,
      "grad_norm": 0.15001152455806732,
      "learning_rate": 1.526708147705013e-05,
      "loss": 0.6671,
      "step": 77
    },
    {
      "epoch": 0.21224489795918366,
      "grad_norm": 0.18915919959545135,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 0.7056,
      "step": 78
    },
    {
      "epoch": 0.21496598639455783,
      "grad_norm": 0.19046439230442047,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 0.83,
      "step": 79
    },
    {
      "epoch": 0.21768707482993196,
      "grad_norm": 0.17637431621551514,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 0.7493,
      "step": 80
    },
    {
      "epoch": 0.22040816326530613,
      "grad_norm": 0.153495192527771,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 0.7012,
      "step": 81
    },
    {
      "epoch": 0.22040816326530613,
      "eval_loss": 0.7618221640586853,
      "eval_runtime": 32.195,
      "eval_samples_per_second": 38.422,
      "eval_steps_per_second": 1.211,
      "step": 81
    },
    {
      "epoch": 0.22312925170068026,
      "grad_norm": 0.16720904409885406,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.7049,
      "step": 82
    },
    {
      "epoch": 0.22585034013605443,
      "grad_norm": 0.16498345136642456,
      "learning_rate": 8.548121372247918e-06,
      "loss": 0.6583,
      "step": 83
    },
    {
      "epoch": 0.22857142857142856,
      "grad_norm": 0.17059318721294403,
      "learning_rate": 7.597595192178702e-06,
      "loss": 0.812,
      "step": 84
    },
    {
      "epoch": 0.23129251700680273,
      "grad_norm": 0.14581593871116638,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.7116,
      "step": 85
    },
    {
      "epoch": 0.23401360544217686,
      "grad_norm": 0.18653877079486847,
      "learning_rate": 5.852620357053651e-06,
      "loss": 0.9057,
      "step": 86
    },
    {
      "epoch": 0.23673469387755103,
      "grad_norm": 0.17196914553642273,
      "learning_rate": 5.060297685041659e-06,
      "loss": 0.7439,
      "step": 87
    },
    {
      "epoch": 0.23945578231292516,
      "grad_norm": 0.17426681518554688,
      "learning_rate": 4.322727117869951e-06,
      "loss": 0.8396,
      "step": 88
    },
    {
      "epoch": 0.24217687074829933,
      "grad_norm": 0.18171295523643494,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 0.7002,
      "step": 89
    },
    {
      "epoch": 0.24489795918367346,
      "grad_norm": 0.17335541546344757,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 0.7719,
      "step": 90
    },
    {
      "epoch": 0.24489795918367346,
      "eval_loss": 0.7605471014976501,
      "eval_runtime": 32.1868,
      "eval_samples_per_second": 38.432,
      "eval_steps_per_second": 1.212,
      "step": 90
    },
    {
      "epoch": 0.24761904761904763,
      "grad_norm": 0.1640811711549759,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.7349,
      "step": 91
    },
    {
      "epoch": 0.2503401360544218,
      "grad_norm": 0.20482207834720612,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 0.7466,
      "step": 92
    },
    {
      "epoch": 0.2530612244897959,
      "grad_norm": 0.16231241822242737,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 0.5886,
      "step": 93
    },
    {
      "epoch": 0.25578231292517006,
      "grad_norm": 0.16183051466941833,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 0.7642,
      "step": 94
    },
    {
      "epoch": 0.2585034013605442,
      "grad_norm": 0.1630152016878128,
      "learning_rate": 7.596123493895991e-07,
      "loss": 0.6387,
      "step": 95
    },
    {
      "epoch": 0.2612244897959184,
      "grad_norm": 0.1637643575668335,
      "learning_rate": 4.865965629214819e-07,
      "loss": 0.6792,
      "step": 96
    },
    {
      "epoch": 0.2639455782312925,
      "grad_norm": 0.1643003672361374,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 0.7333,
      "step": 97
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.1853807270526886,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 0.7241,
      "step": 98
    },
    {
      "epoch": 0.2693877551020408,
      "grad_norm": 0.16440825164318085,
      "learning_rate": 3.04586490452119e-08,
      "loss": 0.6817,
      "step": 99
    },
    {
      "epoch": 0.2693877551020408,
      "eval_loss": 0.7603068947792053,
      "eval_runtime": 32.195,
      "eval_samples_per_second": 38.422,
      "eval_steps_per_second": 1.211,
      "step": 99
    },
    {
      "epoch": 0.272108843537415,
      "grad_norm": 0.19654084742069244,
      "learning_rate": 0.0,
      "loss": 0.8268,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.4409949730072166e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}