{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.3979822456254807,
  "global_step": 60000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "learning_rate": 5.999999999999999e-06,
      "loss": 0.9072,
      "step": 500
    },
    {
      "epoch": 0.02,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 0.6779,
      "step": 1000
    },
    {
      "epoch": 0.02,
      "eval_loss": 0.6512336730957031,
      "eval_runtime": 1.3899,
      "eval_samples_per_second": 1581.436,
      "eval_steps_per_second": 25.182,
      "step": 1000
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 0.6516,
      "step": 1500
    },
    {
      "epoch": 0.05,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 0.6505,
      "step": 2000
    },
    {
      "epoch": 0.05,
      "eval_loss": 0.6479398608207703,
      "eval_runtime": 1.2819,
      "eval_samples_per_second": 1714.632,
      "eval_steps_per_second": 27.303,
      "step": 2000
    },
    {
      "epoch": 0.06,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 0.6487,
      "step": 2500
    },
    {
      "epoch": 0.07,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 0.6475,
      "step": 3000
    },
    {
      "epoch": 0.07,
      "eval_loss": 0.6461147665977478,
      "eval_runtime": 1.2932,
      "eval_samples_per_second": 1699.633,
      "eval_steps_per_second": 27.064,
      "step": 3000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.2e-05,
      "loss": 0.6469,
      "step": 3500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 0.6464,
      "step": 4000
    },
    {
      "epoch": 0.09,
      "eval_loss": 0.6451290249824524,
      "eval_runtime": 1.2355,
      "eval_samples_per_second": 1779.085,
      "eval_steps_per_second": 28.329,
      "step": 4000
    },
    {
      "epoch": 0.1,
      "learning_rate": 5.399999999999999e-05,
      "loss": 0.6459,
      "step": 4500
    },
    {
      "epoch": 0.12,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 0.6455,
      "step": 5000
    },
    {
      "epoch": 0.12,
      "eval_loss": 0.6444417238235474,
      "eval_runtime": 1.2972,
      "eval_samples_per_second": 1694.435,
      "eval_steps_per_second": 26.981,
      "step": 5000
    },
    {
      "epoch": 0.13,
      "learning_rate": 6.599999999999999e-05,
      "loss": 0.6452,
      "step": 5500
    },
    {
      "epoch": 0.14,
      "learning_rate": 7.199999999999999e-05,
      "loss": 0.6448,
      "step": 6000
    },
    {
      "epoch": 0.14,
      "eval_loss": 0.6438854336738586,
      "eval_runtime": 1.2871,
      "eval_samples_per_second": 1707.767,
      "eval_steps_per_second": 27.194,
      "step": 6000
    },
    {
      "epoch": 0.15,
      "learning_rate": 7.8e-05,
      "loss": 0.64,
      "step": 6500
    },
    {
      "epoch": 0.16,
      "learning_rate": 8.4e-05,
      "loss": 0.6222,
      "step": 7000
    },
    {
      "epoch": 0.16,
      "eval_loss": 0.6123253703117371,
      "eval_runtime": 1.2501,
      "eval_samples_per_second": 1758.21,
      "eval_steps_per_second": 27.997,
      "step": 7000
    },
    {
      "epoch": 0.17,
      "learning_rate": 8.999999999999999e-05,
      "loss": 0.6115,
      "step": 7500
    },
    {
      "epoch": 0.19,
      "learning_rate": 9.599999999999999e-05,
      "loss": 0.6019,
      "step": 8000
    },
    {
      "epoch": 0.19,
      "eval_loss": 0.5872684717178345,
      "eval_runtime": 1.2778,
      "eval_samples_per_second": 1720.181,
      "eval_steps_per_second": 27.391,
      "step": 8000
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.000102,
      "loss": 0.5924,
      "step": 8500
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00010799999999999998,
      "loss": 0.5838,
      "step": 9000
    },
    {
      "epoch": 0.21,
      "eval_loss": 0.5689075589179993,
      "eval_runtime": 1.2743,
      "eval_samples_per_second": 1724.838,
      "eval_steps_per_second": 27.466,
      "step": 9000
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00011399999999999999,
      "loss": 0.5737,
      "step": 9500
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00011999999999999999,
      "loss": 0.5612,
      "step": 10000
    },
    {
      "epoch": 0.23,
      "eval_loss": 0.5473007559776306,
      "eval_runtime": 1.2648,
      "eval_samples_per_second": 1737.882,
      "eval_steps_per_second": 27.673,
      "step": 10000
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00012599999999999997,
      "loss": 0.5516,
      "step": 10500
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00013199999999999998,
      "loss": 0.5428,
      "step": 11000
    },
    {
      "epoch": 0.26,
      "eval_loss": 0.5300613045692444,
      "eval_runtime": 1.2658,
      "eval_samples_per_second": 1736.485,
      "eval_steps_per_second": 27.651,
      "step": 11000
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.000138,
      "loss": 0.5346,
      "step": 11500
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00014399999999999998,
      "loss": 0.527,
      "step": 12000
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.5140743255615234,
      "eval_runtime": 1.2609,
      "eval_samples_per_second": 1743.192,
      "eval_steps_per_second": 27.758,
      "step": 12000
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00015,
      "loss": 0.5203,
      "step": 12500
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.000156,
      "loss": 0.5142,
      "step": 13000
    },
    {
      "epoch": 0.3,
      "eval_loss": 0.5022566318511963,
      "eval_runtime": 1.2481,
      "eval_samples_per_second": 1761.066,
      "eval_steps_per_second": 28.042,
      "step": 13000
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.000162,
      "loss": 0.5079,
      "step": 13500
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.000168,
      "loss": 0.5002,
      "step": 14000
    },
    {
      "epoch": 0.33,
      "eval_loss": 0.4841987192630768,
      "eval_runtime": 1.3176,
      "eval_samples_per_second": 1668.178,
      "eval_steps_per_second": 26.563,
      "step": 14000
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00017399999999999997,
      "loss": 0.4916,
      "step": 14500
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00017999999999999998,
      "loss": 0.4852,
      "step": 15000
    },
    {
      "epoch": 0.35,
      "eval_loss": 0.47066375613212585,
      "eval_runtime": 1.3026,
      "eval_samples_per_second": 1687.422,
      "eval_steps_per_second": 26.87,
      "step": 15000
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.000186,
      "loss": 0.4778,
      "step": 15500
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00019199999999999998,
      "loss": 0.4697,
      "step": 16000
    },
    {
      "epoch": 0.37,
      "eval_loss": 0.4562186300754547,
      "eval_runtime": 1.2895,
      "eval_samples_per_second": 1704.503,
      "eval_steps_per_second": 27.142,
      "step": 16000
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.000198,
      "loss": 0.4636,
      "step": 16500
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.000204,
      "loss": 0.459,
      "step": 17000
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.44295796751976013,
      "eval_runtime": 1.2516,
      "eval_samples_per_second": 1756.093,
      "eval_steps_per_second": 27.963,
      "step": 17000
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020999999999999998,
      "loss": 0.4544,
      "step": 17500
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00021599999999999996,
      "loss": 0.45,
      "step": 18000
    },
    {
      "epoch": 0.42,
      "eval_loss": 0.4343169629573822,
      "eval_runtime": 1.327,
      "eval_samples_per_second": 1656.351,
      "eval_steps_per_second": 26.375,
      "step": 18000
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00022199999999999998,
      "loss": 0.4458,
      "step": 18500
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00022799999999999999,
      "loss": 0.4411,
      "step": 19000
    },
    {
      "epoch": 0.44,
      "eval_loss": 0.42496559023857117,
      "eval_runtime": 1.3285,
      "eval_samples_per_second": 1654.492,
      "eval_steps_per_second": 26.345,
      "step": 19000
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.000234,
      "loss": 0.4368,
      "step": 19500
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00023999999999999998,
      "loss": 0.4322,
      "step": 20000
    },
    {
      "epoch": 0.47,
      "eval_loss": 0.4132905900478363,
      "eval_runtime": 1.3158,
      "eval_samples_per_second": 1670.425,
      "eval_steps_per_second": 26.599,
      "step": 20000
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00024599999999999996,
      "loss": 0.4278,
      "step": 20500
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00025199999999999995,
      "loss": 0.4233,
      "step": 21000
    },
    {
      "epoch": 0.49,
      "eval_loss": 0.4032529294490814,
      "eval_runtime": 1.2842,
      "eval_samples_per_second": 1711.577,
      "eval_steps_per_second": 27.254,
      "step": 21000
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.000258,
      "loss": 0.4189,
      "step": 21500
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00026399999999999997,
      "loss": 0.4146,
      "step": 22000
    },
    {
      "epoch": 0.51,
      "eval_loss": 0.39436739683151245,
      "eval_runtime": 1.2633,
      "eval_samples_per_second": 1739.901,
      "eval_steps_per_second": 27.705,
      "step": 22000
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00027,
      "loss": 0.4109,
      "step": 22500
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.000276,
      "loss": 0.4077,
      "step": 23000
    },
    {
      "epoch": 0.54,
      "eval_loss": 0.38647642731666565,
      "eval_runtime": 1.2503,
      "eval_samples_per_second": 1758.021,
      "eval_steps_per_second": 27.994,
      "step": 23000
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00028199999999999997,
      "loss": 0.4047,
      "step": 23500
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00028799999999999995,
      "loss": 0.4019,
      "step": 24000
    },
    {
      "epoch": 0.56,
      "eval_loss": 0.381785124540329,
      "eval_runtime": 1.2485,
      "eval_samples_per_second": 1760.518,
      "eval_steps_per_second": 28.034,
      "step": 24000
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.000294,
      "loss": 0.3994,
      "step": 24500
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0003,
      "loss": 0.3968,
      "step": 25000
    },
    {
      "epoch": 0.58,
      "eval_loss": 0.3785216510295868,
      "eval_runtime": 1.2913,
      "eval_samples_per_second": 1702.153,
      "eval_steps_per_second": 27.104,
      "step": 25000
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00029999920715161553,
      "loss": 0.3945,
      "step": 25500
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0002999968286151326,
      "loss": 0.392,
      "step": 26000
    },
    {
      "epoch": 0.61,
      "eval_loss": 0.37318962812423706,
      "eval_runtime": 1.2758,
      "eval_samples_per_second": 1722.782,
      "eval_steps_per_second": 27.433,
      "step": 26000
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0002999928644165624,
      "loss": 0.3897,
      "step": 26500
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0002999873145992569,
      "loss": 0.3869,
      "step": 27000
    },
    {
      "epoch": 0.63,
      "eval_loss": 0.3669659197330475,
      "eval_runtime": 1.2869,
      "eval_samples_per_second": 1707.967,
      "eval_steps_per_second": 27.197,
      "step": 27000
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.000299980179223908,
      "loss": 0.385,
      "step": 27500
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0002999714583685469,
      "loss": 0.3828,
      "step": 28000
    },
    {
      "epoch": 0.65,
      "eval_loss": 0.3615981340408325,
      "eval_runtime": 1.2961,
      "eval_samples_per_second": 1695.914,
      "eval_steps_per_second": 27.005,
      "step": 28000
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.00029996115212854366,
      "loss": 0.3808,
      "step": 28500
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00029994926061660554,
      "loss": 0.3786,
      "step": 29000
    },
    {
      "epoch": 0.68,
      "eval_loss": 0.3613170087337494,
      "eval_runtime": 1.3013,
      "eval_samples_per_second": 1689.114,
      "eval_steps_per_second": 26.897,
      "step": 29000
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0002999357839627762,
      "loss": 0.377,
      "step": 29500
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00029992072231443425,
      "loss": 0.3751,
      "step": 30000
    },
    {
      "epoch": 0.7,
      "eval_loss": 0.35551005601882935,
      "eval_runtime": 1.2661,
      "eval_samples_per_second": 1736.053,
      "eval_steps_per_second": 27.644,
      "step": 30000
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0002999040758362914,
      "loss": 0.3731,
      "step": 30500
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00029988584471039094,
      "loss": 0.3713,
      "step": 31000
    },
    {
      "epoch": 0.72,
      "eval_loss": 0.35287660360336304,
      "eval_runtime": 1.3423,
      "eval_samples_per_second": 1637.545,
      "eval_steps_per_second": 26.076,
      "step": 31000
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0002998660291361054,
      "loss": 0.3699,
      "step": 31500
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0002998446293301349,
      "loss": 0.3681,
      "step": 32000
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.35174888372421265,
      "eval_runtime": 1.3006,
      "eval_samples_per_second": 1690.029,
      "eval_steps_per_second": 26.911,
      "step": 32000
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0002998216455265042,
      "loss": 0.3667,
      "step": 32500
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00029979707797656046,
      "loss": 0.3656,
      "step": 33000
    },
    {
      "epoch": 0.77,
      "eval_loss": 0.34766125679016113,
      "eval_runtime": 1.3363,
      "eval_samples_per_second": 1644.872,
      "eval_steps_per_second": 26.192,
      "step": 33000
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00029977092694897053,
      "loss": 0.3641,
      "step": 33500
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0002997431927297178,
      "loss": 0.3626,
      "step": 34000
    },
    {
      "epoch": 0.79,
      "eval_loss": 0.3423311412334442,
      "eval_runtime": 1.3208,
      "eval_samples_per_second": 1664.116,
      "eval_steps_per_second": 26.499,
      "step": 34000
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00029971387562209936,
      "loss": 0.3616,
      "step": 34500
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00029968297594672226,
      "loss": 0.3601,
      "step": 35000
    },
    {
      "epoch": 0.82,
      "eval_loss": 0.34427037835121155,
      "eval_runtime": 1.2929,
      "eval_samples_per_second": 1700.099,
      "eval_steps_per_second": 27.072,
      "step": 35000
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0002996504940415005,
      "loss": 0.3589,
      "step": 35500
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.00029961643026165096,
      "loss": 0.3577,
      "step": 36000
    },
    {
      "epoch": 0.84,
      "eval_loss": 0.34002143144607544,
      "eval_runtime": 1.2974,
      "eval_samples_per_second": 1694.186,
      "eval_steps_per_second": 26.977,
      "step": 36000
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00029958078497968973,
      "loss": 0.3568,
      "step": 36500
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0002995435585854278,
      "loss": 0.3555,
      "step": 37000
    },
    {
      "epoch": 0.86,
      "eval_loss": 0.3368704915046692,
      "eval_runtime": 1.3166,
      "eval_samples_per_second": 1669.417,
      "eval_steps_per_second": 26.583,
      "step": 37000
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0002995047514859671,
      "loss": 0.3542,
      "step": 37500
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0002994643641056959,
      "loss": 0.3532,
      "step": 38000
    },
    {
      "epoch": 0.89,
      "eval_loss": 0.3357352018356323,
      "eval_runtime": 1.2847,
      "eval_samples_per_second": 1710.953,
      "eval_steps_per_second": 27.244,
      "step": 38000
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.000299422396886284,
      "loss": 0.3523,
      "step": 38500
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0002993788502866783,
      "loss": 0.3514,
      "step": 39000
    },
    {
      "epoch": 0.91,
      "eval_loss": 0.33294928073883057,
      "eval_runtime": 1.272,
      "eval_samples_per_second": 1728.032,
      "eval_steps_per_second": 27.516,
      "step": 39000
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.00029933372478309746,
      "loss": 0.3503,
      "step": 39500
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.00029928702086902664,
      "loss": 0.3493,
      "step": 40000
    },
    {
      "epoch": 0.93,
      "eval_loss": 0.332314670085907,
      "eval_runtime": 1.318,
      "eval_samples_per_second": 1667.699,
      "eval_steps_per_second": 26.556,
      "step": 40000
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.00029923873905521244,
      "loss": 0.3483,
      "step": 40500
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.000299188879869657,
      "loss": 0.3477,
      "step": 41000
    },
    {
      "epoch": 0.96,
      "eval_loss": 0.33138296008110046,
      "eval_runtime": 1.2875,
      "eval_samples_per_second": 1707.216,
      "eval_steps_per_second": 27.185,
      "step": 41000
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.00029913744385761244,
      "loss": 0.3466,
      "step": 41500
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.00029908443158157465,
      "loss": 0.3459,
      "step": 42000
    },
    {
      "epoch": 0.98,
      "eval_loss": 0.32563212513923645,
      "eval_runtime": 1.2983,
      "eval_samples_per_second": 1692.964,
      "eval_steps_per_second": 26.958,
      "step": 42000
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0002990298436212775,
      "loss": 0.3448,
      "step": 42500
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0002989736805736861,
      "loss": 0.3441,
      "step": 43000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.32700827717781067,
      "eval_runtime": 1.3967,
      "eval_samples_per_second": 1573.716,
      "eval_steps_per_second": 25.059,
      "step": 43000
    },
    {
      "epoch": 1.01,
      "learning_rate": 0.00029891594305299065,
      "loss": 0.3432,
      "step": 43500
    },
    {
      "epoch": 1.03,
      "learning_rate": 0.00029885663169059926,
      "loss": 0.3424,
      "step": 44000
    },
    {
      "epoch": 1.03,
      "eval_loss": 0.3216361701488495,
      "eval_runtime": 1.4298,
      "eval_samples_per_second": 1537.25,
      "eval_steps_per_second": 24.479,
      "step": 44000
    },
    {
      "epoch": 1.04,
      "learning_rate": 0.0002987957471351316,
      "loss": 0.3415,
      "step": 44500
    },
    {
      "epoch": 1.05,
      "learning_rate": 0.00029873329005241137,
      "loss": 0.3408,
      "step": 45000
    },
    {
      "epoch": 1.05,
      "eval_loss": 0.324531614780426,
      "eval_runtime": 1.3974,
      "eval_samples_per_second": 1572.95,
      "eval_steps_per_second": 25.047,
      "step": 45000
    },
    {
      "epoch": 1.06,
      "learning_rate": 0.00029866926112545925,
      "loss": 0.3399,
      "step": 45500
    },
    {
      "epoch": 1.07,
      "learning_rate": 0.00029860366105448534,
      "loss": 0.3394,
      "step": 46000
    },
    {
      "epoch": 1.07,
      "eval_loss": 0.3231622278690338,
      "eval_runtime": 1.3921,
      "eval_samples_per_second": 1578.889,
      "eval_steps_per_second": 25.142,
      "step": 46000
    },
    {
      "epoch": 1.08,
      "learning_rate": 0.00029853649055688143,
      "loss": 0.3387,
      "step": 46500
    },
    {
      "epoch": 1.1,
      "learning_rate": 0.00029846775036721337,
      "loss": 0.338,
      "step": 47000
    },
    {
      "epoch": 1.1,
      "eval_loss": 0.32254886627197266,
      "eval_runtime": 1.4182,
      "eval_samples_per_second": 1549.86,
      "eval_steps_per_second": 24.679,
      "step": 47000
    },
    {
      "epoch": 1.11,
      "learning_rate": 0.0002983974412372129,
      "loss": 0.337,
      "step": 47500
    },
    {
      "epoch": 1.12,
      "learning_rate": 0.00029832556393576934,
      "loss": 0.3363,
      "step": 48000
    },
    {
      "epoch": 1.12,
      "eval_loss": 0.3195147216320038,
      "eval_runtime": 1.408,
      "eval_samples_per_second": 1561.07,
      "eval_steps_per_second": 24.858,
      "step": 48000
    },
    {
      "epoch": 1.13,
      "learning_rate": 0.0002982521192489214,
      "loss": 0.3357,
      "step": 48500
    },
    {
      "epoch": 1.14,
      "learning_rate": 0.0002981771079798483,
      "loss": 0.3353,
      "step": 49000
    },
    {
      "epoch": 1.14,
      "eval_loss": 0.3167419731616974,
      "eval_runtime": 1.4463,
      "eval_samples_per_second": 1519.733,
      "eval_steps_per_second": 24.2,
      "step": 49000
    },
    {
      "epoch": 1.15,
      "learning_rate": 0.00029810053094886136,
      "loss": 0.3345,
      "step": 49500
    },
    {
      "epoch": 1.16,
      "learning_rate": 0.00029802238899339473,
      "loss": 0.3338,
      "step": 50000
    },
    {
      "epoch": 1.16,
      "eval_loss": 0.3171909749507904,
      "eval_runtime": 1.4105,
      "eval_samples_per_second": 1558.283,
      "eval_steps_per_second": 24.813,
      "step": 50000
    },
    {
      "epoch": 1.18,
      "learning_rate": 0.0002979426829679962,
      "loss": 0.3334,
      "step": 50500
    },
    {
      "epoch": 1.19,
      "learning_rate": 0.0002978614137443183,
      "loss": 0.3325,
      "step": 51000
    },
    {
      "epoch": 1.19,
      "eval_loss": 0.31682637333869934,
      "eval_runtime": 1.4213,
      "eval_samples_per_second": 1546.472,
      "eval_steps_per_second": 24.625,
      "step": 51000
    },
    {
      "epoch": 1.2,
      "learning_rate": 0.000297778582211108,
      "loss": 0.3322,
      "step": 51500
    },
    {
      "epoch": 1.21,
      "learning_rate": 0.00029769418927419786,
      "loss": 0.3316,
      "step": 52000
    },
    {
      "epoch": 1.21,
      "eval_loss": 0.31410133838653564,
      "eval_runtime": 1.4261,
      "eval_samples_per_second": 1541.269,
      "eval_steps_per_second": 24.542,
      "step": 52000
    },
    {
      "epoch": 1.22,
      "learning_rate": 0.0002976082358564954,
      "loss": 0.331,
      "step": 52500
    },
    {
      "epoch": 1.23,
      "learning_rate": 0.00029752072289797353,
      "loss": 0.3305,
      "step": 53000
    },
    {
      "epoch": 1.23,
      "eval_loss": 0.3114263713359833,
      "eval_runtime": 1.4182,
      "eval_samples_per_second": 1549.888,
      "eval_steps_per_second": 24.68,
      "step": 53000
    },
    {
      "epoch": 1.25,
      "learning_rate": 0.00029743165135565986,
      "loss": 0.3301,
      "step": 53500
    },
    {
      "epoch": 1.26,
      "learning_rate": 0.00029734102220362654,
      "loss": 0.3303,
      "step": 54000
    },
    {
      "epoch": 1.26,
      "eval_loss": 0.3110273778438568,
      "eval_runtime": 1.3899,
      "eval_samples_per_second": 1581.462,
      "eval_steps_per_second": 25.183,
      "step": 54000
    },
    {
      "epoch": 1.27,
      "learning_rate": 0.00029724883643297937,
      "loss": 0.3289,
      "step": 54500
    },
    {
      "epoch": 1.28,
      "learning_rate": 0.0002971550950518473,
      "loss": 0.3284,
      "step": 55000
    },
    {
      "epoch": 1.28,
      "eval_loss": 0.3112471401691437,
      "eval_runtime": 1.3713,
      "eval_samples_per_second": 1602.906,
      "eval_steps_per_second": 25.524,
      "step": 55000
    },
    {
      "epoch": 1.29,
      "learning_rate": 0.000297059799085371,
      "loss": 0.3284,
      "step": 55500
    },
    {
      "epoch": 1.3,
      "learning_rate": 0.00029696294957569196,
      "loss": 0.3276,
      "step": 56000
    },
    {
      "epoch": 1.3,
      "eval_loss": 0.30989283323287964,
      "eval_runtime": 1.4309,
      "eval_samples_per_second": 1536.096,
      "eval_steps_per_second": 24.46,
      "step": 56000
    },
    {
      "epoch": 1.32,
      "learning_rate": 0.00029686454758194076,
      "loss": 0.3269,
      "step": 56500
    },
    {
      "epoch": 1.33,
      "learning_rate": 0.00029676459418022594,
      "loss": 0.3264,
      "step": 57000
    },
    {
      "epoch": 1.33,
      "eval_loss": 0.3089369833469391,
      "eval_runtime": 1.4226,
      "eval_samples_per_second": 1545.068,
      "eval_steps_per_second": 24.603,
      "step": 57000
    },
    {
      "epoch": 1.34,
      "learning_rate": 0.0002966630904636219,
      "loss": 0.3261,
      "step": 57500
    },
    {
      "epoch": 1.35,
      "learning_rate": 0.0002965600375421569,
      "loss": 0.3256,
      "step": 58000
    },
    {
      "epoch": 1.35,
      "eval_loss": 0.31043851375579834,
      "eval_runtime": 1.4043,
      "eval_samples_per_second": 1565.245,
      "eval_steps_per_second": 24.924,
      "step": 58000
    },
    {
      "epoch": 1.36,
      "learning_rate": 0.0002964554365428013,
      "loss": 0.3251,
      "step": 58500
    },
    {
      "epoch": 1.37,
      "learning_rate": 0.00029634928860945486,
      "loss": 0.3247,
      "step": 59000
    },
    {
      "epoch": 1.37,
      "eval_loss": 0.3088381588459015,
      "eval_runtime": 1.4281,
      "eval_samples_per_second": 1539.081,
      "eval_steps_per_second": 24.508,
      "step": 59000
    },
    {
      "epoch": 1.39,
      "learning_rate": 0.0002962415949029343,
      "loss": 0.3243,
      "step": 59500
    },
    {
      "epoch": 1.4,
      "learning_rate": 0.00029613235660096084,
      "loss": 0.3241,
      "step": 60000
    },
    {
      "epoch": 1.4,
      "eval_loss": 0.3055568337440491,
      "eval_runtime": 1.4302,
      "eval_samples_per_second": 1536.88,
      "eval_steps_per_second": 24.473,
      "step": 60000
    }
  ],
  "max_steps": 500000,
  "num_train_epochs": 12,
  "total_flos": 1.9169203356560932e+21,
  "trial_name": null,
  "trial_params": null
}