{
  "best_metric": 0.6895740032196045,
  "best_model_checkpoint": "./checkpoints/llava-v1.5-13b/checkpoint-224",
  "epoch": 7.0,
  "eval_steps": 1.0,
  "global_step": 224,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03125,
      "grad_norm": 0.2380081706918525,
      "learning_rate": 0.0,
      "loss": 1.2458,
      "step": 1
    },
    {
      "epoch": 0.03125,
      "eval_loss": 1.3161638975143433,
      "eval_runtime": 50.8995,
      "eval_samples_per_second": 3.929,
      "eval_steps_per_second": 0.255,
      "step": 1
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.20429495268987705,
      "learning_rate": 8.613531161467863e-06,
      "loss": 1.2003,
      "step": 2
    },
    {
      "epoch": 0.0625,
      "eval_loss": 1.3161638975143433,
      "eval_runtime": 47.4818,
      "eval_samples_per_second": 4.212,
      "eval_steps_per_second": 0.274,
      "step": 2
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.20616215800420787,
      "learning_rate": 1.3652123889719709e-05,
      "loss": 1.2622,
      "step": 3
    },
    {
      "epoch": 0.09375,
      "eval_loss": 1.309991478919983,
      "eval_runtime": 47.4152,
      "eval_samples_per_second": 4.218,
      "eval_steps_per_second": 0.274,
      "step": 3
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.20155595022101944,
      "learning_rate": 1.7227062322935725e-05,
      "loss": 1.2845,
      "step": 4
    },
    {
      "epoch": 0.125,
      "eval_loss": 1.3013781309127808,
      "eval_runtime": 47.4814,
      "eval_samples_per_second": 4.212,
      "eval_steps_per_second": 0.274,
      "step": 4
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.21113117474989132,
      "learning_rate": 2e-05,
      "loss": 1.246,
      "step": 5
    },
    {
      "epoch": 0.15625,
      "eval_loss": 1.2892160415649414,
      "eval_runtime": 47.7209,
      "eval_samples_per_second": 4.191,
      "eval_steps_per_second": 0.272,
      "step": 5
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.21377946631015488,
      "learning_rate": 2e-05,
      "loss": 1.2684,
      "step": 6
    },
    {
      "epoch": 0.1875,
      "eval_loss": 1.2754532098770142,
      "eval_runtime": 47.5781,
      "eval_samples_per_second": 4.204,
      "eval_steps_per_second": 0.273,
      "step": 6
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.2284268997618767,
      "learning_rate": 2e-05,
      "loss": 1.2681,
      "step": 7
    },
    {
      "epoch": 0.21875,
      "eval_loss": 1.2605774402618408,
      "eval_runtime": 47.5326,
      "eval_samples_per_second": 4.208,
      "eval_steps_per_second": 0.273,
      "step": 7
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.23585343568544442,
      "learning_rate": 2e-05,
      "loss": 1.2407,
      "step": 8
    },
    {
      "epoch": 0.25,
      "eval_loss": 1.244718313217163,
      "eval_runtime": 47.5001,
      "eval_samples_per_second": 4.211,
      "eval_steps_per_second": 0.274,
      "step": 8
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.23051191992462533,
      "learning_rate": 2e-05,
      "loss": 1.2766,
      "step": 9
    },
    {
      "epoch": 0.28125,
      "eval_loss": 1.2285138368606567,
      "eval_runtime": 47.4631,
      "eval_samples_per_second": 4.214,
      "eval_steps_per_second": 0.274,
      "step": 9
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.22726394327484983,
      "learning_rate": 2e-05,
      "loss": 1.2024,
      "step": 10
    },
    {
      "epoch": 0.3125,
      "eval_loss": 1.2118008136749268,
      "eval_runtime": 47.4991,
      "eval_samples_per_second": 4.211,
      "eval_steps_per_second": 0.274,
      "step": 10
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.25404890894461285,
      "learning_rate": 2e-05,
      "loss": 1.2742,
      "step": 11
    },
    {
      "epoch": 0.34375,
      "eval_loss": 1.1942989826202393,
      "eval_runtime": 49.2609,
      "eval_samples_per_second": 4.06,
      "eval_steps_per_second": 0.264,
      "step": 11
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.26336210916526287,
      "learning_rate": 2e-05,
      "loss": 1.2258,
      "step": 12
    },
    {
      "epoch": 0.375,
      "eval_loss": 1.176426649093628,
      "eval_runtime": 49.0639,
      "eval_samples_per_second": 4.076,
      "eval_steps_per_second": 0.265,
      "step": 12
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.29637148470746666,
      "learning_rate": 2e-05,
      "loss": 1.2345,
      "step": 13
    },
    {
      "epoch": 0.40625,
      "eval_loss": 1.1577811241149902,
      "eval_runtime": 49.1352,
      "eval_samples_per_second": 4.07,
      "eval_steps_per_second": 0.265,
      "step": 13
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.2841880377627424,
      "learning_rate": 2e-05,
      "loss": 1.0765,
      "step": 14
    },
    {
      "epoch": 0.4375,
      "eval_loss": 1.1381279230117798,
      "eval_runtime": 49.25,
      "eval_samples_per_second": 4.061,
      "eval_steps_per_second": 0.264,
      "step": 14
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.2773140636191091,
      "learning_rate": 2e-05,
      "loss": 1.1812,
      "step": 15
    },
    {
      "epoch": 0.46875,
      "eval_loss": 1.1178216934204102,
      "eval_runtime": 49.0879,
      "eval_samples_per_second": 4.074,
      "eval_steps_per_second": 0.265,
      "step": 15
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3568607365552051,
      "learning_rate": 2e-05,
      "loss": 1.1327,
      "step": 16
    },
    {
      "epoch": 0.5,
      "eval_loss": 1.0954149961471558,
      "eval_runtime": 48.6546,
      "eval_samples_per_second": 4.111,
      "eval_steps_per_second": 0.267,
      "step": 16
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.32574391414112897,
      "learning_rate": 2e-05,
      "loss": 1.1162,
      "step": 17
    },
    {
      "epoch": 0.53125,
      "eval_loss": 1.071275234222412,
      "eval_runtime": 48.5618,
      "eval_samples_per_second": 4.118,
      "eval_steps_per_second": 0.268,
      "step": 17
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.4256864144638081,
      "learning_rate": 2e-05,
      "loss": 1.1138,
      "step": 18
    },
    {
      "epoch": 0.5625,
      "eval_loss": 1.0455905199050903,
      "eval_runtime": 48.4981,
      "eval_samples_per_second": 4.124,
      "eval_steps_per_second": 0.268,
      "step": 18
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.31230014132112643,
      "learning_rate": 2e-05,
      "loss": 1.0011,
      "step": 19
    },
    {
      "epoch": 0.59375,
      "eval_loss": 1.0208789110183716,
      "eval_runtime": 48.4675,
      "eval_samples_per_second": 4.126,
      "eval_steps_per_second": 0.268,
      "step": 19
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.3025724039243594,
      "learning_rate": 2e-05,
      "loss": 1.109,
      "step": 20
    },
    {
      "epoch": 0.625,
      "eval_loss": 1.002480149269104,
      "eval_runtime": 48.5265,
      "eval_samples_per_second": 4.121,
      "eval_steps_per_second": 0.268,
      "step": 20
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.27787879590501874,
      "learning_rate": 2e-05,
      "loss": 1.0291,
      "step": 21
    },
    {
      "epoch": 0.65625,
      "eval_loss": 0.9933492541313171,
      "eval_runtime": 50.0369,
      "eval_samples_per_second": 3.997,
      "eval_steps_per_second": 0.26,
      "step": 21
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.4231294067130801,
      "learning_rate": 2e-05,
      "loss": 1.0779,
      "step": 22
    },
    {
      "epoch": 0.6875,
      "eval_loss": 0.9850385785102844,
      "eval_runtime": 50.0062,
      "eval_samples_per_second": 4.0,
      "eval_steps_per_second": 0.26,
      "step": 22
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.42130097437373987,
      "learning_rate": 2e-05,
      "loss": 1.0897,
      "step": 23
    },
    {
      "epoch": 0.71875,
      "eval_loss": 0.9758670330047607,
      "eval_runtime": 50.1031,
      "eval_samples_per_second": 3.992,
      "eval_steps_per_second": 0.259,
      "step": 23
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.27711808063263893,
      "learning_rate": 2e-05,
      "loss": 1.0739,
      "step": 24
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.9674506187438965,
      "eval_runtime": 50.0337,
      "eval_samples_per_second": 3.997,
      "eval_steps_per_second": 0.26,
      "step": 24
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.2879649409281791,
      "learning_rate": 2e-05,
      "loss": 1.0182,
      "step": 25
    },
    {
      "epoch": 0.78125,
      "eval_loss": 0.9592065215110779,
      "eval_runtime": 50.0709,
      "eval_samples_per_second": 3.994,
      "eval_steps_per_second": 0.26,
      "step": 25
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.19327450826076825,
      "learning_rate": 2e-05,
      "loss": 1.0413,
      "step": 26
    },
    {
      "epoch": 0.8125,
      "eval_loss": 0.9518552422523499,
      "eval_runtime": 50.0572,
      "eval_samples_per_second": 3.995,
      "eval_steps_per_second": 0.26,
      "step": 26
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.19707021382445633,
      "learning_rate": 2e-05,
      "loss": 0.9525,
      "step": 27
    },
    {
      "epoch": 0.84375,
      "eval_loss": 0.9449941515922546,
      "eval_runtime": 50.0515,
      "eval_samples_per_second": 3.996,
      "eval_steps_per_second": 0.26,
      "step": 27
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.2420270757641518,
      "learning_rate": 2e-05,
      "loss": 0.9658,
      "step": 28
    },
    {
      "epoch": 0.875,
      "eval_loss": 0.9378474354743958,
      "eval_runtime": 49.9299,
      "eval_samples_per_second": 4.006,
      "eval_steps_per_second": 0.26,
      "step": 28
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.18074632782127534,
      "learning_rate": 2e-05,
      "loss": 0.9866,
      "step": 29
    },
    {
      "epoch": 0.90625,
      "eval_loss": 0.93099045753479,
      "eval_runtime": 50.0096,
      "eval_samples_per_second": 3.999,
      "eval_steps_per_second": 0.26,
      "step": 29
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.1936051126921734,
      "learning_rate": 2e-05,
      "loss": 1.0128,
      "step": 30
    },
    {
      "epoch": 0.9375,
      "eval_loss": 0.9244199991226196,
      "eval_runtime": 50.2469,
      "eval_samples_per_second": 3.98,
      "eval_steps_per_second": 0.259,
      "step": 30
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.26164254459782943,
      "learning_rate": 2e-05,
      "loss": 0.88,
      "step": 31
    },
    {
      "epoch": 0.96875,
      "eval_loss": 0.9175177216529846,
      "eval_runtime": 50.1695,
      "eval_samples_per_second": 3.986,
      "eval_steps_per_second": 0.259,
      "step": 31
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.18677152741688485,
      "learning_rate": 2e-05,
      "loss": 0.9569,
      "step": 32
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.9108598828315735,
      "eval_runtime": 50.0387,
      "eval_samples_per_second": 3.997,
      "eval_steps_per_second": 0.26,
      "step": 32
    },
    {
      "epoch": 1.03125,
      "grad_norm": 0.20486279036126417,
      "learning_rate": 2e-05,
      "loss": 1.0208,
      "step": 33
    },
    {
      "epoch": 1.03125,
      "eval_loss": 0.9042049646377563,
      "eval_runtime": 50.1472,
      "eval_samples_per_second": 3.988,
      "eval_steps_per_second": 0.259,
      "step": 33
    },
    {
      "epoch": 1.0625,
      "grad_norm": 0.2004946169291112,
      "learning_rate": 2e-05,
      "loss": 0.9931,
      "step": 34
    },
    {
      "epoch": 1.0625,
      "eval_loss": 0.8980298042297363,
      "eval_runtime": 50.245,
      "eval_samples_per_second": 3.98,
      "eval_steps_per_second": 0.259,
      "step": 34
    },
    {
      "epoch": 1.09375,
      "grad_norm": 0.1645872432258401,
      "learning_rate": 2e-05,
      "loss": 1.0184,
      "step": 35
    },
    {
      "epoch": 1.09375,
      "eval_loss": 0.8924428820610046,
      "eval_runtime": 50.3703,
      "eval_samples_per_second": 3.971,
      "eval_steps_per_second": 0.258,
      "step": 35
    },
    {
      "epoch": 1.125,
      "grad_norm": 0.18293519304435016,
      "learning_rate": 2e-05,
      "loss": 1.0026,
      "step": 36
    },
    {
      "epoch": 1.125,
      "eval_loss": 0.8870412707328796,
      "eval_runtime": 50.0483,
      "eval_samples_per_second": 3.996,
      "eval_steps_per_second": 0.26,
      "step": 36
    },
    {
      "epoch": 1.15625,
      "grad_norm": 0.17712548516246762,
      "learning_rate": 2e-05,
      "loss": 0.9387,
      "step": 37
    },
    {
      "epoch": 1.15625,
      "eval_loss": 0.881915271282196,
      "eval_runtime": 49.9751,
      "eval_samples_per_second": 4.002,
      "eval_steps_per_second": 0.26,
      "step": 37
    },
    {
      "epoch": 1.1875,
      "grad_norm": 0.21472689311609464,
      "learning_rate": 2e-05,
      "loss": 0.958,
      "step": 38
    },
    {
      "epoch": 1.1875,
      "eval_loss": 0.8768754601478577,
      "eval_runtime": 50.1204,
      "eval_samples_per_second": 3.99,
      "eval_steps_per_second": 0.259,
      "step": 38
    },
    {
      "epoch": 1.21875,
      "grad_norm": 0.21117297910005806,
      "learning_rate": 2e-05,
      "loss": 0.9922,
      "step": 39
    },
    {
      "epoch": 1.21875,
      "eval_loss": 0.8718628883361816,
      "eval_runtime": 50.1732,
      "eval_samples_per_second": 3.986,
      "eval_steps_per_second": 0.259,
      "step": 39
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.17835587003909165,
      "learning_rate": 2e-05,
      "loss": 0.9776,
      "step": 40
    },
    {
      "epoch": 1.25,
      "eval_loss": 0.8669865131378174,
      "eval_runtime": 50.1148,
      "eval_samples_per_second": 3.991,
      "eval_steps_per_second": 0.259,
      "step": 40
    },
    {
      "epoch": 1.28125,
      "grad_norm": 0.2092736372483734,
      "learning_rate": 2e-05,
      "loss": 0.9731,
      "step": 41
    },
    {
      "epoch": 1.28125,
      "eval_loss": 0.8619834780693054,
      "eval_runtime": 50.052,
      "eval_samples_per_second": 3.996,
      "eval_steps_per_second": 0.26,
      "step": 41
    },
    {
      "epoch": 1.3125,
      "grad_norm": 0.2338857391910308,
      "learning_rate": 2e-05,
      "loss": 0.9319,
      "step": 42
    },
    {
      "epoch": 1.3125,
      "eval_loss": 0.8572126030921936,
      "eval_runtime": 50.1212,
      "eval_samples_per_second": 3.99,
      "eval_steps_per_second": 0.259,
      "step": 42
    },
    {
      "epoch": 1.34375,
      "grad_norm": 0.19168719284572813,
      "learning_rate": 2e-05,
      "loss": 0.9083,
      "step": 43
    },
    {
      "epoch": 1.34375,
      "eval_loss": 0.8525611758232117,
      "eval_runtime": 50.1733,
      "eval_samples_per_second": 3.986,
      "eval_steps_per_second": 0.259,
      "step": 43
    },
    {
      "epoch": 1.375,
      "grad_norm": 0.20004868138433377,
      "learning_rate": 2e-05,
      "loss": 0.9118,
      "step": 44
    },
    {
      "epoch": 1.375,
      "eval_loss": 0.8483461141586304,
      "eval_runtime": 50.1083,
      "eval_samples_per_second": 3.991,
      "eval_steps_per_second": 0.259,
      "step": 44
    },
    {
      "epoch": 1.40625,
      "grad_norm": 0.19012965506122342,
      "learning_rate": 2e-05,
      "loss": 0.8888,
      "step": 45
    },
    {
      "epoch": 1.40625,
      "eval_loss": 0.8446614742279053,
      "eval_runtime": 50.1171,
      "eval_samples_per_second": 3.991,
      "eval_steps_per_second": 0.259,
      "step": 45
    },
    {
      "epoch": 1.4375,
      "grad_norm": 0.21187005706805245,
      "learning_rate": 2e-05,
      "loss": 0.9319,
      "step": 46
    },
    {
      "epoch": 1.4375,
      "eval_loss": 0.8412036299705505,
      "eval_runtime": 50.0918,
      "eval_samples_per_second": 3.993,
      "eval_steps_per_second": 0.26,
      "step": 46
    },
    {
      "epoch": 1.46875,
      "grad_norm": 0.19673832205926584,
      "learning_rate": 2e-05,
      "loss": 0.9359,
      "step": 47
    },
    {
      "epoch": 1.46875,
      "eval_loss": 0.8380417823791504,
      "eval_runtime": 50.2214,
      "eval_samples_per_second": 3.982,
      "eval_steps_per_second": 0.259,
      "step": 47
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.21712294106174318,
      "learning_rate": 2e-05,
      "loss": 0.8511,
      "step": 48
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.8353021740913391,
      "eval_runtime": 50.1617,
      "eval_samples_per_second": 3.987,
      "eval_steps_per_second": 0.259,
      "step": 48
    },
    {
      "epoch": 1.53125,
      "grad_norm": 0.2138924779700934,
      "learning_rate": 2e-05,
      "loss": 0.8695,
      "step": 49
    },
    {
      "epoch": 1.53125,
      "eval_loss": 0.8327407836914062,
      "eval_runtime": 50.1442,
      "eval_samples_per_second": 3.988,
      "eval_steps_per_second": 0.259,
      "step": 49
    },
    {
      "epoch": 1.5625,
      "grad_norm": 0.22387442384578618,
      "learning_rate": 2e-05,
      "loss": 0.8518,
      "step": 50
    },
    {
      "epoch": 1.5625,
      "eval_loss": 0.8301742076873779,
      "eval_runtime": 50.1867,
      "eval_samples_per_second": 3.985,
      "eval_steps_per_second": 0.259,
      "step": 50
    },
    {
      "epoch": 1.59375,
      "grad_norm": 0.1975577146517192,
      "learning_rate": 2e-05,
      "loss": 0.8868,
      "step": 51
    },
    {
      "epoch": 1.59375,
      "eval_loss": 0.8275265693664551,
      "eval_runtime": 51.2257,
      "eval_samples_per_second": 3.904,
      "eval_steps_per_second": 0.254,
      "step": 51
    },
    {
      "epoch": 1.625,
      "grad_norm": 0.21474817057286624,
      "learning_rate": 2e-05,
      "loss": 0.767,
      "step": 52
    },
    {
      "epoch": 1.625,
      "eval_loss": 0.824796736240387,
      "eval_runtime": 51.276,
      "eval_samples_per_second": 3.9,
      "eval_steps_per_second": 0.254,
      "step": 52
    },
    {
      "epoch": 1.65625,
      "grad_norm": 0.21105651676755652,
      "learning_rate": 2e-05,
      "loss": 0.9219,
      "step": 53
    },
    {
      "epoch": 1.65625,
      "eval_loss": 0.8221166729927063,
      "eval_runtime": 51.141,
      "eval_samples_per_second": 3.911,
      "eval_steps_per_second": 0.254,
      "step": 53
    },
    {
      "epoch": 1.6875,
      "grad_norm": 0.20706475184742085,
      "learning_rate": 2e-05,
      "loss": 0.8873,
      "step": 54
    },
    {
      "epoch": 1.6875,
      "eval_loss": 0.819589376449585,
      "eval_runtime": 51.0045,
      "eval_samples_per_second": 3.921,
      "eval_steps_per_second": 0.255,
      "step": 54
    },
    {
      "epoch": 1.71875,
      "grad_norm": 0.21722220033855957,
      "learning_rate": 2e-05,
      "loss": 0.8956,
      "step": 55
    },
    {
      "epoch": 1.71875,
      "eval_loss": 0.8176340460777283,
      "eval_runtime": 51.1941,
      "eval_samples_per_second": 3.907,
      "eval_steps_per_second": 0.254,
      "step": 55
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.20669001221665667,
      "learning_rate": 2e-05,
      "loss": 0.9506,
      "step": 56
    },
    {
      "epoch": 1.75,
      "eval_loss": 0.8158826231956482,
      "eval_runtime": 52.1162,
      "eval_samples_per_second": 3.838,
      "eval_steps_per_second": 0.249,
      "step": 56
    },
    {
      "epoch": 1.78125,
      "grad_norm": 0.22189732090066341,
      "learning_rate": 2e-05,
      "loss": 0.8955,
      "step": 57
    },
    {
      "epoch": 1.78125,
      "eval_loss": 0.814656674861908,
      "eval_runtime": 52.1361,
      "eval_samples_per_second": 3.836,
      "eval_steps_per_second": 0.249,
      "step": 57
    },
    {
      "epoch": 1.8125,
      "grad_norm": 0.2030113892848459,
      "learning_rate": 2e-05,
      "loss": 0.9108,
      "step": 58
    },
    {
      "epoch": 1.8125,
      "eval_loss": 0.813343346118927,
      "eval_runtime": 52.2552,
      "eval_samples_per_second": 3.827,
      "eval_steps_per_second": 0.249,
      "step": 58
    },
    {
      "epoch": 1.84375,
      "grad_norm": 0.2123201057569791,
      "learning_rate": 2e-05,
      "loss": 0.8779,
      "step": 59
    },
    {
      "epoch": 1.84375,
      "eval_loss": 0.8116877675056458,
      "eval_runtime": 52.1233,
      "eval_samples_per_second": 3.837,
      "eval_steps_per_second": 0.249,
      "step": 59
    },
    {
      "epoch": 1.875,
      "grad_norm": 0.211551126937912,
      "learning_rate": 2e-05,
      "loss": 0.9294,
      "step": 60
    },
    {
      "epoch": 1.875,
      "eval_loss": 0.8098442554473877,
      "eval_runtime": 52.1091,
      "eval_samples_per_second": 3.838,
      "eval_steps_per_second": 0.249,
      "step": 60
    },
    {
      "epoch": 1.90625,
      "grad_norm": 0.24981344981629752,
      "learning_rate": 2e-05,
      "loss": 0.8409,
      "step": 61
    },
    {
      "epoch": 1.90625,
      "eval_loss": 0.8070770502090454,
      "eval_runtime": 53.4187,
      "eval_samples_per_second": 3.744,
      "eval_steps_per_second": 0.243,
      "step": 61
    },
    {
      "epoch": 1.9375,
      "grad_norm": 0.2341550589775159,
      "learning_rate": 2e-05,
      "loss": 0.888,
      "step": 62
    },
    {
      "epoch": 1.9375,
      "eval_loss": 0.8040286898612976,
      "eval_runtime": 53.2197,
      "eval_samples_per_second": 3.758,
      "eval_steps_per_second": 0.244,
      "step": 62
    },
    {
      "epoch": 1.96875,
      "grad_norm": 0.2336241775649256,
      "learning_rate": 2e-05,
      "loss": 0.913,
      "step": 63
    },
    {
      "epoch": 1.96875,
      "eval_loss": 0.8013430833816528,
      "eval_runtime": 53.1784,
      "eval_samples_per_second": 3.761,
      "eval_steps_per_second": 0.244,
      "step": 63
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.2414390628081758,
      "learning_rate": 2e-05,
      "loss": 0.8754,
      "step": 64
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.7985894680023193,
      "eval_runtime": 53.2454,
      "eval_samples_per_second": 3.756,
      "eval_steps_per_second": 0.244,
      "step": 64
    },
    {
      "epoch": 2.03125,
      "grad_norm": 0.2484104465653703,
      "learning_rate": 2e-05,
      "loss": 0.8497,
      "step": 65
    },
    {
      "epoch": 2.03125,
      "eval_loss": 0.7954932451248169,
      "eval_runtime": 53.3794,
      "eval_samples_per_second": 3.747,
      "eval_steps_per_second": 0.244,
      "step": 65
    },
    {
      "epoch": 2.0625,
      "grad_norm": 0.23859744120942086,
      "learning_rate": 2e-05,
      "loss": 0.8567,
      "step": 66
    },
    {
      "epoch": 2.0625,
      "eval_loss": 0.7929843068122864,
      "eval_runtime": 55.517,
      "eval_samples_per_second": 3.602,
      "eval_steps_per_second": 0.234,
      "step": 66
    },
    {
      "epoch": 2.09375,
      "grad_norm": 0.24584758647855462,
      "learning_rate": 2e-05,
      "loss": 0.8489,
      "step": 67
    },
    {
      "epoch": 2.09375,
      "eval_loss": 0.7903321981430054,
      "eval_runtime": 55.4151,
      "eval_samples_per_second": 3.609,
      "eval_steps_per_second": 0.235,
      "step": 67
    },
    {
      "epoch": 2.125,
      "grad_norm": 0.2484917818304153,
      "learning_rate": 2e-05,
      "loss": 0.9122,
      "step": 68
    },
    {
      "epoch": 2.125,
      "eval_loss": 0.7877185344696045,
      "eval_runtime": 55.4069,
      "eval_samples_per_second": 3.61,
      "eval_steps_per_second": 0.235,
      "step": 68
    },
    {
      "epoch": 2.15625,
      "grad_norm": 0.2184614083026819,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 69
    },
    {
      "epoch": 2.15625,
      "eval_loss": 0.7852210998535156,
      "eval_runtime": 55.3381,
      "eval_samples_per_second": 3.614,
      "eval_steps_per_second": 0.235,
      "step": 69
    },
    {
      "epoch": 2.1875,
      "grad_norm": 0.24978410070800153,
      "learning_rate": 2e-05,
      "loss": 0.7968,
      "step": 70
    },
    {
      "epoch": 2.1875,
      "eval_loss": 0.7827157378196716,
      "eval_runtime": 55.3708,
      "eval_samples_per_second": 3.612,
      "eval_steps_per_second": 0.235,
      "step": 70
    },
    {
      "epoch": 2.21875,
      "grad_norm": 0.23059883325890385,
      "learning_rate": 2e-05,
      "loss": 0.8783,
      "step": 71
    },
    {
      "epoch": 2.21875,
      "eval_loss": 0.7805906534194946,
      "eval_runtime": 55.6033,
      "eval_samples_per_second": 3.597,
      "eval_steps_per_second": 0.234,
      "step": 71
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.23261007334915096,
      "learning_rate": 2e-05,
      "loss": 0.7956,
      "step": 72
    },
    {
      "epoch": 2.25,
      "eval_loss": 0.7786691784858704,
      "eval_runtime": 55.0913,
      "eval_samples_per_second": 3.63,
      "eval_steps_per_second": 0.236,
      "step": 72
    },
    {
      "epoch": 2.28125,
      "grad_norm": 0.25779598356574085,
      "learning_rate": 2e-05,
      "loss": 0.8426,
      "step": 73
    },
    {
      "epoch": 2.28125,
      "eval_loss": 0.7771151661872864,
      "eval_runtime": 55.0698,
      "eval_samples_per_second": 3.632,
      "eval_steps_per_second": 0.236,
      "step": 73
    },
    {
      "epoch": 2.3125,
      "grad_norm": 0.2288243335971112,
      "learning_rate": 2e-05,
      "loss": 0.8381,
      "step": 74
    },
    {
      "epoch": 2.3125,
      "eval_loss": 0.7756838202476501,
      "eval_runtime": 54.8412,
      "eval_samples_per_second": 3.647,
      "eval_steps_per_second": 0.237,
      "step": 74
    },
    {
      "epoch": 2.34375,
      "grad_norm": 0.24235644907977733,
      "learning_rate": 2e-05,
      "loss": 0.887,
      "step": 75
    },
    {
      "epoch": 2.34375,
      "eval_loss": 0.7739972472190857,
      "eval_runtime": 54.9718,
      "eval_samples_per_second": 3.638,
      "eval_steps_per_second": 0.236,
      "step": 75
    },
    {
      "epoch": 2.375,
      "grad_norm": 0.23666820017867402,
      "learning_rate": 2e-05,
      "loss": 0.8007,
      "step": 76
    },
    {
      "epoch": 2.375,
      "eval_loss": 0.7724328637123108,
      "eval_runtime": 55.0225,
      "eval_samples_per_second": 3.635,
      "eval_steps_per_second": 0.236,
      "step": 76
    },
    {
      "epoch": 2.40625,
      "grad_norm": 0.22815737396609181,
      "learning_rate": 2e-05,
      "loss": 0.8529,
      "step": 77
    },
    {
      "epoch": 2.40625,
      "eval_loss": 0.7710004448890686,
      "eval_runtime": 55.321,
      "eval_samples_per_second": 3.615,
      "eval_steps_per_second": 0.235,
      "step": 77
    },
    {
      "epoch": 2.4375,
      "grad_norm": 0.2701264871470739,
      "learning_rate": 2e-05,
      "loss": 0.8515,
      "step": 78
    },
    {
      "epoch": 2.4375,
      "eval_loss": 0.7695322632789612,
      "eval_runtime": 55.3045,
      "eval_samples_per_second": 3.616,
      "eval_steps_per_second": 0.235,
      "step": 78
    },
    {
      "epoch": 2.46875,
      "grad_norm": 0.24363813951328234,
      "learning_rate": 2e-05,
      "loss": 0.8587,
      "step": 79
    },
    {
      "epoch": 2.46875,
      "eval_loss": 0.7689024209976196,
      "eval_runtime": 55.3009,
      "eval_samples_per_second": 3.617,
      "eval_steps_per_second": 0.235,
      "step": 79
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.30924701355253065,
      "learning_rate": 2e-05,
      "loss": 0.9076,
      "step": 80
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.7676254510879517,
      "eval_runtime": 55.2365,
      "eval_samples_per_second": 3.621,
      "eval_steps_per_second": 0.235,
      "step": 80
    },
    {
      "epoch": 2.53125,
      "grad_norm": 0.2665188280221636,
      "learning_rate": 2e-05,
      "loss": 0.8445,
      "step": 81
    },
    {
      "epoch": 2.53125,
      "eval_loss": 0.7661146521568298,
      "eval_runtime": 55.2775,
      "eval_samples_per_second": 3.618,
      "eval_steps_per_second": 0.235,
      "step": 81
    },
    {
      "epoch": 2.5625,
      "grad_norm": 0.24674191720675534,
      "learning_rate": 2e-05,
      "loss": 0.8882,
      "step": 82
    },
    {
      "epoch": 2.5625,
      "eval_loss": 0.76513671875,
      "eval_runtime": 55.0857,
      "eval_samples_per_second": 3.631,
      "eval_steps_per_second": 0.236,
      "step": 82
    },
    {
      "epoch": 2.59375,
      "grad_norm": 0.2736689405531704,
      "learning_rate": 2e-05,
      "loss": 0.8336,
      "step": 83
    },
    {
      "epoch": 2.59375,
      "eval_loss": 0.764373779296875,
      "eval_runtime": 55.2069,
      "eval_samples_per_second": 3.623,
      "eval_steps_per_second": 0.235,
      "step": 83
    },
    {
      "epoch": 2.625,
      "grad_norm": 0.290841287198557,
      "learning_rate": 2e-05,
      "loss": 0.795,
      "step": 84
    },
    {
      "epoch": 2.625,
      "eval_loss": 0.7632084488868713,
      "eval_runtime": 55.1009,
      "eval_samples_per_second": 3.63,
      "eval_steps_per_second": 0.236,
      "step": 84
    },
    {
      "epoch": 2.65625,
      "grad_norm": 0.2912051076836381,
      "learning_rate": 2e-05,
      "loss": 0.772,
      "step": 85
    },
    {
      "epoch": 2.65625,
      "eval_loss": 0.7618446350097656,
      "eval_runtime": 55.3717,
      "eval_samples_per_second": 3.612,
      "eval_steps_per_second": 0.235,
      "step": 85
    },
    {
      "epoch": 2.6875,
      "grad_norm": 0.3169908538809109,
      "learning_rate": 2e-05,
      "loss": 0.8148,
      "step": 86
    },
    {
      "epoch": 2.6875,
      "eval_loss": 0.7599577307701111,
      "eval_runtime": 55.3931,
      "eval_samples_per_second": 3.611,
      "eval_steps_per_second": 0.235,
      "step": 86
    },
    {
      "epoch": 2.71875,
      "grad_norm": 0.28780549186847426,
      "learning_rate": 2e-05,
      "loss": 0.8154,
      "step": 87
    },
    {
      "epoch": 2.71875,
      "eval_loss": 0.7583369612693787,
      "eval_runtime": 55.1679,
      "eval_samples_per_second": 3.625,
      "eval_steps_per_second": 0.236,
      "step": 87
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.30695250620091474,
      "learning_rate": 2e-05,
      "loss": 0.9032,
      "step": 88
    },
    {
      "epoch": 2.75,
      "eval_loss": 0.7571613192558289,
      "eval_runtime": 55.1779,
      "eval_samples_per_second": 3.625,
      "eval_steps_per_second": 0.236,
      "step": 88
    },
    {
      "epoch": 2.78125,
      "grad_norm": 0.2693887416759828,
      "learning_rate": 2e-05,
      "loss": 0.8106,
      "step": 89
    },
    {
      "epoch": 2.78125,
      "eval_loss": 0.7566004991531372,
      "eval_runtime": 55.1107,
      "eval_samples_per_second": 3.629,
      "eval_steps_per_second": 0.236,
      "step": 89
    },
    {
      "epoch": 2.8125,
      "grad_norm": 0.2887583627563198,
      "learning_rate": 2e-05,
      "loss": 0.8518,
      "step": 90
    },
    {
      "epoch": 2.8125,
      "eval_loss": 0.7558963298797607,
      "eval_runtime": 55.2153,
      "eval_samples_per_second": 3.622,
      "eval_steps_per_second": 0.235,
      "step": 90
    },
    {
      "epoch": 2.84375,
      "grad_norm": 0.3059402168979351,
      "learning_rate": 2e-05,
      "loss": 0.7727,
      "step": 91
    },
    {
      "epoch": 2.84375,
      "eval_loss": 0.7545350790023804,
      "eval_runtime": 55.3225,
      "eval_samples_per_second": 3.615,
      "eval_steps_per_second": 0.235,
      "step": 91
    },
    {
      "epoch": 2.875,
      "grad_norm": 0.3096260477909968,
      "learning_rate": 2e-05,
      "loss": 0.8477,
      "step": 92
    },
    {
      "epoch": 2.875,
      "eval_loss": 0.7526452541351318,
      "eval_runtime": 55.4311,
      "eval_samples_per_second": 3.608,
      "eval_steps_per_second": 0.235,
      "step": 92
    },
    {
      "epoch": 2.90625,
      "grad_norm": 0.31498884686525297,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 93
    },
    {
      "epoch": 2.90625,
      "eval_loss": 0.7510760426521301,
      "eval_runtime": 55.4361,
      "eval_samples_per_second": 3.608,
      "eval_steps_per_second": 0.235,
      "step": 93
    },
    {
      "epoch": 2.9375,
      "grad_norm": 0.31302830623184313,
      "learning_rate": 2e-05,
      "loss": 0.871,
      "step": 94
    },
    {
      "epoch": 2.9375,
      "eval_loss": 0.7500898838043213,
      "eval_runtime": 55.3025,
      "eval_samples_per_second": 3.616,
      "eval_steps_per_second": 0.235,
      "step": 94
    },
    {
      "epoch": 2.96875,
      "grad_norm": 0.3132608568779145,
      "learning_rate": 2e-05,
      "loss": 0.8094,
      "step": 95
    },
    {
      "epoch": 2.96875,
      "eval_loss": 0.7498895525932312,
      "eval_runtime": 55.2402,
      "eval_samples_per_second": 3.621,
      "eval_steps_per_second": 0.235,
      "step": 95
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.298645350091386,
      "learning_rate": 2e-05,
      "loss": 0.7673,
      "step": 96
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.7493192553520203,
      "eval_runtime": 54.8718,
      "eval_samples_per_second": 3.645,
      "eval_steps_per_second": 0.237,
      "step": 96
    },
    {
      "epoch": 3.03125,
      "grad_norm": 0.34042584783125357,
      "learning_rate": 2e-05,
      "loss": 0.7336,
      "step": 97
    },
    {
      "epoch": 3.03125,
      "eval_loss": 0.7476670742034912,
      "eval_runtime": 54.9305,
      "eval_samples_per_second": 3.641,
      "eval_steps_per_second": 0.237,
      "step": 97
    },
    {
      "epoch": 3.0625,
      "grad_norm": 0.293099043801068,
      "learning_rate": 2e-05,
      "loss": 0.8088,
      "step": 98
    },
    {
      "epoch": 3.0625,
      "eval_loss": 0.745802640914917,
      "eval_runtime": 55.2051,
      "eval_samples_per_second": 3.623,
      "eval_steps_per_second": 0.235,
      "step": 98
    },
    {
      "epoch": 3.09375,
      "grad_norm": 0.3042839507858426,
      "learning_rate": 2e-05,
      "loss": 0.787,
      "step": 99
    },
    {
      "epoch": 3.09375,
      "eval_loss": 0.7439618110656738,
      "eval_runtime": 55.0065,
      "eval_samples_per_second": 3.636,
      "eval_steps_per_second": 0.236,
      "step": 99
    },
    {
      "epoch": 3.125,
      "grad_norm": 0.32992077073227005,
      "learning_rate": 2e-05,
      "loss": 0.8296,
      "step": 100
    },
    {
      "epoch": 3.125,
      "eval_loss": 0.7424842715263367,
      "eval_runtime": 55.1254,
      "eval_samples_per_second": 3.628,
      "eval_steps_per_second": 0.236,
      "step": 100
    },
    {
      "epoch": 3.15625,
      "grad_norm": 0.2798839747424062,
      "learning_rate": 2e-05,
      "loss": 0.7642,
      "step": 101
    },
    {
      "epoch": 3.15625,
      "eval_loss": 0.7414796948432922,
      "eval_runtime": 49.183,
      "eval_samples_per_second": 4.066,
      "eval_steps_per_second": 0.264,
      "step": 101
    },
    {
      "epoch": 3.1875,
      "grad_norm": 0.3046631191964983,
      "learning_rate": 2e-05,
      "loss": 0.8203,
      "step": 102
    },
    {
      "epoch": 3.1875,
      "eval_loss": 0.7410265207290649,
      "eval_runtime": 48.1541,
      "eval_samples_per_second": 4.153,
      "eval_steps_per_second": 0.27,
      "step": 102
    },
    {
      "epoch": 3.21875,
      "grad_norm": 0.3117517214859861,
      "learning_rate": 2e-05,
      "loss": 0.8222,
      "step": 103
    },
    {
      "epoch": 3.21875,
      "eval_loss": 0.7405675649642944,
      "eval_runtime": 47.7145,
      "eval_samples_per_second": 4.192,
      "eval_steps_per_second": 0.272,
      "step": 103
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.3412709249466801,
      "learning_rate": 2e-05,
      "loss": 0.7459,
      "step": 104
    },
    {
      "epoch": 3.25,
      "eval_loss": 0.7395681738853455,
      "eval_runtime": 47.5855,
      "eval_samples_per_second": 4.203,
      "eval_steps_per_second": 0.273,
      "step": 104
    },
    {
      "epoch": 3.28125,
      "grad_norm": 0.2917443566507923,
      "learning_rate": 2e-05,
      "loss": 0.7849,
      "step": 105
    },
    {
      "epoch": 3.28125,
      "eval_loss": 0.7387100458145142,
      "eval_runtime": 47.6344,
      "eval_samples_per_second": 4.199,
      "eval_steps_per_second": 0.273,
      "step": 105
    },
    {
      "epoch": 3.3125,
      "grad_norm": 0.3054484743574741,
      "learning_rate": 2e-05,
      "loss": 0.8354,
      "step": 106
    },
    {
      "epoch": 3.3125,
      "eval_loss": 0.7384718060493469,
      "eval_runtime": 47.8373,
      "eval_samples_per_second": 4.181,
      "eval_steps_per_second": 0.272,
      "step": 106
    },
    {
      "epoch": 3.34375,
      "grad_norm": 0.34986630381114014,
      "learning_rate": 2e-05,
      "loss": 0.7069,
      "step": 107
    },
    {
      "epoch": 3.34375,
      "eval_loss": 0.737342357635498,
      "eval_runtime": 47.5763,
      "eval_samples_per_second": 4.204,
      "eval_steps_per_second": 0.273,
      "step": 107
    },
    {
      "epoch": 3.375,
      "grad_norm": 0.32324403145716496,
      "learning_rate": 2e-05,
      "loss": 0.767,
      "step": 108
    },
    {
      "epoch": 3.375,
      "eval_loss": 0.7360101938247681,
      "eval_runtime": 47.5774,
      "eval_samples_per_second": 4.204,
      "eval_steps_per_second": 0.273,
      "step": 108
    },
    {
      "epoch": 3.40625,
      "grad_norm": 0.3795969851258545,
      "learning_rate": 2e-05,
      "loss": 0.7556,
      "step": 109
    },
    {
      "epoch": 3.40625,
      "eval_loss": 0.7339167594909668,
      "eval_runtime": 47.5818,
      "eval_samples_per_second": 4.203,
      "eval_steps_per_second": 0.273,
      "step": 109
    },
    {
      "epoch": 3.4375,
      "grad_norm": 0.34401062275458993,
      "learning_rate": 2e-05,
      "loss": 0.7494,
      "step": 110
    },
    {
      "epoch": 3.4375,
      "eval_loss": 0.7321068644523621,
      "eval_runtime": 47.7643,
      "eval_samples_per_second": 4.187,
      "eval_steps_per_second": 0.272,
      "step": 110
    },
    {
      "epoch": 3.46875,
      "grad_norm": 0.3248480010385237,
      "learning_rate": 2e-05,
      "loss": 0.8103,
      "step": 111
    },
    {
      "epoch": 3.46875,
      "eval_loss": 0.7309197783470154,
      "eval_runtime": 49.5841,
      "eval_samples_per_second": 4.034,
      "eval_steps_per_second": 0.262,
      "step": 111
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.3572409124813593,
      "learning_rate": 2e-05,
      "loss": 0.7972,
      "step": 112
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.7301727533340454,
      "eval_runtime": 49.3728,
      "eval_samples_per_second": 4.051,
      "eval_steps_per_second": 0.263,
      "step": 112
    },
    {
      "epoch": 3.53125,
      "grad_norm": 0.37348522775103665,
      "learning_rate": 2e-05,
      "loss": 0.88,
      "step": 113
    },
    {
      "epoch": 3.53125,
      "eval_loss": 0.7292957305908203,
      "eval_runtime": 49.2192,
      "eval_samples_per_second": 4.063,
      "eval_steps_per_second": 0.264,
      "step": 113
    },
    {
      "epoch": 3.5625,
      "grad_norm": 0.37667450960329546,
      "learning_rate": 2e-05,
      "loss": 0.7518,
      "step": 114
    },
    {
      "epoch": 3.5625,
      "eval_loss": 0.728556215763092,
      "eval_runtime": 49.0971,
      "eval_samples_per_second": 4.074,
      "eval_steps_per_second": 0.265,
      "step": 114
    },
    {
      "epoch": 3.59375,
      "grad_norm": 0.3163628607304638,
      "learning_rate": 2e-05,
      "loss": 0.7948,
      "step": 115
    },
    {
      "epoch": 3.59375,
      "eval_loss": 0.7287828326225281,
      "eval_runtime": 49.0213,
      "eval_samples_per_second": 4.08,
      "eval_steps_per_second": 0.265,
      "step": 115
    },
    {
      "epoch": 3.625,
      "grad_norm": 0.3038899302084592,
      "learning_rate": 2e-05,
      "loss": 0.7791,
      "step": 116
    },
    {
      "epoch": 3.625,
      "eval_loss": 0.7294514179229736,
      "eval_runtime": 51.9137,
      "eval_samples_per_second": 3.853,
      "eval_steps_per_second": 0.25,
      "step": 116
    },
    {
      "epoch": 3.65625,
      "grad_norm": 0.3746448663122327,
      "learning_rate": 2e-05,
      "loss": 0.7863,
      "step": 117
    },
    {
      "epoch": 3.65625,
      "eval_loss": 0.7289304137229919,
      "eval_runtime": 51.3023,
      "eval_samples_per_second": 3.898,
      "eval_steps_per_second": 0.253,
      "step": 117
    },
    {
      "epoch": 3.6875,
      "grad_norm": 0.4058937381299434,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 118
    },
    {
      "epoch": 3.6875,
      "eval_loss": 0.7281011343002319,
      "eval_runtime": 50.8635,
      "eval_samples_per_second": 3.932,
      "eval_steps_per_second": 0.256,
      "step": 118
    },
    {
      "epoch": 3.71875,
      "grad_norm": 0.31608065583227885,
      "learning_rate": 2e-05,
      "loss": 0.8348,
      "step": 119
    },
    {
      "epoch": 3.71875,
      "eval_loss": 0.7280247211456299,
      "eval_runtime": 50.4903,
      "eval_samples_per_second": 3.961,
      "eval_steps_per_second": 0.257,
      "step": 119
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.3375768031046084,
      "learning_rate": 2e-05,
      "loss": 0.7783,
      "step": 120
    },
    {
      "epoch": 3.75,
      "eval_loss": 0.7281913757324219,
      "eval_runtime": 50.5906,
      "eval_samples_per_second": 3.953,
      "eval_steps_per_second": 0.257,
      "step": 120
    },
    {
      "epoch": 3.78125,
      "grad_norm": 0.36047493494859845,
      "learning_rate": 2e-05,
      "loss": 0.765,
      "step": 121
    },
    {
      "epoch": 3.78125,
      "eval_loss": 0.7269737124443054,
      "eval_runtime": 53.4722,
      "eval_samples_per_second": 3.74,
      "eval_steps_per_second": 0.243,
      "step": 121
    },
    {
      "epoch": 3.8125,
      "grad_norm": 0.389743860171921,
      "learning_rate": 2e-05,
      "loss": 0.8269,
      "step": 122
    },
    {
      "epoch": 3.8125,
      "eval_loss": 0.7251996397972107,
      "eval_runtime": 53.4986,
      "eval_samples_per_second": 3.738,
      "eval_steps_per_second": 0.243,
      "step": 122
    },
    {
      "epoch": 3.84375,
      "grad_norm": 0.33850935145960215,
      "learning_rate": 2e-05,
      "loss": 0.7497,
      "step": 123
    },
    {
      "epoch": 3.84375,
      "eval_loss": 0.723595142364502,
      "eval_runtime": 53.4196,
      "eval_samples_per_second": 3.744,
      "eval_steps_per_second": 0.243,
      "step": 123
    },
    {
      "epoch": 3.875,
      "grad_norm": 0.3166770012114478,
      "learning_rate": 2e-05,
      "loss": 0.7648,
      "step": 124
    },
    {
      "epoch": 3.875,
      "eval_loss": 0.7223578095436096,
      "eval_runtime": 52.6143,
      "eval_samples_per_second": 3.801,
      "eval_steps_per_second": 0.247,
      "step": 124
    },
    {
      "epoch": 3.90625,
      "grad_norm": 0.41948670305268276,
      "learning_rate": 2e-05,
      "loss": 0.8306,
      "step": 125
    },
    {
      "epoch": 3.90625,
      "eval_loss": 0.7206680774688721,
      "eval_runtime": 52.3885,
      "eval_samples_per_second": 3.818,
      "eval_steps_per_second": 0.248,
      "step": 125
    },
    {
      "epoch": 3.9375,
      "grad_norm": 0.35580041105853477,
      "learning_rate": 2e-05,
      "loss": 0.7945,
      "step": 126
    },
    {
      "epoch": 3.9375,
      "eval_loss": 0.7196171283721924,
      "eval_runtime": 55.1225,
      "eval_samples_per_second": 3.628,
      "eval_steps_per_second": 0.236,
      "step": 126
    },
    {
      "epoch": 3.96875,
      "grad_norm": 0.38411890663257114,
      "learning_rate": 2e-05,
      "loss": 0.7466,
      "step": 127
    },
    {
      "epoch": 3.96875,
      "eval_loss": 0.7188088297843933,
      "eval_runtime": 55.3068,
      "eval_samples_per_second": 3.616,
      "eval_steps_per_second": 0.235,
      "step": 127
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.3682220575203032,
      "learning_rate": 2e-05,
      "loss": 0.6752,
      "step": 128
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.7181470990180969,
      "eval_runtime": 53.9116,
      "eval_samples_per_second": 3.71,
      "eval_steps_per_second": 0.241,
      "step": 128
    },
    {
      "epoch": 4.03125,
      "grad_norm": 0.34160763542661665,
      "learning_rate": 2e-05,
      "loss": 0.7788,
      "step": 129
    },
    {
      "epoch": 4.03125,
      "eval_loss": 0.717949390411377,
      "eval_runtime": 53.8446,
      "eval_samples_per_second": 3.714,
      "eval_steps_per_second": 0.241,
      "step": 129
    },
    {
      "epoch": 4.0625,
      "grad_norm": 0.35709301353799944,
      "learning_rate": 2e-05,
      "loss": 0.8002,
      "step": 130
    },
    {
      "epoch": 4.0625,
      "eval_loss": 0.7179380655288696,
      "eval_runtime": 53.9299,
      "eval_samples_per_second": 3.709,
      "eval_steps_per_second": 0.241,
      "step": 130
    },
    {
      "epoch": 4.09375,
      "grad_norm": 0.3503147340749238,
      "learning_rate": 2e-05,
      "loss": 0.7789,
      "step": 131
    },
    {
      "epoch": 4.09375,
      "eval_loss": 0.7180312871932983,
      "eval_runtime": 53.4091,
      "eval_samples_per_second": 3.745,
      "eval_steps_per_second": 0.243,
      "step": 131
    },
    {
      "epoch": 4.125,
      "grad_norm": 0.3931715546229069,
      "learning_rate": 2e-05,
      "loss": 0.762,
      "step": 132
    },
    {
      "epoch": 4.125,
      "eval_loss": 0.717825710773468,
      "eval_runtime": 53.6366,
      "eval_samples_per_second": 3.729,
      "eval_steps_per_second": 0.242,
      "step": 132
    },
    {
      "epoch": 4.15625,
      "grad_norm": 0.36864033862644363,
      "learning_rate": 2e-05,
      "loss": 0.829,
      "step": 133
    },
    {
      "epoch": 4.15625,
      "eval_loss": 0.7178698182106018,
      "eval_runtime": 53.4891,
      "eval_samples_per_second": 3.739,
      "eval_steps_per_second": 0.243,
      "step": 133
    },
    {
      "epoch": 4.1875,
      "grad_norm": 0.41393587587462155,
      "learning_rate": 2e-05,
      "loss": 0.7624,
      "step": 134
    },
    {
      "epoch": 4.1875,
      "eval_loss": 0.7181968092918396,
      "eval_runtime": 53.5395,
      "eval_samples_per_second": 3.736,
      "eval_steps_per_second": 0.243,
      "step": 134
    },
    {
      "epoch": 4.21875,
      "grad_norm": 0.36727603900023204,
      "learning_rate": 2e-05,
      "loss": 0.7572,
      "step": 135
    },
    {
      "epoch": 4.21875,
      "eval_loss": 0.7187527418136597,
      "eval_runtime": 53.4818,
      "eval_samples_per_second": 3.74,
      "eval_steps_per_second": 0.243,
      "step": 135
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.3684078795455007,
      "learning_rate": 2e-05,
      "loss": 0.7352,
      "step": 136
    },
    {
      "epoch": 4.25,
      "eval_loss": 0.7194793820381165,
      "eval_runtime": 53.4694,
      "eval_samples_per_second": 3.74,
      "eval_steps_per_second": 0.243,
      "step": 136
    },
    {
      "epoch": 4.28125,
      "grad_norm": 0.42414766562621153,
      "learning_rate": 2e-05,
      "loss": 0.7433,
      "step": 137
    },
    {
      "epoch": 4.28125,
      "eval_loss": 0.7189603447914124,
      "eval_runtime": 53.8049,
      "eval_samples_per_second": 3.717,
      "eval_steps_per_second": 0.242,
      "step": 137
    },
    {
      "epoch": 4.3125,
      "grad_norm": 0.40420796619211563,
      "learning_rate": 2e-05,
      "loss": 0.7466,
      "step": 138
    },
    {
      "epoch": 4.3125,
      "eval_loss": 0.7173956036567688,
      "eval_runtime": 53.4014,
      "eval_samples_per_second": 3.745,
      "eval_steps_per_second": 0.243,
      "step": 138
    },
    {
      "epoch": 4.34375,
      "grad_norm": 0.36419740641344456,
      "learning_rate": 2e-05,
      "loss": 0.7045,
      "step": 139
    },
    {
      "epoch": 4.34375,
      "eval_loss": 0.7153105139732361,
      "eval_runtime": 53.285,
      "eval_samples_per_second": 3.753,
      "eval_steps_per_second": 0.244,
      "step": 139
    },
    {
      "epoch": 4.375,
      "grad_norm": 0.384927357409491,
      "learning_rate": 2e-05,
      "loss": 0.7437,
      "step": 140
    },
    {
      "epoch": 4.375,
      "eval_loss": 0.7135314345359802,
      "eval_runtime": 53.4056,
      "eval_samples_per_second": 3.745,
      "eval_steps_per_second": 0.243,
      "step": 140
    },
    {
      "epoch": 4.40625,
      "grad_norm": 0.37218579680263697,
      "learning_rate": 2e-05,
      "loss": 0.7693,
      "step": 141
    },
    {
      "epoch": 4.40625,
      "eval_loss": 0.7120725512504578,
      "eval_runtime": 53.5467,
      "eval_samples_per_second": 3.735,
      "eval_steps_per_second": 0.243,
      "step": 141
    },
    {
      "epoch": 4.4375,
      "grad_norm": 0.38541382926033946,
      "learning_rate": 2e-05,
      "loss": 0.708,
      "step": 142
    },
    {
      "epoch": 4.4375,
      "eval_loss": 0.7110380530357361,
      "eval_runtime": 53.4119,
      "eval_samples_per_second": 3.744,
      "eval_steps_per_second": 0.243,
      "step": 142
    },
    {
      "epoch": 4.46875,
      "grad_norm": 0.4028726453247759,
      "learning_rate": 2e-05,
      "loss": 0.7263,
      "step": 143
    },
    {
      "epoch": 4.46875,
      "eval_loss": 0.7100683450698853,
      "eval_runtime": 53.4337,
      "eval_samples_per_second": 3.743,
      "eval_steps_per_second": 0.243,
      "step": 143
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.3736204162232246,
      "learning_rate": 2e-05,
      "loss": 0.698,
      "step": 144
    },
    {
      "epoch": 4.5,
      "eval_loss": 0.7093971371650696,
      "eval_runtime": 53.4582,
      "eval_samples_per_second": 3.741,
      "eval_steps_per_second": 0.243,
      "step": 144
    },
    {
      "epoch": 4.53125,
      "grad_norm": 0.4179284798304916,
      "learning_rate": 2e-05,
      "loss": 0.7611,
      "step": 145
    },
    {
      "epoch": 4.53125,
      "eval_loss": 0.7089446783065796,
      "eval_runtime": 53.4752,
      "eval_samples_per_second": 3.74,
      "eval_steps_per_second": 0.243,
      "step": 145
    },
    {
      "epoch": 4.5625,
      "grad_norm": 0.4038858950888911,
      "learning_rate": 2e-05,
      "loss": 0.6652,
      "step": 146
    },
    {
      "epoch": 4.5625,
      "eval_loss": 0.7089542150497437,
      "eval_runtime": 53.4741,
      "eval_samples_per_second": 3.74,
      "eval_steps_per_second": 0.243,
      "step": 146
    },
    {
      "epoch": 4.59375,
      "grad_norm": 0.41740068710674544,
      "learning_rate": 2e-05,
      "loss": 0.7319,
      "step": 147
    },
    {
      "epoch": 4.59375,
      "eval_loss": 0.7090431451797485,
      "eval_runtime": 53.2419,
      "eval_samples_per_second": 3.756,
      "eval_steps_per_second": 0.244,
      "step": 147
    },
    {
      "epoch": 4.625,
      "grad_norm": 0.4288335811568808,
      "learning_rate": 2e-05,
      "loss": 0.6837,
      "step": 148
    },
    {
      "epoch": 4.625,
      "eval_loss": 0.7088204026222229,
      "eval_runtime": 53.3614,
      "eval_samples_per_second": 3.748,
      "eval_steps_per_second": 0.244,
      "step": 148
    },
    {
      "epoch": 4.65625,
      "grad_norm": 0.399955010119186,
      "learning_rate": 2e-05,
      "loss": 0.7989,
      "step": 149
    },
    {
      "epoch": 4.65625,
      "eval_loss": 0.7084855437278748,
      "eval_runtime": 53.4923,
      "eval_samples_per_second": 3.739,
      "eval_steps_per_second": 0.243,
      "step": 149
    },
    {
      "epoch": 4.6875,
      "grad_norm": 0.41794643164255846,
      "learning_rate": 2e-05,
      "loss": 0.7194,
      "step": 150
    },
    {
      "epoch": 4.6875,
      "eval_loss": 0.7080708146095276,
      "eval_runtime": 53.639,
      "eval_samples_per_second": 3.729,
      "eval_steps_per_second": 0.242,
      "step": 150
    },
    {
      "epoch": 4.71875,
      "grad_norm": 0.40953367303148197,
      "learning_rate": 2e-05,
      "loss": 0.7354,
      "step": 151
    },
    {
      "epoch": 4.71875,
      "eval_loss": 0.7077429890632629,
      "eval_runtime": 53.3837,
      "eval_samples_per_second": 3.746,
      "eval_steps_per_second": 0.244,
      "step": 151
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.5012282841513718,
      "learning_rate": 2e-05,
      "loss": 0.7662,
      "step": 152
    },
    {
      "epoch": 4.75,
      "eval_loss": 0.7064151167869568,
      "eval_runtime": 53.3549,
      "eval_samples_per_second": 3.748,
      "eval_steps_per_second": 0.244,
      "step": 152
    },
    {
      "epoch": 4.78125,
      "grad_norm": 0.4210784420989087,
      "learning_rate": 2e-05,
      "loss": 0.7133,
      "step": 153
    },
    {
      "epoch": 4.78125,
      "eval_loss": 0.7052726745605469,
      "eval_runtime": 53.5059,
      "eval_samples_per_second": 3.738,
      "eval_steps_per_second": 0.243,
      "step": 153
    },
    {
      "epoch": 4.8125,
      "grad_norm": 0.43520348530514996,
      "learning_rate": 2e-05,
      "loss": 0.729,
      "step": 154
    },
    {
      "epoch": 4.8125,
      "eval_loss": 0.7045274972915649,
      "eval_runtime": 53.8352,
      "eval_samples_per_second": 3.715,
      "eval_steps_per_second": 0.241,
      "step": 154
    },
    {
      "epoch": 4.84375,
      "grad_norm": 0.4287647569802656,
      "learning_rate": 2e-05,
      "loss": 0.6727,
      "step": 155
    },
    {
      "epoch": 4.84375,
      "eval_loss": 0.7041358947753906,
      "eval_runtime": 53.7435,
      "eval_samples_per_second": 3.721,
      "eval_steps_per_second": 0.242,
      "step": 155
    },
    {
      "epoch": 4.875,
      "grad_norm": 0.41883715320456333,
      "learning_rate": 2e-05,
      "loss": 0.7755,
      "step": 156
    },
    {
      "epoch": 4.875,
      "eval_loss": 0.7037128210067749,
      "eval_runtime": 53.8035,
      "eval_samples_per_second": 3.717,
      "eval_steps_per_second": 0.242,
      "step": 156
    },
    {
      "epoch": 4.90625,
      "grad_norm": 0.40617584505395354,
      "learning_rate": 2e-05,
      "loss": 0.7776,
      "step": 157
    },
    {
      "epoch": 4.90625,
      "eval_loss": 0.703965425491333,
      "eval_runtime": 53.8731,
      "eval_samples_per_second": 3.712,
      "eval_steps_per_second": 0.241,
      "step": 157
    },
    {
      "epoch": 4.9375,
      "grad_norm": 0.4085802225532245,
      "learning_rate": 2e-05,
      "loss": 0.7628,
      "step": 158
    },
    {
      "epoch": 4.9375,
      "eval_loss": 0.7040860056877136,
      "eval_runtime": 53.9059,
      "eval_samples_per_second": 3.71,
      "eval_steps_per_second": 0.241,
      "step": 158
    },
    {
      "epoch": 4.96875,
      "grad_norm": 0.418039298119887,
      "learning_rate": 2e-05,
      "loss": 0.7221,
      "step": 159
    },
    {
      "epoch": 4.96875,
      "eval_loss": 0.7039948105812073,
      "eval_runtime": 53.7323,
      "eval_samples_per_second": 3.722,
      "eval_steps_per_second": 0.242,
      "step": 159
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.46118870048713073,
      "learning_rate": 2e-05,
      "loss": 0.7029,
      "step": 160
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.703814685344696,
      "eval_runtime": 53.8975,
      "eval_samples_per_second": 3.711,
      "eval_steps_per_second": 0.241,
      "step": 160
    },
    {
      "epoch": 5.03125,
      "grad_norm": 0.431474386110294,
      "learning_rate": 2e-05,
      "loss": 0.6772,
      "step": 161
    },
    {
      "epoch": 5.03125,
      "eval_loss": 0.7034456133842468,
      "eval_runtime": 51.1105,
      "eval_samples_per_second": 3.913,
      "eval_steps_per_second": 0.254,
      "step": 161
    },
    {
      "epoch": 5.0625,
      "grad_norm": 0.39618929325750435,
      "learning_rate": 2e-05,
      "loss": 0.8219,
      "step": 162
    },
    {
      "epoch": 5.0625,
      "eval_loss": 0.7042189240455627,
      "eval_runtime": 47.2927,
      "eval_samples_per_second": 4.229,
      "eval_steps_per_second": 0.275,
      "step": 162
    },
    {
      "epoch": 5.09375,
      "grad_norm": 0.4489132713249424,
      "learning_rate": 2e-05,
      "loss": 0.6387,
      "step": 163
    },
    {
      "epoch": 5.09375,
      "eval_loss": 0.7061256170272827,
      "eval_runtime": 47.387,
      "eval_samples_per_second": 4.221,
      "eval_steps_per_second": 0.274,
      "step": 163
    },
    {
      "epoch": 5.125,
      "grad_norm": 0.5100329637159183,
      "learning_rate": 2e-05,
      "loss": 0.7677,
      "step": 164
    },
    {
      "epoch": 5.125,
      "eval_loss": 0.708121657371521,
      "eval_runtime": 47.3311,
      "eval_samples_per_second": 4.226,
      "eval_steps_per_second": 0.275,
      "step": 164
    },
    {
      "epoch": 5.15625,
      "grad_norm": 0.525511631981176,
      "learning_rate": 2e-05,
      "loss": 0.5956,
      "step": 165
    },
    {
      "epoch": 5.15625,
      "eval_loss": 0.7091134786605835,
      "eval_runtime": 47.2978,
      "eval_samples_per_second": 4.229,
      "eval_steps_per_second": 0.275,
      "step": 165
    },
    {
      "epoch": 5.1875,
      "grad_norm": 0.534675354231597,
      "learning_rate": 2e-05,
      "loss": 0.7097,
      "step": 166
    },
    {
      "epoch": 5.1875,
      "eval_loss": 0.7097848653793335,
      "eval_runtime": 47.4095,
      "eval_samples_per_second": 4.219,
      "eval_steps_per_second": 0.274,
      "step": 166
    },
    {
      "epoch": 5.21875,
      "grad_norm": 0.47286903698857446,
      "learning_rate": 2e-05,
      "loss": 0.7371,
      "step": 167
    },
    {
      "epoch": 5.21875,
      "eval_loss": 0.7090296745300293,
      "eval_runtime": 47.4487,
      "eval_samples_per_second": 4.215,
      "eval_steps_per_second": 0.274,
      "step": 167
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.4734705066820788,
      "learning_rate": 2e-05,
      "loss": 0.7652,
      "step": 168
    },
    {
      "epoch": 5.25,
      "eval_loss": 0.7079525589942932,
      "eval_runtime": 47.4101,
      "eval_samples_per_second": 4.219,
      "eval_steps_per_second": 0.274,
      "step": 168
    },
    {
      "epoch": 5.28125,
      "grad_norm": 0.46209764763985184,
      "learning_rate": 2e-05,
      "loss": 0.6852,
      "step": 169
    },
    {
      "epoch": 5.28125,
      "eval_loss": 0.7072803974151611,
      "eval_runtime": 47.3704,
      "eval_samples_per_second": 4.222,
      "eval_steps_per_second": 0.274,
      "step": 169
    },
    {
      "epoch": 5.3125,
      "grad_norm": 0.4828284708486433,
      "learning_rate": 2e-05,
      "loss": 0.6609,
      "step": 170
    },
    {
      "epoch": 5.3125,
      "eval_loss": 0.7068901062011719,
      "eval_runtime": 47.425,
      "eval_samples_per_second": 4.217,
      "eval_steps_per_second": 0.274,
      "step": 170
    },
    {
      "epoch": 5.34375,
      "grad_norm": 0.5230116179180577,
      "learning_rate": 2e-05,
      "loss": 0.6872,
      "step": 171
    },
    {
      "epoch": 5.34375,
      "eval_loss": 0.7058187127113342,
      "eval_runtime": 47.5711,
      "eval_samples_per_second": 4.204,
      "eval_steps_per_second": 0.273,
      "step": 171
    },
    {
      "epoch": 5.375,
      "grad_norm": 0.48081340678536255,
      "learning_rate": 2e-05,
      "loss": 0.7694,
      "step": 172
    },
    {
      "epoch": 5.375,
      "eval_loss": 0.7044984698295593,
      "eval_runtime": 47.4233,
      "eval_samples_per_second": 4.217,
      "eval_steps_per_second": 0.274,
      "step": 172
    },
    {
      "epoch": 5.40625,
      "grad_norm": 0.4787525602476421,
      "learning_rate": 2e-05,
      "loss": 0.7342,
      "step": 173
    },
    {
      "epoch": 5.40625,
      "eval_loss": 0.7032212018966675,
      "eval_runtime": 47.3534,
      "eval_samples_per_second": 4.224,
      "eval_steps_per_second": 0.275,
      "step": 173
    },
    {
      "epoch": 5.4375,
      "grad_norm": 0.4871847582306217,
      "learning_rate": 2e-05,
      "loss": 0.7562,
      "step": 174
    },
    {
      "epoch": 5.4375,
      "eval_loss": 0.7019696235656738,
      "eval_runtime": 47.382,
      "eval_samples_per_second": 4.221,
      "eval_steps_per_second": 0.274,
      "step": 174
    },
    {
      "epoch": 5.46875,
      "grad_norm": 0.47999745025553603,
      "learning_rate": 2e-05,
      "loss": 0.7534,
      "step": 175
    },
    {
      "epoch": 5.46875,
      "eval_loss": 0.7014529705047607,
      "eval_runtime": 47.4435,
      "eval_samples_per_second": 4.216,
      "eval_steps_per_second": 0.274,
      "step": 175
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.5168030891996357,
      "learning_rate": 2e-05,
      "loss": 0.707,
      "step": 176
    },
    {
      "epoch": 5.5,
      "eval_loss": 0.6993884444236755,
      "eval_runtime": 47.4943,
      "eval_samples_per_second": 4.211,
      "eval_steps_per_second": 0.274,
      "step": 176
    },
    {
      "epoch": 5.53125,
      "grad_norm": 0.536450206978984,
      "learning_rate": 2e-05,
      "loss": 0.7318,
      "step": 177
    },
    {
      "epoch": 5.53125,
      "eval_loss": 0.6971662640571594,
      "eval_runtime": 47.4193,
      "eval_samples_per_second": 4.218,
      "eval_steps_per_second": 0.274,
      "step": 177
    },
    {
      "epoch": 5.5625,
      "grad_norm": 0.45352543205020696,
      "learning_rate": 2e-05,
      "loss": 0.7421,
      "step": 178
    },
    {
      "epoch": 5.5625,
      "eval_loss": 0.6962605118751526,
      "eval_runtime": 47.3798,
      "eval_samples_per_second": 4.221,
      "eval_steps_per_second": 0.274,
      "step": 178
    },
    {
      "epoch": 5.59375,
      "grad_norm": 0.5054883443109318,
      "learning_rate": 2e-05,
      "loss": 0.6668,
      "step": 179
    },
    {
      "epoch": 5.59375,
      "eval_loss": 0.6970357298851013,
      "eval_runtime": 47.3311,
      "eval_samples_per_second": 4.226,
      "eval_steps_per_second": 0.275,
      "step": 179
    },
    {
      "epoch": 5.625,
      "grad_norm": 0.49584660418833293,
      "learning_rate": 2e-05,
      "loss": 0.6548,
      "step": 180
    },
    {
      "epoch": 5.625,
      "eval_loss": 0.6980059146881104,
      "eval_runtime": 47.299,
      "eval_samples_per_second": 4.228,
      "eval_steps_per_second": 0.275,
      "step": 180
    },
    {
      "epoch": 5.65625,
      "grad_norm": 0.5114381326491793,
      "learning_rate": 2e-05,
      "loss": 0.6691,
      "step": 181
    },
    {
      "epoch": 5.65625,
      "eval_loss": 0.6995040774345398,
      "eval_runtime": 47.3887,
      "eval_samples_per_second": 4.22,
      "eval_steps_per_second": 0.274,
      "step": 181
    },
    {
      "epoch": 5.6875,
      "grad_norm": 0.48550125668870825,
      "learning_rate": 2e-05,
      "loss": 0.6525,
      "step": 182
    },
    {
      "epoch": 5.6875,
      "eval_loss": 0.7020326256752014,
      "eval_runtime": 47.3838,
      "eval_samples_per_second": 4.221,
      "eval_steps_per_second": 0.274,
      "step": 182
    },
    {
      "epoch": 5.71875,
      "grad_norm": 0.5860847796671736,
      "learning_rate": 2e-05,
      "loss": 0.674,
      "step": 183
    },
    {
      "epoch": 5.71875,
      "eval_loss": 0.7027825713157654,
      "eval_runtime": 47.3875,
      "eval_samples_per_second": 4.221,
      "eval_steps_per_second": 0.274,
      "step": 183
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.5535582209035479,
      "learning_rate": 2e-05,
      "loss": 0.6643,
      "step": 184
    },
    {
      "epoch": 5.75,
      "eval_loss": 0.7025408148765564,
      "eval_runtime": 47.5534,
      "eval_samples_per_second": 4.206,
      "eval_steps_per_second": 0.273,
      "step": 184
    },
    {
      "epoch": 5.78125,
      "grad_norm": 0.5443574176405931,
      "learning_rate": 2e-05,
      "loss": 0.709,
      "step": 185
    },
    {
      "epoch": 5.78125,
      "eval_loss": 0.7007840871810913,
      "eval_runtime": 47.4469,
      "eval_samples_per_second": 4.215,
      "eval_steps_per_second": 0.274,
      "step": 185
    },
    {
      "epoch": 5.8125,
      "grad_norm": 0.563830259704143,
      "learning_rate": 2e-05,
      "loss": 0.6884,
      "step": 186
    },
    {
      "epoch": 5.8125,
      "eval_loss": 0.6979361176490784,
      "eval_runtime": 49.1203,
      "eval_samples_per_second": 4.072,
      "eval_steps_per_second": 0.265,
      "step": 186
    },
    {
      "epoch": 5.84375,
      "grad_norm": 0.5094956892765212,
      "learning_rate": 2e-05,
      "loss": 0.7318,
      "step": 187
    },
    {
      "epoch": 5.84375,
      "eval_loss": 0.6962587237358093,
      "eval_runtime": 49.1831,
      "eval_samples_per_second": 4.066,
      "eval_steps_per_second": 0.264,
      "step": 187
    },
    {
      "epoch": 5.875,
      "grad_norm": 0.5264819980742595,
      "learning_rate": 2e-05,
      "loss": 0.6746,
      "step": 188
    },
    {
      "epoch": 5.875,
      "eval_loss": 0.694776713848114,
      "eval_runtime": 49.1994,
      "eval_samples_per_second": 4.065,
      "eval_steps_per_second": 0.264,
      "step": 188
    },
    {
      "epoch": 5.90625,
      "grad_norm": 0.4737429304023209,
      "learning_rate": 2e-05,
      "loss": 0.664,
      "step": 189
    },
    {
      "epoch": 5.90625,
      "eval_loss": 0.6939517855644226,
      "eval_runtime": 49.2438,
      "eval_samples_per_second": 4.061,
      "eval_steps_per_second": 0.264,
      "step": 189
    },
    {
      "epoch": 5.9375,
      "grad_norm": 0.494163934813738,
      "learning_rate": 2e-05,
      "loss": 0.6978,
      "step": 190
    },
    {
      "epoch": 5.9375,
      "eval_loss": 0.6933834552764893,
      "eval_runtime": 49.3494,
      "eval_samples_per_second": 4.053,
      "eval_steps_per_second": 0.263,
      "step": 190
    },
    {
      "epoch": 5.96875,
      "grad_norm": 0.4945972278087299,
      "learning_rate": 2e-05,
      "loss": 0.6909,
      "step": 191
    },
    {
      "epoch": 5.96875,
      "eval_loss": 0.6924250721931458,
      "eval_runtime": 50.3255,
      "eval_samples_per_second": 3.974,
      "eval_steps_per_second": 0.258,
      "step": 191
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.48872556688745233,
      "learning_rate": 2e-05,
      "loss": 0.6622,
      "step": 192
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.6922193765640259,
      "eval_runtime": 50.4561,
      "eval_samples_per_second": 3.964,
      "eval_steps_per_second": 0.258,
      "step": 192
    },
    {
      "epoch": 6.03125,
      "grad_norm": 0.5013452255378538,
      "learning_rate": 2e-05,
      "loss": 0.7458,
      "step": 193
    },
    {
      "epoch": 6.03125,
      "eval_loss": 0.6931161284446716,
      "eval_runtime": 50.5049,
      "eval_samples_per_second": 3.96,
      "eval_steps_per_second": 0.257,
      "step": 193
    },
    {
      "epoch": 6.0625,
      "grad_norm": 0.48271161232093784,
      "learning_rate": 2e-05,
      "loss": 0.7171,
      "step": 194
    },
    {
      "epoch": 6.0625,
      "eval_loss": 0.6959040760993958,
      "eval_runtime": 50.2441,
      "eval_samples_per_second": 3.981,
      "eval_steps_per_second": 0.259,
      "step": 194
    },
    {
      "epoch": 6.09375,
      "grad_norm": 0.5414562703154852,
      "learning_rate": 2e-05,
      "loss": 0.6419,
      "step": 195
    },
    {
      "epoch": 6.09375,
      "eval_loss": 0.7000604271888733,
      "eval_runtime": 50.4261,
      "eval_samples_per_second": 3.966,
      "eval_steps_per_second": 0.258,
      "step": 195
    },
    {
      "epoch": 6.125,
      "grad_norm": 0.5074661247335385,
      "learning_rate": 2e-05,
      "loss": 0.6881,
      "step": 196
    },
    {
      "epoch": 6.125,
      "eval_loss": 0.7039622664451599,
      "eval_runtime": 51.5214,
      "eval_samples_per_second": 3.882,
      "eval_steps_per_second": 0.252,
      "step": 196
    },
    {
      "epoch": 6.15625,
      "grad_norm": 0.5603468534764365,
      "learning_rate": 2e-05,
      "loss": 0.7085,
      "step": 197
    },
    {
      "epoch": 6.15625,
      "eval_loss": 0.7055023312568665,
      "eval_runtime": 51.7102,
      "eval_samples_per_second": 3.868,
      "eval_steps_per_second": 0.251,
      "step": 197
    },
    {
      "epoch": 6.1875,
      "grad_norm": 0.5992190802422799,
      "learning_rate": 2e-05,
      "loss": 0.7614,
      "step": 198
    },
    {
      "epoch": 6.1875,
      "eval_loss": 0.7046856880187988,
      "eval_runtime": 51.5464,
      "eval_samples_per_second": 3.88,
      "eval_steps_per_second": 0.252,
      "step": 198
    },
    {
      "epoch": 6.21875,
      "grad_norm": 0.6293684167527106,
      "learning_rate": 2e-05,
      "loss": 0.6435,
      "step": 199
    },
    {
      "epoch": 6.21875,
      "eval_loss": 0.7021151781082153,
      "eval_runtime": 51.5328,
      "eval_samples_per_second": 3.881,
      "eval_steps_per_second": 0.252,
      "step": 199
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.591265449241434,
      "learning_rate": 2e-05,
      "loss": 0.688,
      "step": 200
    },
    {
      "epoch": 6.25,
      "eval_loss": 0.7002359628677368,
      "eval_runtime": 51.5812,
      "eval_samples_per_second": 3.877,
      "eval_steps_per_second": 0.252,
      "step": 200
    },
    {
      "epoch": 6.28125,
      "grad_norm": 0.543141536526749,
      "learning_rate": 2e-05,
      "loss": 0.7027,
      "step": 201
    },
    {
      "epoch": 6.28125,
      "eval_loss": 0.6986366510391235,
      "eval_runtime": 52.6956,
      "eval_samples_per_second": 3.795,
      "eval_steps_per_second": 0.247,
      "step": 201
    },
    {
      "epoch": 6.3125,
      "grad_norm": 0.5679656300203245,
      "learning_rate": 2e-05,
      "loss": 0.625,
      "step": 202
    },
    {
      "epoch": 6.3125,
      "eval_loss": 0.698679506778717,
      "eval_runtime": 52.5102,
      "eval_samples_per_second": 3.809,
      "eval_steps_per_second": 0.248,
      "step": 202
    },
    {
      "epoch": 6.34375,
      "grad_norm": 0.5285839896523021,
      "learning_rate": 2e-05,
      "loss": 0.7687,
      "step": 203
    },
    {
      "epoch": 6.34375,
      "eval_loss": 0.7005956768989563,
      "eval_runtime": 52.6067,
      "eval_samples_per_second": 3.802,
      "eval_steps_per_second": 0.247,
      "step": 203
    },
    {
      "epoch": 6.375,
      "grad_norm": 0.6512964945211068,
      "learning_rate": 2e-05,
      "loss": 0.623,
      "step": 204
    },
    {
      "epoch": 6.375,
      "eval_loss": 0.7013595104217529,
      "eval_runtime": 52.5428,
      "eval_samples_per_second": 3.806,
      "eval_steps_per_second": 0.247,
      "step": 204
    },
    {
      "epoch": 6.40625,
      "grad_norm": 0.5295248631519638,
      "learning_rate": 2e-05,
      "loss": 0.5941,
      "step": 205
    },
    {
      "epoch": 6.40625,
      "eval_loss": 0.7016547322273254,
      "eval_runtime": 52.6142,
      "eval_samples_per_second": 3.801,
      "eval_steps_per_second": 0.247,
      "step": 205
    },
    {
      "epoch": 6.4375,
      "grad_norm": 0.6134157701434021,
      "learning_rate": 2e-05,
      "loss": 0.6506,
      "step": 206
    },
    {
      "epoch": 6.4375,
      "eval_loss": 0.7009623646736145,
      "eval_runtime": 52.1942,
      "eval_samples_per_second": 3.832,
      "eval_steps_per_second": 0.249,
      "step": 206
    },
    {
      "epoch": 6.46875,
      "grad_norm": 0.57886797614996,
      "learning_rate": 2e-05,
      "loss": 0.6983,
      "step": 207
    },
    {
      "epoch": 6.46875,
      "eval_loss": 0.6988092064857483,
      "eval_runtime": 52.2577,
      "eval_samples_per_second": 3.827,
      "eval_steps_per_second": 0.249,
      "step": 207
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.5593482836944472,
      "learning_rate": 2e-05,
      "loss": 0.6348,
      "step": 208
    },
    {
      "epoch": 6.5,
      "eval_loss": 0.698823094367981,
      "eval_runtime": 52.2296,
      "eval_samples_per_second": 3.829,
      "eval_steps_per_second": 0.249,
      "step": 208
    },
    {
      "epoch": 6.53125,
      "grad_norm": 0.662802162179718,
      "learning_rate": 2e-05,
      "loss": 0.6206,
      "step": 209
    },
    {
      "epoch": 6.53125,
      "eval_loss": 0.6990167498588562,
      "eval_runtime": 52.4316,
      "eval_samples_per_second": 3.814,
      "eval_steps_per_second": 0.248,
      "step": 209
    },
    {
      "epoch": 6.5625,
      "grad_norm": 0.6874374231122908,
      "learning_rate": 2e-05,
      "loss": 0.6033,
      "step": 210
    },
    {
      "epoch": 6.5625,
      "eval_loss": 0.699796736240387,
      "eval_runtime": 52.3193,
      "eval_samples_per_second": 3.823,
      "eval_steps_per_second": 0.248,
      "step": 210
    },
    {
      "epoch": 6.59375,
      "grad_norm": 0.6625766736772473,
      "learning_rate": 2e-05,
      "loss": 0.6398,
      "step": 211
    },
    {
      "epoch": 6.59375,
      "eval_loss": 0.6989737153053284,
      "eval_runtime": 52.1885,
      "eval_samples_per_second": 3.832,
      "eval_steps_per_second": 0.249,
      "step": 211
    },
    {
      "epoch": 6.625,
      "grad_norm": 0.6563419096027812,
      "learning_rate": 2e-05,
      "loss": 0.6119,
      "step": 212
    },
    {
      "epoch": 6.625,
      "eval_loss": 0.6973609924316406,
      "eval_runtime": 52.1628,
      "eval_samples_per_second": 3.834,
      "eval_steps_per_second": 0.249,
      "step": 212
    },
    {
      "epoch": 6.65625,
      "grad_norm": 0.5796353226697397,
      "learning_rate": 2e-05,
      "loss": 0.7041,
      "step": 213
    },
    {
      "epoch": 6.65625,
      "eval_loss": 0.6957942247390747,
      "eval_runtime": 52.2028,
      "eval_samples_per_second": 3.831,
      "eval_steps_per_second": 0.249,
      "step": 213
    },
    {
      "epoch": 6.6875,
      "grad_norm": 0.5711947110504899,
      "learning_rate": 2e-05,
      "loss": 0.6465,
      "step": 214
    },
    {
      "epoch": 6.6875,
      "eval_loss": 0.696739673614502,
      "eval_runtime": 52.1849,
      "eval_samples_per_second": 3.833,
      "eval_steps_per_second": 0.249,
      "step": 214
    },
    {
      "epoch": 6.71875,
      "grad_norm": 0.6619502413653232,
      "learning_rate": 2e-05,
      "loss": 0.6563,
      "step": 215
    },
    {
      "epoch": 6.71875,
      "eval_loss": 0.6960940361022949,
      "eval_runtime": 52.0996,
      "eval_samples_per_second": 3.839,
      "eval_steps_per_second": 0.25,
      "step": 215
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.6587126256919645,
      "learning_rate": 2e-05,
      "loss": 0.6505,
      "step": 216
    },
    {
      "epoch": 6.75,
      "eval_loss": 0.6959022283554077,
      "eval_runtime": 52.1062,
      "eval_samples_per_second": 3.838,
      "eval_steps_per_second": 0.249,
      "step": 216
    },
    {
      "epoch": 6.78125,
      "grad_norm": 0.648164277941964,
      "learning_rate": 2e-05,
      "loss": 0.5969,
      "step": 217
    },
    {
      "epoch": 6.78125,
      "eval_loss": 0.6999121308326721,
      "eval_runtime": 51.9356,
      "eval_samples_per_second": 3.851,
      "eval_steps_per_second": 0.25,
      "step": 217
    },
    {
      "epoch": 6.8125,
      "grad_norm": 0.6595860789738482,
      "learning_rate": 2e-05,
      "loss": 0.5945,
      "step": 218
    },
    {
      "epoch": 6.8125,
      "eval_loss": 0.7028067111968994,
      "eval_runtime": 52.2232,
      "eval_samples_per_second": 3.83,
      "eval_steps_per_second": 0.249,
      "step": 218
    },
    {
      "epoch": 6.84375,
      "grad_norm": 0.7116894779822719,
      "learning_rate": 2e-05,
      "loss": 0.7027,
      "step": 219
    },
    {
      "epoch": 6.84375,
      "eval_loss": 0.7035638689994812,
      "eval_runtime": 52.1471,
      "eval_samples_per_second": 3.835,
      "eval_steps_per_second": 0.249,
      "step": 219
    },
    {
      "epoch": 6.875,
      "grad_norm": 0.7581142336087988,
      "learning_rate": 2e-05,
      "loss": 0.7171,
      "step": 220
    },
    {
      "epoch": 6.875,
      "eval_loss": 0.6981176733970642,
      "eval_runtime": 52.1366,
      "eval_samples_per_second": 3.836,
      "eval_steps_per_second": 0.249,
      "step": 220
    },
    {
      "epoch": 6.90625,
      "grad_norm": 0.6261292745909233,
      "learning_rate": 2e-05,
      "loss": 0.658,
      "step": 221
    },
    {
      "epoch": 6.90625,
      "eval_loss": 0.6939045786857605,
      "eval_runtime": 52.2211,
      "eval_samples_per_second": 3.83,
      "eval_steps_per_second": 0.249,
      "step": 221
    },
    {
      "epoch": 6.9375,
      "grad_norm": 0.7256427809370966,
      "learning_rate": 2e-05,
      "loss": 0.6576,
      "step": 222
    },
    {
      "epoch": 6.9375,
      "eval_loss": 0.6904327273368835,
      "eval_runtime": 52.1829,
      "eval_samples_per_second": 3.833,
      "eval_steps_per_second": 0.249,
      "step": 222
    },
    {
      "epoch": 6.96875,
      "grad_norm": 0.6653711103404113,
      "learning_rate": 2e-05,
      "loss": 0.6938,
      "step": 223
    },
    {
      "epoch": 6.96875,
      "eval_loss": 0.6893274188041687,
      "eval_runtime": 51.899,
      "eval_samples_per_second": 3.854,
      "eval_steps_per_second": 0.25,
      "step": 223
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.6730688267524797,
      "learning_rate": 2e-05,
      "loss": 0.7397,
      "step": 224
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.6895740032196045,
      "eval_runtime": 52.1977,
      "eval_samples_per_second": 3.832,
      "eval_steps_per_second": 0.249,
      "step": 224
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 224,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 7,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 322567586447360.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}