{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.016516516516516516,
  "eval_steps": 1,
  "global_step": 341,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.8435532306500046e-05,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 1
    },
    {
      "epoch": 4.8435532306500046e-05,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 276.4656,
      "eval_samples_per_second": 122.138,
      "eval_steps_per_second": 3.82,
      "step": 1
    },
    {
      "epoch": 9.687106461300009e-05,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 2
    },
    {
      "epoch": 9.687106461300009e-05,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.1935,
      "eval_samples_per_second": 122.703,
      "eval_steps_per_second": 3.837,
      "step": 2
    },
    {
      "epoch": 0.00014530659691950015,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 3
    },
    {
      "epoch": 0.00014530659691950015,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.13,
      "eval_samples_per_second": 122.731,
      "eval_steps_per_second": 3.838,
      "step": 3
    },
    {
      "epoch": 0.00019374212922600018,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 4
    },
    {
      "epoch": 0.00019374212922600018,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 276.2699,
      "eval_samples_per_second": 122.225,
      "eval_steps_per_second": 3.822,
      "step": 4
    },
    {
      "epoch": 0.00024217766153250024,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.9062,
      "step": 5
    },
    {
      "epoch": 0.00024217766153250024,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 274.7331,
      "eval_samples_per_second": 122.908,
      "eval_steps_per_second": 3.844,
      "step": 5
    },
    {
      "epoch": 0.0002906131938390003,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 6
    },
    {
      "epoch": 0.0002906131938390003,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.5447,
      "eval_samples_per_second": 122.546,
      "eval_steps_per_second": 3.832,
      "step": 6
    },
    {
      "epoch": 0.00033904872614550033,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.9062,
      "step": 7
    },
    {
      "epoch": 0.00033904872614550033,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.1675,
      "eval_samples_per_second": 122.714,
      "eval_steps_per_second": 3.838,
      "step": 7
    },
    {
      "epoch": 0.00038748425845200037,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.9062,
      "step": 8
    },
    {
      "epoch": 0.00038748425845200037,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.5655,
      "eval_samples_per_second": 122.537,
      "eval_steps_per_second": 3.832,
      "step": 8
    },
    {
      "epoch": 0.00043591979075850045,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.9062,
      "step": 9
    },
    {
      "epoch": 0.00043591979075850045,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 273.3419,
      "eval_samples_per_second": 123.534,
      "eval_steps_per_second": 3.863,
      "step": 9
    },
    {
      "epoch": 0.0004843553230650005,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 10
    },
    {
      "epoch": 0.0004843553230650005,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.1369,
      "eval_samples_per_second": 122.728,
      "eval_steps_per_second": 3.838,
      "step": 10
    },
    {
      "epoch": 0.0005327908553715005,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 11
    },
    {
      "epoch": 0.0005327908553715005,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 274.4663,
      "eval_samples_per_second": 123.028,
      "eval_steps_per_second": 3.847,
      "step": 11
    },
    {
      "epoch": 0.0005812263876780006,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 12
    },
    {
      "epoch": 0.0005812263876780006,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 273.8795,
      "eval_samples_per_second": 123.291,
      "eval_steps_per_second": 3.856,
      "step": 12
    },
    {
      "epoch": 0.0006296619199845006,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 13
    },
    {
      "epoch": 0.0006296619199845006,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 273.17,
      "eval_samples_per_second": 123.612,
      "eval_steps_per_second": 3.866,
      "step": 13
    },
    {
      "epoch": 0.0006780974522910007,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.9062,
      "step": 14
    },
    {
      "epoch": 0.0006780974522910007,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 274.4591,
      "eval_samples_per_second": 123.031,
      "eval_steps_per_second": 3.848,
      "step": 14
    },
    {
      "epoch": 0.0007265329845975008,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 15
    },
    {
      "epoch": 0.0007265329845975008,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 275.1413,
      "eval_samples_per_second": 122.726,
      "eval_steps_per_second": 3.838,
      "step": 15
    },
    {
      "epoch": 0.0007749685169040007,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.8984,
      "step": 16
    },
    {
      "epoch": 0.0007749685169040007,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 276.8384,
      "eval_samples_per_second": 121.974,
      "eval_steps_per_second": 3.814,
      "step": 16
    },
    {
      "epoch": 0.0008234040492105008,
      "grad_norm": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.9062,
      "step": 17
    },
    {
      "epoch": 0.0008234040492105008,
      "eval_accuracy": 0.0001320069300164392,
      "eval_loss": 10.90625,
      "eval_runtime": 273.566,
      "eval_samples_per_second": 123.433,
      "eval_steps_per_second": 3.86,
      "step": 17
    },
    {
      "epoch": 0.0008718395815170009,
      "grad_norm": 6.863816738128662,
      "learning_rate": 9.99999515644677e-06,
      "loss": 10.9062,
      "step": 18
    },
    {
      "epoch": 0.0008718395815170009,
      "eval_accuracy": 0.010980023790775268,
      "eval_loss": 10.7578125,
      "eval_runtime": 273.6742,
      "eval_samples_per_second": 123.384,
      "eval_steps_per_second": 3.859,
      "step": 18
    },
    {
      "epoch": 0.0009202751138235009,
      "grad_norm": 6.298513889312744,
      "learning_rate": 9.999990312893539e-06,
      "loss": 10.7734,
      "step": 19
    },
    {
      "epoch": 0.0009202751138235009,
      "eval_accuracy": 0.028515349612393204,
      "eval_loss": 10.65625,
      "eval_runtime": 273.1376,
      "eval_samples_per_second": 123.626,
      "eval_steps_per_second": 3.866,
      "step": 19
    },
    {
      "epoch": 0.000968710646130001,
      "grad_norm": 5.340964317321777,
      "learning_rate": 9.999985469340309e-06,
      "loss": 10.6797,
      "step": 20
    },
    {
      "epoch": 0.000968710646130001,
      "eval_accuracy": 0.04691063110573666,
      "eval_loss": 10.578125,
      "eval_runtime": 273.0387,
      "eval_samples_per_second": 123.671,
      "eval_steps_per_second": 3.868,
      "step": 20
    },
    {
      "epoch": 0.001017146178436501,
      "grad_norm": 4.327230930328369,
      "learning_rate": 9.999980625787079e-06,
      "loss": 10.6016,
      "step": 21
    },
    {
      "epoch": 0.001017146178436501,
      "eval_accuracy": 0.04854858814680248,
      "eval_loss": 10.5234375,
      "eval_runtime": 272.9282,
      "eval_samples_per_second": 123.721,
      "eval_steps_per_second": 3.869,
      "step": 21
    },
    {
      "epoch": 0.001065581710743001,
      "grad_norm": 3.803434133529663,
      "learning_rate": 9.999975782233847e-06,
      "loss": 10.5234,
      "step": 22
    },
    {
      "epoch": 0.001065581710743001,
      "eval_accuracy": 0.04776647603534324,
      "eval_loss": 10.4765625,
      "eval_runtime": 272.6159,
      "eval_samples_per_second": 123.863,
      "eval_steps_per_second": 3.874,
      "step": 22
    },
    {
      "epoch": 0.001114017243049501,
      "grad_norm": 3.2490711212158203,
      "learning_rate": 9.999970938680617e-06,
      "loss": 10.5,
      "step": 23
    },
    {
      "epoch": 0.001114017243049501,
      "eval_accuracy": 0.04827195257153118,
      "eval_loss": 10.4375,
      "eval_runtime": 272.3658,
      "eval_samples_per_second": 123.977,
      "eval_steps_per_second": 3.877,
      "step": 23
    },
    {
      "epoch": 0.0011624527753560012,
      "grad_norm": 2.9085004329681396,
      "learning_rate": 9.999966095127386e-06,
      "loss": 10.4531,
      "step": 24
    },
    {
      "epoch": 0.0011624527753560012,
      "eval_accuracy": 0.05073292650302844,
      "eval_loss": 10.40625,
      "eval_runtime": 272.851,
      "eval_samples_per_second": 123.756,
      "eval_steps_per_second": 3.87,
      "step": 24
    },
    {
      "epoch": 0.0012108883076625012,
      "grad_norm": 2.668471574783325,
      "learning_rate": 9.999961251574155e-06,
      "loss": 10.4141,
      "step": 25
    },
    {
      "epoch": 0.0012108883076625012,
      "eval_accuracy": 0.05310853016333744,
      "eval_loss": 10.3828125,
      "eval_runtime": 272.4493,
      "eval_samples_per_second": 123.939,
      "eval_steps_per_second": 3.876,
      "step": 25
    },
    {
      "epoch": 0.0012593238399690012,
      "grad_norm": 2.864935874938965,
      "learning_rate": 9.999956408020926e-06,
      "loss": 10.3672,
      "step": 26
    },
    {
      "epoch": 0.0012593238399690012,
      "eval_accuracy": 0.0555671013371173,
      "eval_loss": 10.359375,
      "eval_runtime": 273.3963,
      "eval_samples_per_second": 123.509,
      "eval_steps_per_second": 3.863,
      "step": 26
    },
    {
      "epoch": 0.0013077593722755014,
      "grad_norm": 2.2354369163513184,
      "learning_rate": 9.999951564467694e-06,
      "loss": 10.3828,
      "step": 27
    },
    {
      "epoch": 0.0013077593722755014,
      "eval_accuracy": 0.05616663281094196,
      "eval_loss": 10.3359375,
      "eval_runtime": 272.6273,
      "eval_samples_per_second": 123.858,
      "eval_steps_per_second": 3.873,
      "step": 27
    },
    {
      "epoch": 0.0013561949045820013,
      "grad_norm": 2.1477534770965576,
      "learning_rate": 9.999946720914464e-06,
      "loss": 10.3594,
      "step": 28
    },
    {
      "epoch": 0.0013561949045820013,
      "eval_accuracy": 0.05624939768219569,
      "eval_loss": 10.3203125,
      "eval_runtime": 273.0918,
      "eval_samples_per_second": 123.647,
      "eval_steps_per_second": 3.867,
      "step": 28
    },
    {
      "epoch": 0.0014046304368885013,
      "grad_norm": 2.097315549850464,
      "learning_rate": 9.999941877361234e-06,
      "loss": 10.3281,
      "step": 29
    },
    {
      "epoch": 0.0014046304368885013,
      "eval_accuracy": 0.055895844911079295,
      "eval_loss": 10.3046875,
      "eval_runtime": 273.0626,
      "eval_samples_per_second": 123.66,
      "eval_steps_per_second": 3.867,
      "step": 29
    },
    {
      "epoch": 0.0014530659691950015,
      "grad_norm": 1.8777693510055542,
      "learning_rate": 9.999937033808002e-06,
      "loss": 10.3203,
      "step": 30
    },
    {
      "epoch": 0.0014530659691950015,
      "eval_accuracy": 0.0563090902895847,
      "eval_loss": 10.296875,
      "eval_runtime": 272.1369,
      "eval_samples_per_second": 124.081,
      "eval_steps_per_second": 3.88,
      "step": 30
    },
    {
      "epoch": 0.0015015015015015015,
      "grad_norm": 1.8313064575195312,
      "learning_rate": 9.999932190254772e-06,
      "loss": 10.3281,
      "step": 31
    },
    {
      "epoch": 0.0015015015015015015,
      "eval_accuracy": 0.05664084454791549,
      "eval_loss": 10.28125,
      "eval_runtime": 272.0928,
      "eval_samples_per_second": 124.101,
      "eval_steps_per_second": 3.881,
      "step": 31
    },
    {
      "epoch": 0.0015499370338080015,
      "grad_norm": 1.7771973609924316,
      "learning_rate": 9.999927346701542e-06,
      "loss": 10.3359,
      "step": 32
    },
    {
      "epoch": 0.0015499370338080015,
      "eval_accuracy": 0.05662431473277527,
      "eval_loss": 10.2734375,
      "eval_runtime": 272.172,
      "eval_samples_per_second": 124.065,
      "eval_steps_per_second": 3.88,
      "step": 32
    },
    {
      "epoch": 0.0015983725661145017,
      "grad_norm": 1.8934669494628906,
      "learning_rate": 9.99992250314831e-06,
      "loss": 10.2656,
      "step": 33
    },
    {
      "epoch": 0.0015983725661145017,
      "eval_accuracy": 0.057003458321026435,
      "eval_loss": 10.265625,
      "eval_runtime": 271.9989,
      "eval_samples_per_second": 124.144,
      "eval_steps_per_second": 3.882,
      "step": 33
    },
    {
      "epoch": 0.0016468080984210016,
      "grad_norm": 1.789952039718628,
      "learning_rate": 9.99991765959508e-06,
      "loss": 10.2656,
      "step": 34
    },
    {
      "epoch": 0.0016468080984210016,
      "eval_accuracy": 0.056085286435208145,
      "eval_loss": 10.2578125,
      "eval_runtime": 272.24,
      "eval_samples_per_second": 124.034,
      "eval_steps_per_second": 3.879,
      "step": 34
    },
    {
      "epoch": 0.0016952436307275016,
      "grad_norm": 1.7584354877471924,
      "learning_rate": 9.99991281604185e-06,
      "loss": 10.2656,
      "step": 35
    },
    {
      "epoch": 0.0016952436307275016,
      "eval_accuracy": 0.056159366640013426,
      "eval_loss": 10.2421875,
      "eval_runtime": 272.3595,
      "eval_samples_per_second": 123.98,
      "eval_steps_per_second": 3.877,
      "step": 35
    },
    {
      "epoch": 0.0017436791630340018,
      "grad_norm": 1.7618820667266846,
      "learning_rate": 9.999907972488618e-06,
      "loss": 10.2656,
      "step": 36
    },
    {
      "epoch": 0.0017436791630340018,
      "eval_accuracy": 0.057521267083571186,
      "eval_loss": 10.234375,
      "eval_runtime": 272.7034,
      "eval_samples_per_second": 123.823,
      "eval_steps_per_second": 3.872,
      "step": 36
    },
    {
      "epoch": 0.0017921146953405018,
      "grad_norm": 1.6511751413345337,
      "learning_rate": 9.999903128935388e-06,
      "loss": 10.2656,
      "step": 37
    },
    {
      "epoch": 0.0017921146953405018,
      "eval_accuracy": 0.05863849152438795,
      "eval_loss": 10.2265625,
      "eval_runtime": 273.7952,
      "eval_samples_per_second": 123.329,
      "eval_steps_per_second": 3.857,
      "step": 37
    },
    {
      "epoch": 0.0018405502276470018,
      "grad_norm": 1.8650130033493042,
      "learning_rate": 9.999898285382156e-06,
      "loss": 10.2109,
      "step": 38
    },
    {
      "epoch": 0.0018405502276470018,
      "eval_accuracy": 0.059270706292946944,
      "eval_loss": 10.21875,
      "eval_runtime": 274.2569,
      "eval_samples_per_second": 123.122,
      "eval_steps_per_second": 3.85,
      "step": 38
    },
    {
      "epoch": 0.001888985759953502,
      "grad_norm": 1.7996951341629028,
      "learning_rate": 9.999893441828926e-06,
      "loss": 10.2656,
      "step": 39
    },
    {
      "epoch": 0.001888985759953502,
      "eval_accuracy": 0.05958891247161815,
      "eval_loss": 10.2109375,
      "eval_runtime": 274.6294,
      "eval_samples_per_second": 122.955,
      "eval_steps_per_second": 3.845,
      "step": 39
    },
    {
      "epoch": 0.001937421292260002,
      "grad_norm": 1.7773430347442627,
      "learning_rate": 9.999888598275696e-06,
      "loss": 10.2266,
      "step": 40
    },
    {
      "epoch": 0.001937421292260002,
      "eval_accuracy": 0.05994316001605042,
      "eval_loss": 10.203125,
      "eval_runtime": 273.9324,
      "eval_samples_per_second": 123.268,
      "eval_steps_per_second": 3.855,
      "step": 40
    },
    {
      "epoch": 0.001985856824566502,
      "grad_norm": 1.7419933080673218,
      "learning_rate": 9.999883754722464e-06,
      "loss": 10.2109,
      "step": 41
    },
    {
      "epoch": 0.001985856824566502,
      "eval_accuracy": 0.06009832605659606,
      "eval_loss": 10.1953125,
      "eval_runtime": 274.4948,
      "eval_samples_per_second": 123.015,
      "eval_steps_per_second": 3.847,
      "step": 41
    },
    {
      "epoch": 0.002034292356873002,
      "grad_norm": 1.7278474569320679,
      "learning_rate": 9.999878911169234e-06,
      "loss": 10.2109,
      "step": 42
    },
    {
      "epoch": 0.002034292356873002,
      "eval_accuracy": 0.060353828943509456,
      "eval_loss": 10.1796875,
      "eval_runtime": 275.0795,
      "eval_samples_per_second": 122.754,
      "eval_steps_per_second": 3.839,
      "step": 42
    },
    {
      "epoch": 0.002082727889179502,
      "grad_norm": 1.8463383913040161,
      "learning_rate": 9.999874067616004e-06,
      "loss": 10.2109,
      "step": 43
    },
    {
      "epoch": 0.002082727889179502,
      "eval_accuracy": 0.060806444809914505,
      "eval_loss": 10.171875,
      "eval_runtime": 275.6513,
      "eval_samples_per_second": 122.499,
      "eval_steps_per_second": 3.831,
      "step": 43
    },
    {
      "epoch": 0.002131163421486002,
      "grad_norm": 1.8434734344482422,
      "learning_rate": 9.999869224062774e-06,
      "loss": 10.1484,
      "step": 44
    },
    {
      "epoch": 0.002131163421486002,
      "eval_accuracy": 0.061002660373873155,
      "eval_loss": 10.1640625,
      "eval_runtime": 275.2495,
      "eval_samples_per_second": 122.678,
      "eval_steps_per_second": 3.837,
      "step": 44
    },
    {
      "epoch": 0.002179598953792502,
      "grad_norm": 1.8196474313735962,
      "learning_rate": 9.999864380509543e-06,
      "loss": 10.1875,
      "step": 45
    },
    {
      "epoch": 0.002179598953792502,
      "eval_accuracy": 0.061108642253432405,
      "eval_loss": 10.1484375,
      "eval_runtime": 275.2499,
      "eval_samples_per_second": 122.678,
      "eval_steps_per_second": 3.837,
      "step": 45
    },
    {
      "epoch": 0.002228034486099002,
      "grad_norm": 1.7358877658843994,
      "learning_rate": 9.999859536956312e-06,
      "loss": 10.1719,
      "step": 46
    },
    {
      "epoch": 0.002228034486099002,
      "eval_accuracy": 0.061226840563795806,
      "eval_loss": 10.140625,
      "eval_runtime": 273.2604,
      "eval_samples_per_second": 123.571,
      "eval_steps_per_second": 3.864,
      "step": 46
    },
    {
      "epoch": 0.0022764700184055024,
      "grad_norm": 1.7613184452056885,
      "learning_rate": 9.999854693403081e-06,
      "loss": 10.1484,
      "step": 47
    },
    {
      "epoch": 0.0022764700184055024,
      "eval_accuracy": 0.06154533623134863,
      "eval_loss": 10.1328125,
      "eval_runtime": 274.8774,
      "eval_samples_per_second": 122.844,
      "eval_steps_per_second": 3.842,
      "step": 47
    },
    {
      "epoch": 0.0023249055507120024,
      "grad_norm": 1.926283597946167,
      "learning_rate": 9.999849849849851e-06,
      "loss": 10.1172,
      "step": 48
    },
    {
      "epoch": 0.0023249055507120024,
      "eval_accuracy": 0.062220076916616865,
      "eval_loss": 10.1171875,
      "eval_runtime": 275.5341,
      "eval_samples_per_second": 122.551,
      "eval_steps_per_second": 3.833,
      "step": 48
    },
    {
      "epoch": 0.0023733410830185024,
      "grad_norm": 1.7182645797729492,
      "learning_rate": 9.99984500629662e-06,
      "loss": 10.1797,
      "step": 49
    },
    {
      "epoch": 0.0023733410830185024,
      "eval_accuracy": 0.06321505020272762,
      "eval_loss": 10.109375,
      "eval_runtime": 275.3575,
      "eval_samples_per_second": 122.63,
      "eval_steps_per_second": 3.835,
      "step": 49
    },
    {
      "epoch": 0.0024217766153250024,
      "grad_norm": 1.756512999534607,
      "learning_rate": 9.99984016274339e-06,
      "loss": 10.1016,
      "step": 50
    },
    {
      "epoch": 0.0024217766153250024,
      "eval_accuracy": 0.06421378684429936,
      "eval_loss": 10.1015625,
      "eval_runtime": 274.9451,
      "eval_samples_per_second": 122.814,
      "eval_steps_per_second": 3.841,
      "step": 50
    },
    {
      "epoch": 0.0024702121476315024,
      "grad_norm": 1.8228658437728882,
      "learning_rate": 9.99983531919016e-06,
      "loss": 10.1406,
      "step": 51
    },
    {
      "epoch": 0.0024702121476315024,
      "eval_accuracy": 0.06511247612838496,
      "eval_loss": 10.09375,
      "eval_runtime": 274.7644,
      "eval_samples_per_second": 122.894,
      "eval_steps_per_second": 3.843,
      "step": 51
    },
    {
      "epoch": 0.0025186476799380023,
      "grad_norm": 1.6864567995071411,
      "learning_rate": 9.999830475636927e-06,
      "loss": 10.1406,
      "step": 52
    },
    {
      "epoch": 0.0025186476799380023,
      "eval_accuracy": 0.0658020965421682,
      "eval_loss": 10.0859375,
      "eval_runtime": 275.2863,
      "eval_samples_per_second": 122.661,
      "eval_steps_per_second": 3.836,
      "step": 52
    },
    {
      "epoch": 0.0025670832122445027,
      "grad_norm": 1.7754981517791748,
      "learning_rate": 9.999825632083697e-06,
      "loss": 10.1094,
      "step": 53
    },
    {
      "epoch": 0.0025670832122445027,
      "eval_accuracy": 0.06627448449918756,
      "eval_loss": 10.078125,
      "eval_runtime": 274.8943,
      "eval_samples_per_second": 122.836,
      "eval_steps_per_second": 3.841,
      "step": 53
    },
    {
      "epoch": 0.0026155187445510027,
      "grad_norm": 1.7636278867721558,
      "learning_rate": 9.999820788530467e-06,
      "loss": 10.1016,
      "step": 54
    },
    {
      "epoch": 0.0026155187445510027,
      "eval_accuracy": 0.06685522814459541,
      "eval_loss": 10.0703125,
      "eval_runtime": 275.7861,
      "eval_samples_per_second": 122.439,
      "eval_steps_per_second": 3.829,
      "step": 54
    },
    {
      "epoch": 0.0026639542768575027,
      "grad_norm": 1.7524579763412476,
      "learning_rate": 9.999815944977235e-06,
      "loss": 10.0781,
      "step": 55
    },
    {
      "epoch": 0.0026639542768575027,
      "eval_accuracy": 0.06716721031231189,
      "eval_loss": 10.0625,
      "eval_runtime": 274.8867,
      "eval_samples_per_second": 122.84,
      "eval_steps_per_second": 3.842,
      "step": 55
    },
    {
      "epoch": 0.0027123898091640027,
      "grad_norm": 1.8897311687469482,
      "learning_rate": 9.999811101424005e-06,
      "loss": 10.0703,
      "step": 56
    },
    {
      "epoch": 0.0027123898091640027,
      "eval_accuracy": 0.06777936350137496,
      "eval_loss": 10.0546875,
      "eval_runtime": 276.2638,
      "eval_samples_per_second": 122.227,
      "eval_steps_per_second": 3.822,
      "step": 56
    },
    {
      "epoch": 0.0027608253414705027,
      "grad_norm": 1.7320737838745117,
      "learning_rate": 9.999806257870775e-06,
      "loss": 10.0703,
      "step": 57
    },
    {
      "epoch": 0.0027608253414705027,
      "eval_accuracy": 0.06813957451676851,
      "eval_loss": 10.046875,
      "eval_runtime": 275.4873,
      "eval_samples_per_second": 122.572,
      "eval_steps_per_second": 3.833,
      "step": 57
    },
    {
      "epoch": 0.0028092608737770026,
      "grad_norm": 1.685152530670166,
      "learning_rate": 9.999801414317543e-06,
      "loss": 10.0469,
      "step": 58
    },
    {
      "epoch": 0.0028092608737770026,
      "eval_accuracy": 0.06857357624808572,
      "eval_loss": 10.0390625,
      "eval_runtime": 275.0861,
      "eval_samples_per_second": 122.751,
      "eval_steps_per_second": 3.839,
      "step": 58
    },
    {
      "epoch": 0.002857696406083503,
      "grad_norm": 1.6026166677474976,
      "learning_rate": 9.999796570764313e-06,
      "loss": 10.1016,
      "step": 59
    },
    {
      "epoch": 0.002857696406083503,
      "eval_accuracy": 0.06889201401786221,
      "eval_loss": 10.03125,
      "eval_runtime": 273.8074,
      "eval_samples_per_second": 123.324,
      "eval_steps_per_second": 3.857,
      "step": 59
    },
    {
      "epoch": 0.002906131938390003,
      "grad_norm": 1.7406948804855347,
      "learning_rate": 9.999791727211083e-06,
      "loss": 10.0547,
      "step": 60
    },
    {
      "epoch": 0.002906131938390003,
      "eval_accuracy": 0.06942965276879759,
      "eval_loss": 10.03125,
      "eval_runtime": 274.1162,
      "eval_samples_per_second": 123.185,
      "eval_steps_per_second": 3.852,
      "step": 60
    },
    {
      "epoch": 0.002954567470696503,
      "grad_norm": 2.25240421295166,
      "learning_rate": 9.999786883657853e-06,
      "loss": 10.0391,
      "step": 61
    },
    {
      "epoch": 0.002954567470696503,
      "eval_accuracy": 0.06947052859888163,
      "eval_loss": 10.0234375,
      "eval_runtime": 274.759,
      "eval_samples_per_second": 122.897,
      "eval_steps_per_second": 3.843,
      "step": 61
    },
    {
      "epoch": 0.003003003003003003,
      "grad_norm": 1.6132714748382568,
      "learning_rate": 9.999782040104623e-06,
      "loss": 10.0547,
      "step": 62
    },
    {
      "epoch": 0.003003003003003003,
      "eval_accuracy": 0.06921656000304079,
      "eval_loss": 10.015625,
      "eval_runtime": 275.2004,
      "eval_samples_per_second": 122.7,
      "eval_steps_per_second": 3.837,
      "step": 62
    },
    {
      "epoch": 0.003051438535309503,
      "grad_norm": 1.6277832984924316,
      "learning_rate": 9.99977719655139e-06,
      "loss": 10.0312,
      "step": 63
    },
    {
      "epoch": 0.003051438535309503,
      "eval_accuracy": 0.06882297091959703,
      "eval_loss": 10.0078125,
      "eval_runtime": 274.9078,
      "eval_samples_per_second": 122.83,
      "eval_steps_per_second": 3.841,
      "step": 63
    },
    {
      "epoch": 0.003099874067616003,
      "grad_norm": 1.6769694089889526,
      "learning_rate": 9.99977235299816e-06,
      "loss": 10.0547,
      "step": 64
    },
    {
      "epoch": 0.003099874067616003,
      "eval_accuracy": 0.06873357675295433,
      "eval_loss": 10.0,
      "eval_runtime": 273.9236,
      "eval_samples_per_second": 123.272,
      "eval_steps_per_second": 3.855,
      "step": 64
    },
    {
      "epoch": 0.0031483095999225033,
      "grad_norm": 1.6080327033996582,
      "learning_rate": 9.99976750944493e-06,
      "loss": 10.0547,
      "step": 65
    },
    {
      "epoch": 0.0031483095999225033,
      "eval_accuracy": 0.06925561205317066,
      "eval_loss": 9.9921875,
      "eval_runtime": 275.0761,
      "eval_samples_per_second": 122.755,
      "eval_steps_per_second": 3.839,
      "step": 65
    },
    {
      "epoch": 0.0031967451322290033,
      "grad_norm": 1.6163508892059326,
      "learning_rate": 9.999762665891699e-06,
      "loss": 9.9922,
      "step": 66
    },
    {
      "epoch": 0.0031967451322290033,
      "eval_accuracy": 0.0697469615319358,
      "eval_loss": 9.984375,
      "eval_runtime": 273.8628,
      "eval_samples_per_second": 123.299,
      "eval_steps_per_second": 3.856,
      "step": 66
    },
    {
      "epoch": 0.0032451806645355033,
      "grad_norm": 1.625279426574707,
      "learning_rate": 9.999757822338468e-06,
      "loss": 10.0234,
      "step": 67
    },
    {
      "epoch": 0.0032451806645355033,
      "eval_accuracy": 0.0704554855696885,
      "eval_loss": 9.9765625,
      "eval_runtime": 274.3158,
      "eval_samples_per_second": 123.095,
      "eval_steps_per_second": 3.85,
      "step": 67
    },
    {
      "epoch": 0.0032936161968420033,
      "grad_norm": 1.6738680601119995,
      "learning_rate": 9.999752978785238e-06,
      "loss": 10.0,
      "step": 68
    },
    {
      "epoch": 0.0032936161968420033,
      "eval_accuracy": 0.07112654974616023,
      "eval_loss": 9.96875,
      "eval_runtime": 275.9505,
      "eval_samples_per_second": 122.366,
      "eval_steps_per_second": 3.827,
      "step": 68
    },
    {
      "epoch": 0.0033420517291485033,
      "grad_norm": 1.5247821807861328,
      "learning_rate": 9.999748135232007e-06,
      "loss": 10.0,
      "step": 69
    },
    {
      "epoch": 0.0033420517291485033,
      "eval_accuracy": 0.0715033484744703,
      "eval_loss": 9.9609375,
      "eval_runtime": 274.4182,
      "eval_samples_per_second": 123.049,
      "eval_steps_per_second": 3.848,
      "step": 69
    },
    {
      "epoch": 0.0033904872614550032,
      "grad_norm": 1.8255083560943604,
      "learning_rate": 9.999743291678776e-06,
      "loss": 9.9688,
      "step": 70
    },
    {
      "epoch": 0.0033904872614550032,
      "eval_accuracy": 0.07161468589833944,
      "eval_loss": 9.9609375,
      "eval_runtime": 274.1089,
      "eval_samples_per_second": 123.188,
      "eval_steps_per_second": 3.852,
      "step": 70
    },
    {
      "epoch": 0.0034389227937615036,
      "grad_norm": 1.845422387123108,
      "learning_rate": 9.999738448125546e-06,
      "loss": 9.9922,
      "step": 71
    },
    {
      "epoch": 0.0034389227937615036,
      "eval_accuracy": 0.07169394795412562,
      "eval_loss": 9.953125,
      "eval_runtime": 275.2085,
      "eval_samples_per_second": 122.696,
      "eval_steps_per_second": 3.837,
      "step": 71
    },
    {
      "epoch": 0.0034873583260680036,
      "grad_norm": 1.663128137588501,
      "learning_rate": 9.999733604572314e-06,
      "loss": 9.9844,
      "step": 72
    },
    {
      "epoch": 0.0034873583260680036,
      "eval_accuracy": 0.07159517434771859,
      "eval_loss": 9.9453125,
      "eval_runtime": 274.6498,
      "eval_samples_per_second": 122.946,
      "eval_steps_per_second": 3.845,
      "step": 72
    },
    {
      "epoch": 0.0035357938583745036,
      "grad_norm": 1.6756772994995117,
      "learning_rate": 9.999728761019084e-06,
      "loss": 9.9688,
      "step": 73
    },
    {
      "epoch": 0.0035357938583745036,
      "eval_accuracy": 0.07181347791334446,
      "eval_loss": 9.9375,
      "eval_runtime": 274.5733,
      "eval_samples_per_second": 122.98,
      "eval_steps_per_second": 3.846,
      "step": 73
    },
    {
      "epoch": 0.0035842293906810036,
      "grad_norm": 1.746936559677124,
      "learning_rate": 9.999723917465854e-06,
      "loss": 9.9453,
      "step": 74
    },
    {
      "epoch": 0.0035842293906810036,
      "eval_accuracy": 0.07256360150338524,
      "eval_loss": 9.9296875,
      "eval_runtime": 275.0915,
      "eval_samples_per_second": 122.748,
      "eval_steps_per_second": 3.839,
      "step": 74
    },
    {
      "epoch": 0.0036326649229875036,
      "grad_norm": 1.6043540239334106,
      "learning_rate": 9.999719073912622e-06,
      "loss": 9.9375,
      "step": 75
    },
    {
      "epoch": 0.0036326649229875036,
      "eval_accuracy": 0.07335680103901034,
      "eval_loss": 9.921875,
      "eval_runtime": 274.3328,
      "eval_samples_per_second": 123.088,
      "eval_steps_per_second": 3.849,
      "step": 75
    },
    {
      "epoch": 0.0036811004552940035,
      "grad_norm": 1.6499953269958496,
      "learning_rate": 9.999714230359392e-06,
      "loss": 9.9141,
      "step": 76
    },
    {
      "epoch": 0.0036811004552940035,
      "eval_accuracy": 0.0744010163838838,
      "eval_loss": 9.9140625,
      "eval_runtime": 274.4219,
      "eval_samples_per_second": 123.048,
      "eval_steps_per_second": 3.848,
      "step": 76
    },
    {
      "epoch": 0.0037295359876005035,
      "grad_norm": 1.6161168813705444,
      "learning_rate": 9.999709386806162e-06,
      "loss": 9.9062,
      "step": 77
    },
    {
      "epoch": 0.0037295359876005035,
      "eval_accuracy": 0.07513791033203478,
      "eval_loss": 9.90625,
      "eval_runtime": 274.8621,
      "eval_samples_per_second": 122.851,
      "eval_steps_per_second": 3.842,
      "step": 77
    },
    {
      "epoch": 0.003777971519907004,
      "grad_norm": 1.760338544845581,
      "learning_rate": 9.999704543252932e-06,
      "loss": 9.9219,
      "step": 78
    },
    {
      "epoch": 0.003777971519907004,
      "eval_accuracy": 0.07549183943869726,
      "eval_loss": 9.90625,
      "eval_runtime": 273.942,
      "eval_samples_per_second": 123.263,
      "eval_steps_per_second": 3.855,
      "step": 78
    },
    {
      "epoch": 0.003826407052213504,
      "grad_norm": 2.1402640342712402,
      "learning_rate": 9.9996996996997e-06,
      "loss": 9.9219,
      "step": 79
    },
    {
      "epoch": 0.003826407052213504,
      "eval_accuracy": 0.07561446692894938,
      "eval_loss": 9.8984375,
      "eval_runtime": 273.1637,
      "eval_samples_per_second": 123.615,
      "eval_steps_per_second": 3.866,
      "step": 79
    },
    {
      "epoch": 0.003874842584520004,
      "grad_norm": 1.5549274682998657,
      "learning_rate": 9.99969485614647e-06,
      "loss": 9.9219,
      "step": 80
    },
    {
      "epoch": 0.003874842584520004,
      "eval_accuracy": 0.07565650071455989,
      "eval_loss": 9.890625,
      "eval_runtime": 274.1597,
      "eval_samples_per_second": 123.165,
      "eval_steps_per_second": 3.852,
      "step": 80
    },
    {
      "epoch": 0.003923278116826504,
      "grad_norm": 1.619598388671875,
      "learning_rate": 9.99969001259324e-06,
      "loss": 9.875,
      "step": 81
    },
    {
      "epoch": 0.003923278116826504,
      "eval_accuracy": 0.07585523483178858,
      "eval_loss": 9.8828125,
      "eval_runtime": 273.6756,
      "eval_samples_per_second": 123.383,
      "eval_steps_per_second": 3.859,
      "step": 81
    },
    {
      "epoch": 0.003971713649133004,
      "grad_norm": 1.4982187747955322,
      "learning_rate": 9.999685169040008e-06,
      "loss": 9.9219,
      "step": 82
    },
    {
      "epoch": 0.003971713649133004,
      "eval_accuracy": 0.07604369209371994,
      "eval_loss": 9.875,
      "eval_runtime": 274.2745,
      "eval_samples_per_second": 123.114,
      "eval_steps_per_second": 3.85,
      "step": 82
    },
    {
      "epoch": 0.004020149181439504,
      "grad_norm": 1.8369065523147583,
      "learning_rate": 9.999680325486778e-06,
      "loss": 9.875,
      "step": 83
    },
    {
      "epoch": 0.004020149181439504,
      "eval_accuracy": 0.07629766068956077,
      "eval_loss": 9.875,
      "eval_runtime": 273.8951,
      "eval_samples_per_second": 123.284,
      "eval_steps_per_second": 3.855,
      "step": 83
    },
    {
      "epoch": 0.004068584713746004,
      "grad_norm": 1.5859246253967285,
      "learning_rate": 9.999675481933548e-06,
      "loss": 9.8672,
      "step": 84
    },
    {
      "epoch": 0.004068584713746004,
      "eval_accuracy": 0.07654106294122268,
      "eval_loss": 9.8671875,
      "eval_runtime": 273.7145,
      "eval_samples_per_second": 123.366,
      "eval_steps_per_second": 3.858,
      "step": 84
    },
    {
      "epoch": 0.004117020246052504,
      "grad_norm": 1.527214765548706,
      "learning_rate": 9.999670638380316e-06,
      "loss": 9.9062,
      "step": 85
    },
    {
      "epoch": 0.004117020246052504,
      "eval_accuracy": 0.07687032759517157,
      "eval_loss": 9.859375,
      "eval_runtime": 273.3281,
      "eval_samples_per_second": 123.54,
      "eval_steps_per_second": 3.863,
      "step": 85
    },
    {
      "epoch": 0.004165455778359004,
      "grad_norm": 1.5885719060897827,
      "learning_rate": 9.999665794827086e-06,
      "loss": 9.8828,
      "step": 86
    },
    {
      "epoch": 0.004165455778359004,
      "eval_accuracy": 0.07730965592191048,
      "eval_loss": 9.8515625,
      "eval_runtime": 273.6316,
      "eval_samples_per_second": 123.403,
      "eval_steps_per_second": 3.859,
      "step": 86
    },
    {
      "epoch": 0.004213891310665505,
      "grad_norm": 1.7169041633605957,
      "learning_rate": 9.999660951273856e-06,
      "loss": 9.8594,
      "step": 87
    },
    {
      "epoch": 0.004213891310665505,
      "eval_accuracy": 0.07752955167638524,
      "eval_loss": 9.8515625,
      "eval_runtime": 273.4517,
      "eval_samples_per_second": 123.484,
      "eval_steps_per_second": 3.862,
      "step": 87
    },
    {
      "epoch": 0.004262326842972004,
      "grad_norm": 1.5023819208145142,
      "learning_rate": 9.999656107720624e-06,
      "loss": 9.8906,
      "step": 88
    },
    {
      "epoch": 0.004262326842972004,
      "eval_accuracy": 0.07768043328148298,
      "eval_loss": 9.84375,
      "eval_runtime": 275.7256,
      "eval_samples_per_second": 122.466,
      "eval_steps_per_second": 3.83,
      "step": 88
    },
    {
      "epoch": 0.0043107623752785046,
      "grad_norm": 1.6757872104644775,
      "learning_rate": 9.999651264167394e-06,
      "loss": 9.8047,
      "step": 89
    },
    {
      "epoch": 0.0043107623752785046,
      "eval_accuracy": 0.07773103593798929,
      "eval_loss": 9.8359375,
      "eval_runtime": 275.8678,
      "eval_samples_per_second": 122.403,
      "eval_steps_per_second": 3.828,
      "step": 89
    },
    {
      "epoch": 0.004359197907585004,
      "grad_norm": 2.2149763107299805,
      "learning_rate": 9.999646420614163e-06,
      "loss": 9.8203,
      "step": 90
    },
    {
      "epoch": 0.004359197907585004,
      "eval_accuracy": 0.07783635199312082,
      "eval_loss": 9.8359375,
      "eval_runtime": 275.5895,
      "eval_samples_per_second": 122.526,
      "eval_steps_per_second": 3.832,
      "step": 90
    },
    {
      "epoch": 0.0044076334398915045,
      "grad_norm": 1.6437429189682007,
      "learning_rate": 9.999641577060932e-06,
      "loss": 9.8594,
      "step": 91
    },
    {
      "epoch": 0.0044076334398915045,
      "eval_accuracy": 0.07813093587905225,
      "eval_loss": 9.828125,
      "eval_runtime": 274.7605,
      "eval_samples_per_second": 122.896,
      "eval_steps_per_second": 3.843,
      "step": 91
    },
    {
      "epoch": 0.004456068972198004,
      "grad_norm": 1.6756585836410522,
      "learning_rate": 9.999636733507701e-06,
      "loss": 9.8438,
      "step": 92
    },
    {
      "epoch": 0.004456068972198004,
      "eval_accuracy": 0.07858427546766132,
      "eval_loss": 9.8203125,
      "eval_runtime": 275.56,
      "eval_samples_per_second": 122.54,
      "eval_steps_per_second": 3.832,
      "step": 92
    },
    {
      "epoch": 0.0045045045045045045,
      "grad_norm": 1.6290555000305176,
      "learning_rate": 9.999631889954471e-06,
      "loss": 9.8438,
      "step": 93
    },
    {
      "epoch": 0.0045045045045045045,
      "eval_accuracy": 0.07898075943992122,
      "eval_loss": 9.8203125,
      "eval_runtime": 275.4203,
      "eval_samples_per_second": 122.602,
      "eval_steps_per_second": 3.834,
      "step": 93
    },
    {
      "epoch": 0.004552940036811005,
      "grad_norm": 1.552886724472046,
      "learning_rate": 9.999627046401241e-06,
      "loss": 9.8438,
      "step": 94
    },
    {
      "epoch": 0.004552940036811005,
      "eval_accuracy": 0.0792507946686917,
      "eval_loss": 9.8125,
      "eval_runtime": 276.2603,
      "eval_samples_per_second": 122.229,
      "eval_steps_per_second": 3.822,
      "step": 94
    },
    {
      "epoch": 0.004601375569117504,
      "grad_norm": 1.6093745231628418,
      "learning_rate": 9.999622202848011e-06,
      "loss": 9.8359,
      "step": 95
    },
    {
      "epoch": 0.004601375569117504,
      "eval_accuracy": 0.07942483538431863,
      "eval_loss": 9.8046875,
      "eval_runtime": 277.5976,
      "eval_samples_per_second": 121.64,
      "eval_steps_per_second": 3.804,
      "step": 95
    },
    {
      "epoch": 0.004649811101424005,
      "grad_norm": 1.6716474294662476,
      "learning_rate": 9.99961735929478e-06,
      "loss": 9.8281,
      "step": 96
    },
    {
      "epoch": 0.004649811101424005,
      "eval_accuracy": 0.07951587963758655,
      "eval_loss": 9.8046875,
      "eval_runtime": 277.2247,
      "eval_samples_per_second": 121.804,
      "eval_steps_per_second": 3.809,
      "step": 96
    },
    {
      "epoch": 0.004698246633730504,
      "grad_norm": 1.5188281536102295,
      "learning_rate": 9.999612515741549e-06,
      "loss": 9.8516,
      "step": 97
    },
    {
      "epoch": 0.004698246633730504,
      "eval_accuracy": 0.07964241522774047,
      "eval_loss": 9.796875,
      "eval_runtime": 277.219,
      "eval_samples_per_second": 121.806,
      "eval_steps_per_second": 3.809,
      "step": 97
    },
    {
      "epoch": 0.004746682166037005,
      "grad_norm": 1.5686155557632446,
      "learning_rate": 9.999607672188319e-06,
      "loss": 9.8281,
      "step": 98
    },
    {
      "epoch": 0.004746682166037005,
      "eval_accuracy": 0.07971328210595982,
      "eval_loss": 9.7890625,
      "eval_runtime": 276.6601,
      "eval_samples_per_second": 122.052,
      "eval_steps_per_second": 3.817,
      "step": 98
    },
    {
      "epoch": 0.004795117698343505,
      "grad_norm": 1.6188207864761353,
      "learning_rate": 9.999602828635087e-06,
      "loss": 9.7734,
      "step": 99
    },
    {
      "epoch": 0.004795117698343505,
      "eval_accuracy": 0.0798379649672714,
      "eval_loss": 9.7890625,
      "eval_runtime": 276.9636,
      "eval_samples_per_second": 121.919,
      "eval_steps_per_second": 3.813,
      "step": 99
    },
    {
      "epoch": 0.004843553230650005,
      "grad_norm": 1.6795498132705688,
      "learning_rate": 9.999597985081857e-06,
      "loss": 9.8125,
      "step": 100
    },
    {
      "epoch": 0.004843553230650005,
      "eval_accuracy": 0.08018245673639325,
      "eval_loss": 9.78125,
      "eval_runtime": 277.3903,
      "eval_samples_per_second": 121.731,
      "eval_steps_per_second": 3.807,
      "step": 100
    },
    {
      "epoch": 0.004891988762956505,
      "grad_norm": 1.516228199005127,
      "learning_rate": 9.999593141528627e-06,
      "loss": 9.8203,
      "step": 101
    },
    {
      "epoch": 0.004891988762956505,
      "eval_accuracy": 0.08056970601332963,
      "eval_loss": 9.7734375,
      "eval_runtime": 277.0892,
      "eval_samples_per_second": 121.863,
      "eval_steps_per_second": 3.811,
      "step": 101
    },
    {
      "epoch": 0.004940424295263005,
      "grad_norm": 1.485206961631775,
      "learning_rate": 9.999588297975395e-06,
      "loss": 9.8281,
      "step": 102
    },
    {
      "epoch": 0.004940424295263005,
      "eval_accuracy": 0.0809254588999463,
      "eval_loss": 9.7734375,
      "eval_runtime": 277.0597,
      "eval_samples_per_second": 121.876,
      "eval_steps_per_second": 3.811,
      "step": 102
    },
    {
      "epoch": 0.004988859827569505,
      "grad_norm": 1.6925771236419678,
      "learning_rate": 9.999583454422165e-06,
      "loss": 9.7734,
      "step": 103
    },
    {
      "epoch": 0.004988859827569505,
      "eval_accuracy": 0.081113974059654,
      "eval_loss": 9.765625,
      "eval_runtime": 276.5455,
      "eval_samples_per_second": 122.103,
      "eval_steps_per_second": 3.819,
      "step": 103
    },
    {
      "epoch": 0.005037295359876005,
      "grad_norm": 1.6215219497680664,
      "learning_rate": 9.999578610868935e-06,
      "loss": 9.7891,
      "step": 104
    },
    {
      "epoch": 0.005037295359876005,
      "eval_accuracy": 0.08127527726448987,
      "eval_loss": 9.7578125,
      "eval_runtime": 275.7199,
      "eval_samples_per_second": 122.469,
      "eval_steps_per_second": 3.83,
      "step": 104
    },
    {
      "epoch": 0.005085730892182505,
      "grad_norm": 1.5104496479034424,
      "learning_rate": 9.999573767315703e-06,
      "loss": 9.8047,
      "step": 105
    },
    {
      "epoch": 0.005085730892182505,
      "eval_accuracy": 0.08140079964355813,
      "eval_loss": 9.7578125,
      "eval_runtime": 275.8702,
      "eval_samples_per_second": 122.402,
      "eval_steps_per_second": 3.828,
      "step": 105
    },
    {
      "epoch": 0.0051341664244890055,
      "grad_norm": 1.5603739023208618,
      "learning_rate": 9.999568923762473e-06,
      "loss": 9.7578,
      "step": 106
    },
    {
      "epoch": 0.0051341664244890055,
      "eval_accuracy": 0.0814951151211883,
      "eval_loss": 9.75,
      "eval_runtime": 276.6948,
      "eval_samples_per_second": 122.037,
      "eval_steps_per_second": 3.816,
      "step": 106
    },
    {
      "epoch": 0.005182601956795505,
      "grad_norm": 1.6554555892944336,
      "learning_rate": 9.999564080209243e-06,
      "loss": 9.7734,
      "step": 107
    },
    {
      "epoch": 0.005182601956795505,
      "eval_accuracy": 0.08162946691114582,
      "eval_loss": 9.75,
      "eval_runtime": 277.5011,
      "eval_samples_per_second": 121.682,
      "eval_steps_per_second": 3.805,
      "step": 107
    },
    {
      "epoch": 0.0052310374891020054,
      "grad_norm": 1.4874709844589233,
      "learning_rate": 9.99955923665601e-06,
      "loss": 9.7891,
      "step": 108
    },
    {
      "epoch": 0.0052310374891020054,
      "eval_accuracy": 0.08175817366791184,
      "eval_loss": 9.7421875,
      "eval_runtime": 277.2974,
      "eval_samples_per_second": 121.772,
      "eval_steps_per_second": 3.808,
      "step": 108
    },
    {
      "epoch": 0.005279473021408505,
      "grad_norm": 1.5930671691894531,
      "learning_rate": 9.99955439310278e-06,
      "loss": 9.75,
      "step": 109
    },
    {
      "epoch": 0.005279473021408505,
      "eval_accuracy": 0.081921676988248,
      "eval_loss": 9.734375,
      "eval_runtime": 278.2891,
      "eval_samples_per_second": 121.338,
      "eval_steps_per_second": 3.795,
      "step": 109
    },
    {
      "epoch": 0.005327908553715005,
      "grad_norm": 1.7005099058151245,
      "learning_rate": 9.99954954954955e-06,
      "loss": 9.75,
      "step": 110
    },
    {
      "epoch": 0.005327908553715005,
      "eval_accuracy": 0.08213621719841287,
      "eval_loss": 9.734375,
      "eval_runtime": 276.9822,
      "eval_samples_per_second": 121.91,
      "eval_steps_per_second": 3.813,
      "step": 110
    },
    {
      "epoch": 0.005376344086021506,
      "grad_norm": 1.5735907554626465,
      "learning_rate": 9.99954470599632e-06,
      "loss": 9.7266,
      "step": 111
    },
    {
      "epoch": 0.005376344086021506,
      "eval_accuracy": 0.08227051109059406,
      "eval_loss": 9.7265625,
      "eval_runtime": 277.2678,
      "eval_samples_per_second": 121.785,
      "eval_steps_per_second": 3.809,
      "step": 111
    },
    {
      "epoch": 0.005424779618328005,
      "grad_norm": 1.473027229309082,
      "learning_rate": 9.99953986244309e-06,
      "loss": 9.7656,
      "step": 112
    },
    {
      "epoch": 0.005424779618328005,
      "eval_accuracy": 0.08236607137041518,
      "eval_loss": 9.71875,
      "eval_runtime": 276.699,
      "eval_samples_per_second": 122.035,
      "eval_steps_per_second": 3.816,
      "step": 112
    },
    {
      "epoch": 0.005473215150634506,
      "grad_norm": 1.4636644124984741,
      "learning_rate": 9.999535018889858e-06,
      "loss": 9.7812,
      "step": 113
    },
    {
      "epoch": 0.005473215150634506,
      "eval_accuracy": 0.0823751613212979,
      "eval_loss": 9.71875,
      "eval_runtime": 276.4525,
      "eval_samples_per_second": 122.144,
      "eval_steps_per_second": 3.82,
      "step": 113
    },
    {
      "epoch": 0.005521650682941005,
      "grad_norm": 1.4979418516159058,
      "learning_rate": 9.999530175336628e-06,
      "loss": 9.7734,
      "step": 114
    },
    {
      "epoch": 0.005521650682941005,
      "eval_accuracy": 0.08236062897944081,
      "eval_loss": 9.7109375,
      "eval_runtime": 277.8616,
      "eval_samples_per_second": 121.525,
      "eval_steps_per_second": 3.8,
      "step": 114
    },
    {
      "epoch": 0.005570086215247506,
      "grad_norm": 1.8021794557571411,
      "learning_rate": 9.999525331783398e-06,
      "loss": 9.7266,
      "step": 115
    },
    {
      "epoch": 0.005570086215247506,
      "eval_accuracy": 0.08244796777502407,
      "eval_loss": 9.7109375,
      "eval_runtime": 277.0309,
      "eval_samples_per_second": 121.889,
      "eval_steps_per_second": 3.812,
      "step": 115
    },
    {
      "epoch": 0.005618521747554005,
      "grad_norm": 1.8129605054855347,
      "learning_rate": 9.999520488230166e-06,
      "loss": 9.7266,
      "step": 116
    },
    {
      "epoch": 0.005618521747554005,
      "eval_accuracy": 0.08262273221285504,
      "eval_loss": 9.703125,
      "eval_runtime": 278.4245,
      "eval_samples_per_second": 121.279,
      "eval_steps_per_second": 3.793,
      "step": 116
    },
    {
      "epoch": 0.005666957279860506,
      "grad_norm": 1.5428948402404785,
      "learning_rate": 9.999515644676936e-06,
      "loss": 9.7109,
      "step": 117
    },
    {
      "epoch": 0.005666957279860506,
      "eval_accuracy": 0.08277873777115737,
      "eval_loss": 9.6953125,
      "eval_runtime": 276.3715,
      "eval_samples_per_second": 122.18,
      "eval_steps_per_second": 3.821,
      "step": 117
    },
    {
      "epoch": 0.005715392812167006,
      "grad_norm": 1.7619973421096802,
      "learning_rate": 9.999510801123706e-06,
      "loss": 9.6719,
      "step": 118
    },
    {
      "epoch": 0.005715392812167006,
      "eval_accuracy": 0.08289928094146184,
      "eval_loss": 9.6953125,
      "eval_runtime": 277.665,
      "eval_samples_per_second": 121.611,
      "eval_steps_per_second": 3.803,
      "step": 118
    },
    {
      "epoch": 0.005763828344473506,
      "grad_norm": 1.5316611528396606,
      "learning_rate": 9.999505957570474e-06,
      "loss": 9.6953,
      "step": 119
    },
    {
      "epoch": 0.005763828344473506,
      "eval_accuracy": 0.08300393117216567,
      "eval_loss": 9.6875,
      "eval_runtime": 276.1306,
      "eval_samples_per_second": 122.286,
      "eval_steps_per_second": 3.824,
      "step": 119
    },
    {
      "epoch": 0.005812263876780006,
      "grad_norm": 1.7051466703414917,
      "learning_rate": 9.999501114017244e-06,
      "loss": 9.6719,
      "step": 120
    },
    {
      "epoch": 0.005812263876780006,
      "eval_accuracy": 0.08307213475267416,
      "eval_loss": 9.6875,
      "eval_runtime": 276.7696,
      "eval_samples_per_second": 122.004,
      "eval_steps_per_second": 3.815,
      "step": 120
    },
    {
      "epoch": 0.005860699409086506,
      "grad_norm": 1.6584818363189697,
      "learning_rate": 9.999496270464012e-06,
      "loss": 9.6953,
      "step": 121
    },
    {
      "epoch": 0.005860699409086506,
      "eval_accuracy": 0.08307086100159505,
      "eval_loss": 9.6796875,
      "eval_runtime": 277.4403,
      "eval_samples_per_second": 121.709,
      "eval_steps_per_second": 3.806,
      "step": 121
    },
    {
      "epoch": 0.005909134941393006,
      "grad_norm": 1.7079665660858154,
      "learning_rate": 9.999491426910782e-06,
      "loss": 9.6875,
      "step": 122
    },
    {
      "epoch": 0.005909134941393006,
      "eval_accuracy": 0.08310041781640795,
      "eval_loss": 9.6796875,
      "eval_runtime": 275.7807,
      "eval_samples_per_second": 122.442,
      "eval_steps_per_second": 3.829,
      "step": 122
    },
    {
      "epoch": 0.0059575704736995055,
      "grad_norm": 1.6613987684249878,
      "learning_rate": 9.999486583357552e-06,
      "loss": 9.6719,
      "step": 123
    },
    {
      "epoch": 0.0059575704736995055,
      "eval_accuracy": 0.08318772766310303,
      "eval_loss": 9.671875,
      "eval_runtime": 277.1478,
      "eval_samples_per_second": 121.838,
      "eval_steps_per_second": 3.81,
      "step": 123
    },
    {
      "epoch": 0.006006006006006006,
      "grad_norm": 1.5512877702713013,
      "learning_rate": 9.99948173980432e-06,
      "loss": 9.6719,
      "step": 124
    },
    {
      "epoch": 0.006006006006006006,
      "eval_accuracy": 0.08327202682542932,
      "eval_loss": 9.6640625,
      "eval_runtime": 276.8801,
      "eval_samples_per_second": 121.955,
      "eval_steps_per_second": 3.814,
      "step": 124
    },
    {
      "epoch": 0.006054441538312506,
      "grad_norm": 1.6818300485610962,
      "learning_rate": 9.99947689625109e-06,
      "loss": 9.625,
      "step": 125
    },
    {
      "epoch": 0.006054441538312506,
      "eval_accuracy": 0.08333837767709547,
      "eval_loss": 9.6640625,
      "eval_runtime": 275.4944,
      "eval_samples_per_second": 122.569,
      "eval_steps_per_second": 3.833,
      "step": 125
    },
    {
      "epoch": 0.006102877070619006,
      "grad_norm": 1.497159719467163,
      "learning_rate": 9.99947205269786e-06,
      "loss": 9.6719,
      "step": 126
    },
    {
      "epoch": 0.006102877070619006,
      "eval_accuracy": 0.08344485168775347,
      "eval_loss": 9.65625,
      "eval_runtime": 276.6512,
      "eval_samples_per_second": 122.056,
      "eval_steps_per_second": 3.817,
      "step": 126
    },
    {
      "epoch": 0.006151312602925506,
      "grad_norm": 1.4452403783798218,
      "learning_rate": 9.99946720914463e-06,
      "loss": 9.6953,
      "step": 127
    },
    {
      "epoch": 0.006151312602925506,
      "eval_accuracy": 0.08355928664265588,
      "eval_loss": 9.65625,
      "eval_runtime": 277.0928,
      "eval_samples_per_second": 121.862,
      "eval_steps_per_second": 3.811,
      "step": 127
    },
    {
      "epoch": 0.006199748135232006,
      "grad_norm": 1.4734400510787964,
      "learning_rate": 9.9994623655914e-06,
      "loss": 9.6719,
      "step": 128
    },
    {
      "epoch": 0.006199748135232006,
      "eval_accuracy": 0.08367464796197946,
      "eval_loss": 9.6484375,
      "eval_runtime": 278.2759,
      "eval_samples_per_second": 121.344,
      "eval_steps_per_second": 3.795,
      "step": 128
    },
    {
      "epoch": 0.006248183667538506,
      "grad_norm": 1.4783730506896973,
      "learning_rate": 9.999457522038168e-06,
      "loss": 9.6797,
      "step": 129
    },
    {
      "epoch": 0.006248183667538506,
      "eval_accuracy": 0.08380396264539687,
      "eval_loss": 9.640625,
      "eval_runtime": 276.6233,
      "eval_samples_per_second": 122.069,
      "eval_steps_per_second": 3.817,
      "step": 129
    },
    {
      "epoch": 0.006296619199845007,
      "grad_norm": 1.7012325525283813,
      "learning_rate": 9.999452678484938e-06,
      "loss": 9.6484,
      "step": 130
    },
    {
      "epoch": 0.006296619199845007,
      "eval_accuracy": 0.08385152566864622,
      "eval_loss": 9.640625,
      "eval_runtime": 276.6061,
      "eval_samples_per_second": 122.076,
      "eval_steps_per_second": 3.818,
      "step": 130
    },
    {
      "epoch": 0.006345054732151506,
      "grad_norm": 1.5358777046203613,
      "learning_rate": 9.999447834931707e-06,
      "loss": 9.6719,
      "step": 131
    },
    {
      "epoch": 0.006345054732151506,
      "eval_accuracy": 0.0839065864539294,
      "eval_loss": 9.6328125,
      "eval_runtime": 276.1031,
      "eval_samples_per_second": 122.299,
      "eval_steps_per_second": 3.825,
      "step": 131
    },
    {
      "epoch": 0.006393490264458007,
      "grad_norm": 1.5622602701187134,
      "learning_rate": 9.999442991378476e-06,
      "loss": 9.6328,
      "step": 132
    },
    {
      "epoch": 0.006393490264458007,
      "eval_accuracy": 0.08391194199823927,
      "eval_loss": 9.6328125,
      "eval_runtime": 276.4355,
      "eval_samples_per_second": 122.151,
      "eval_steps_per_second": 3.82,
      "step": 132
    },
    {
      "epoch": 0.006441925796764506,
      "grad_norm": 1.5135513544082642,
      "learning_rate": 9.999438147825245e-06,
      "loss": 9.6719,
      "step": 133
    },
    {
      "epoch": 0.006441925796764506,
      "eval_accuracy": 0.08392389788904997,
      "eval_loss": 9.625,
      "eval_runtime": 277.1805,
      "eval_samples_per_second": 121.823,
      "eval_steps_per_second": 3.81,
      "step": 133
    },
    {
      "epoch": 0.006490361329071007,
      "grad_norm": 1.4829246997833252,
      "learning_rate": 9.999433304272015e-06,
      "loss": 9.6484,
      "step": 134
    },
    {
      "epoch": 0.006490361329071007,
      "eval_accuracy": 0.08400426000258629,
      "eval_loss": 9.6171875,
      "eval_runtime": 276.9095,
      "eval_samples_per_second": 121.942,
      "eval_steps_per_second": 3.814,
      "step": 134
    },
    {
      "epoch": 0.006538796861377506,
      "grad_norm": 1.506585955619812,
      "learning_rate": 9.999428460718784e-06,
      "loss": 9.6406,
      "step": 135
    },
    {
      "epoch": 0.006538796861377506,
      "eval_accuracy": 0.084119823964127,
      "eval_loss": 9.6171875,
      "eval_runtime": 275.7802,
      "eval_samples_per_second": 122.442,
      "eval_steps_per_second": 3.829,
      "step": 135
    },
    {
      "epoch": 0.0065872323936840066,
      "grad_norm": 1.597743272781372,
      "learning_rate": 9.999423617165553e-06,
      "loss": 9.6094,
      "step": 136
    },
    {
      "epoch": 0.0065872323936840066,
      "eval_accuracy": 0.08430503895058428,
      "eval_loss": 9.609375,
      "eval_runtime": 278.6385,
      "eval_samples_per_second": 121.186,
      "eval_steps_per_second": 3.79,
      "step": 136
    },
    {
      "epoch": 0.006635667925990507,
      "grad_norm": 1.5326935052871704,
      "learning_rate": 9.999418773612323e-06,
      "loss": 9.625,
      "step": 137
    },
    {
      "epoch": 0.006635667925990507,
      "eval_accuracy": 0.08447033710198644,
      "eval_loss": 9.609375,
      "eval_runtime": 276.8784,
      "eval_samples_per_second": 121.956,
      "eval_steps_per_second": 3.814,
      "step": 137
    },
    {
      "epoch": 0.0066841034582970065,
      "grad_norm": 1.5170117616653442,
      "learning_rate": 9.999413930059091e-06,
      "loss": 9.6562,
      "step": 138
    },
    {
      "epoch": 0.0066841034582970065,
      "eval_accuracy": 0.0845831509191518,
      "eval_loss": 9.6015625,
      "eval_runtime": 276.8242,
      "eval_samples_per_second": 121.98,
      "eval_steps_per_second": 3.815,
      "step": 138
    },
    {
      "epoch": 0.006732538990603507,
      "grad_norm": 1.5148200988769531,
      "learning_rate": 9.999409086505861e-06,
      "loss": 9.6172,
      "step": 139
    },
    {
      "epoch": 0.006732538990603507,
      "eval_accuracy": 0.0846733846035512,
      "eval_loss": 9.6015625,
      "eval_runtime": 276.0924,
      "eval_samples_per_second": 122.303,
      "eval_steps_per_second": 3.825,
      "step": 139
    },
    {
      "epoch": 0.0067809745229100065,
      "grad_norm": 1.584030032157898,
      "learning_rate": 9.999404242952631e-06,
      "loss": 9.6094,
      "step": 140
    },
    {
      "epoch": 0.0067809745229100065,
      "eval_accuracy": 0.08471049707817424,
      "eval_loss": 9.59375,
      "eval_runtime": 276.8263,
      "eval_samples_per_second": 121.979,
      "eval_steps_per_second": 3.815,
      "step": 140
    },
    {
      "epoch": 0.006829410055216507,
      "grad_norm": 1.5023019313812256,
      "learning_rate": 9.9993993993994e-06,
      "loss": 9.6562,
      "step": 141
    },
    {
      "epoch": 0.006829410055216507,
      "eval_accuracy": 0.08469269351195492,
      "eval_loss": 9.5859375,
      "eval_runtime": 276.3818,
      "eval_samples_per_second": 122.175,
      "eval_steps_per_second": 3.821,
      "step": 141
    },
    {
      "epoch": 0.006877845587523007,
      "grad_norm": 1.5090259313583374,
      "learning_rate": 9.99939455584617e-06,
      "loss": 9.6562,
      "step": 142
    },
    {
      "epoch": 0.006877845587523007,
      "eval_accuracy": 0.08472097657568871,
      "eval_loss": 9.5859375,
      "eval_runtime": 277.9886,
      "eval_samples_per_second": 121.469,
      "eval_steps_per_second": 3.799,
      "step": 142
    },
    {
      "epoch": 0.006926281119829507,
      "grad_norm": 1.4967498779296875,
      "learning_rate": 9.999389712292939e-06,
      "loss": 9.6562,
      "step": 143
    },
    {
      "epoch": 0.006926281119829507,
      "eval_accuracy": 0.0847566126570155,
      "eval_loss": 9.578125,
      "eval_runtime": 276.5132,
      "eval_samples_per_second": 122.117,
      "eval_steps_per_second": 3.819,
      "step": 143
    },
    {
      "epoch": 0.006974716652136007,
      "grad_norm": 1.8095794916152954,
      "learning_rate": 9.999384868739709e-06,
      "loss": 9.6016,
      "step": 144
    },
    {
      "epoch": 0.006974716652136007,
      "eval_accuracy": 0.08490364405998777,
      "eval_loss": 9.578125,
      "eval_runtime": 276.1595,
      "eval_samples_per_second": 122.274,
      "eval_steps_per_second": 3.824,
      "step": 144
    },
    {
      "epoch": 0.007023152184442507,
      "grad_norm": 1.7810986042022705,
      "learning_rate": 9.999380025186479e-06,
      "loss": 9.6094,
      "step": 145
    },
    {
      "epoch": 0.007023152184442507,
      "eval_accuracy": 0.08503437723892511,
      "eval_loss": 9.5703125,
      "eval_runtime": 276.2917,
      "eval_samples_per_second": 122.215,
      "eval_steps_per_second": 3.822,
      "step": 145
    },
    {
      "epoch": 0.007071587716749007,
      "grad_norm": 1.5788795948028564,
      "learning_rate": 9.999375181633247e-06,
      "loss": 9.5938,
      "step": 146
    },
    {
      "epoch": 0.007071587716749007,
      "eval_accuracy": 0.08506937644471235,
      "eval_loss": 9.5703125,
      "eval_runtime": 276.3857,
      "eval_samples_per_second": 122.173,
      "eval_steps_per_second": 3.821,
      "step": 146
    },
    {
      "epoch": 0.007120023249055507,
      "grad_norm": 1.8074451684951782,
      "learning_rate": 9.999370338080017e-06,
      "loss": 9.5703,
      "step": 147
    },
    {
      "epoch": 0.007120023249055507,
      "eval_accuracy": 0.08507481883568672,
      "eval_loss": 9.5625,
      "eval_runtime": 274.2982,
      "eval_samples_per_second": 123.103,
      "eval_steps_per_second": 3.85,
      "step": 147
    },
    {
      "epoch": 0.007168458781362007,
      "grad_norm": 1.7187494039535522,
      "learning_rate": 9.999365494526787e-06,
      "loss": 9.5859,
      "step": 148
    },
    {
      "epoch": 0.007168458781362007,
      "eval_accuracy": 0.08513216658313465,
      "eval_loss": 9.5625,
      "eval_runtime": 275.5423,
      "eval_samples_per_second": 122.547,
      "eval_steps_per_second": 3.832,
      "step": 148
    },
    {
      "epoch": 0.007216894313668508,
      "grad_norm": 1.6044690608978271,
      "learning_rate": 9.999360650973555e-06,
      "loss": 9.625,
      "step": 149
    },
    {
      "epoch": 0.007216894313668508,
      "eval_accuracy": 0.08522213972754059,
      "eval_loss": 9.5546875,
      "eval_runtime": 275.5733,
      "eval_samples_per_second": 122.534,
      "eval_steps_per_second": 3.832,
      "step": 149
    },
    {
      "epoch": 0.007265329845975007,
      "grad_norm": 1.7572296857833862,
      "learning_rate": 9.999355807420325e-06,
      "loss": 9.5859,
      "step": 150
    },
    {
      "epoch": 0.007265329845975007,
      "eval_accuracy": 0.0853520623376094,
      "eval_loss": 9.546875,
      "eval_runtime": 275.4002,
      "eval_samples_per_second": 122.611,
      "eval_steps_per_second": 3.834,
      "step": 150
    },
    {
      "epoch": 0.0073137653782815075,
      "grad_norm": 1.5954887866973877,
      "learning_rate": 9.999350963867095e-06,
      "loss": 9.5625,
      "step": 151
    },
    {
      "epoch": 0.0073137653782815075,
      "eval_accuracy": 0.0855014675494109,
      "eval_loss": 9.546875,
      "eval_runtime": 275.8854,
      "eval_samples_per_second": 122.395,
      "eval_steps_per_second": 3.828,
      "step": 151
    },
    {
      "epoch": 0.007362200910588007,
      "grad_norm": 1.6131614446640015,
      "learning_rate": 9.999346120313863e-06,
      "loss": 9.5547,
      "step": 152
    },
    {
      "epoch": 0.007362200910588007,
      "eval_accuracy": 0.0856389168704017,
      "eval_loss": 9.5390625,
      "eval_runtime": 276.1363,
      "eval_samples_per_second": 122.284,
      "eval_steps_per_second": 3.824,
      "step": 152
    },
    {
      "epoch": 0.0074106364428945075,
      "grad_norm": 1.4832433462142944,
      "learning_rate": 9.999341276760633e-06,
      "loss": 9.5703,
      "step": 153
    },
    {
      "epoch": 0.0074106364428945075,
      "eval_accuracy": 0.08576559720499642,
      "eval_loss": 9.5390625,
      "eval_runtime": 274.8867,
      "eval_samples_per_second": 122.84,
      "eval_steps_per_second": 3.842,
      "step": 153
    },
    {
      "epoch": 0.007459071975201007,
      "grad_norm": 1.7311336994171143,
      "learning_rate": 9.999336433207402e-06,
      "loss": 9.5391,
      "step": 154
    },
    {
      "epoch": 0.007459071975201007,
      "eval_accuracy": 0.08582592668792499,
      "eval_loss": 9.53125,
      "eval_runtime": 275.7658,
      "eval_samples_per_second": 122.448,
      "eval_steps_per_second": 3.829,
      "step": 154
    },
    {
      "epoch": 0.0075075075075075074,
      "grad_norm": 1.9239146709442139,
      "learning_rate": 9.99933158965417e-06,
      "loss": 9.5391,
      "step": 155
    },
    {
      "epoch": 0.0075075075075075074,
      "eval_accuracy": 0.08592603194318746,
      "eval_loss": 9.53125,
      "eval_runtime": 274.2731,
      "eval_samples_per_second": 123.115,
      "eval_steps_per_second": 3.85,
      "step": 155
    },
    {
      "epoch": 0.007555943039814008,
      "grad_norm": 1.8369977474212646,
      "learning_rate": 9.99932674610094e-06,
      "loss": 9.5,
      "step": 156
    },
    {
      "epoch": 0.007555943039814008,
      "eval_accuracy": 0.08610542820312428,
      "eval_loss": 9.5234375,
      "eval_runtime": 274.5904,
      "eval_samples_per_second": 122.972,
      "eval_steps_per_second": 3.846,
      "step": 156
    },
    {
      "epoch": 0.007604378572120507,
      "grad_norm": 1.5703845024108887,
      "learning_rate": 9.99932190254771e-06,
      "loss": 9.5547,
      "step": 157
    },
    {
      "epoch": 0.007604378572120507,
      "eval_accuracy": 0.08628861676741025,
      "eval_loss": 9.515625,
      "eval_runtime": 275.108,
      "eval_samples_per_second": 122.741,
      "eval_steps_per_second": 3.838,
      "step": 157
    },
    {
      "epoch": 0.007652814104427008,
      "grad_norm": 1.5686722993850708,
      "learning_rate": 9.999317058994478e-06,
      "loss": 9.5391,
      "step": 158
    },
    {
      "epoch": 0.007652814104427008,
      "eval_accuracy": 0.08633840885504802,
      "eval_loss": 9.515625,
      "eval_runtime": 274.8868,
      "eval_samples_per_second": 122.84,
      "eval_steps_per_second": 3.842,
      "step": 158
    },
    {
      "epoch": 0.007701249636733507,
      "grad_norm": 1.6259181499481201,
      "learning_rate": 9.999312215441248e-06,
      "loss": 9.5312,
      "step": 159
    },
    {
      "epoch": 0.007701249636733507,
      "eval_accuracy": 0.08635719668346484,
      "eval_loss": 9.515625,
      "eval_runtime": 274.9284,
      "eval_samples_per_second": 122.821,
      "eval_steps_per_second": 3.841,
      "step": 159
    },
    {
      "epoch": 0.007749685169040008,
      "grad_norm": 1.6887496709823608,
      "learning_rate": 9.999307371888018e-06,
      "loss": 9.5391,
      "step": 160
    },
    {
      "epoch": 0.007749685169040008,
      "eval_accuracy": 0.08644670664566019,
      "eval_loss": 9.5078125,
      "eval_runtime": 274.7492,
      "eval_samples_per_second": 122.901,
      "eval_steps_per_second": 3.844,
      "step": 160
    },
    {
      "epoch": 0.007798120701346508,
      "grad_norm": 1.6951507329940796,
      "learning_rate": 9.999302528334788e-06,
      "loss": 9.4688,
      "step": 161
    },
    {
      "epoch": 0.007798120701346508,
      "eval_accuracy": 0.08658233218669682,
      "eval_loss": 9.5,
      "eval_runtime": 275.2855,
      "eval_samples_per_second": 122.662,
      "eval_steps_per_second": 3.836,
      "step": 161
    },
    {
      "epoch": 0.007846556233653008,
      "grad_norm": 1.4970242977142334,
      "learning_rate": 9.999297684781556e-06,
      "loss": 9.5547,
      "step": 162
    },
    {
      "epoch": 0.007846556233653008,
      "eval_accuracy": 0.0867301741585376,
      "eval_loss": 9.5,
      "eval_runtime": 272.7321,
      "eval_samples_per_second": 123.81,
      "eval_steps_per_second": 3.872,
      "step": 162
    },
    {
      "epoch": 0.007894991765959508,
      "grad_norm": 1.5665501356124878,
      "learning_rate": 9.999292841228326e-06,
      "loss": 9.5078,
      "step": 163
    },
    {
      "epoch": 0.007894991765959508,
      "eval_accuracy": 0.08686166000856714,
      "eval_loss": 9.4921875,
      "eval_runtime": 274.5735,
      "eval_samples_per_second": 122.98,
      "eval_steps_per_second": 3.846,
      "step": 163
    },
    {
      "epoch": 0.007943427298266009,
      "grad_norm": 1.5631929636001587,
      "learning_rate": 9.999287997675096e-06,
      "loss": 9.5078,
      "step": 164
    },
    {
      "epoch": 0.007943427298266009,
      "eval_accuracy": 0.08703300847759506,
      "eval_loss": 9.4921875,
      "eval_runtime": 275.4664,
      "eval_samples_per_second": 122.581,
      "eval_steps_per_second": 3.833,
      "step": 164
    },
    {
      "epoch": 0.007991862830572507,
      "grad_norm": 1.5439754724502563,
      "learning_rate": 9.999283154121864e-06,
      "loss": 9.5,
      "step": 165
    },
    {
      "epoch": 0.007991862830572507,
      "eval_accuracy": 0.08722841347268517,
      "eval_loss": 9.484375,
      "eval_runtime": 275.1068,
      "eval_samples_per_second": 122.741,
      "eval_steps_per_second": 3.839,
      "step": 165
    },
    {
      "epoch": 0.008040298362879008,
      "grad_norm": 1.5011335611343384,
      "learning_rate": 9.999278310568634e-06,
      "loss": 9.5312,
      "step": 166
    },
    {
      "epoch": 0.008040298362879008,
      "eval_accuracy": 0.08746153886904974,
      "eval_loss": 9.484375,
      "eval_runtime": 274.8226,
      "eval_samples_per_second": 122.868,
      "eval_steps_per_second": 3.842,
      "step": 166
    },
    {
      "epoch": 0.008088733895185508,
      "grad_norm": 1.5114489793777466,
      "learning_rate": 9.999273467015404e-06,
      "loss": 9.5156,
      "step": 167
    },
    {
      "epoch": 0.008088733895185508,
      "eval_accuracy": 0.08767709229030025,
      "eval_loss": 9.4765625,
      "eval_runtime": 275.1958,
      "eval_samples_per_second": 122.702,
      "eval_steps_per_second": 3.837,
      "step": 167
    },
    {
      "epoch": 0.008137169427492008,
      "grad_norm": 1.6843675374984741,
      "learning_rate": 9.999268623462172e-06,
      "loss": 9.4844,
      "step": 168
    },
    {
      "epoch": 0.008137169427492008,
      "eval_accuracy": 0.08782279204441709,
      "eval_loss": 9.4765625,
      "eval_runtime": 275.685,
      "eval_samples_per_second": 122.484,
      "eval_steps_per_second": 3.83,
      "step": 168
    },
    {
      "epoch": 0.008185604959798509,
      "grad_norm": 1.6421033143997192,
      "learning_rate": 9.999263779908942e-06,
      "loss": 9.4688,
      "step": 169
    },
    {
      "epoch": 0.008185604959798509,
      "eval_accuracy": 0.08784629854160422,
      "eval_loss": 9.46875,
      "eval_runtime": 276.249,
      "eval_samples_per_second": 122.234,
      "eval_steps_per_second": 3.823,
      "step": 169
    },
    {
      "epoch": 0.008234040492105008,
      "grad_norm": 1.6387994289398193,
      "learning_rate": 9.999258936355712e-06,
      "loss": 9.5156,
      "step": 170
    },
    {
      "epoch": 0.008234040492105008,
      "eval_accuracy": 0.08786224937898121,
      "eval_loss": 9.4609375,
      "eval_runtime": 276.6173,
      "eval_samples_per_second": 122.071,
      "eval_steps_per_second": 3.818,
      "step": 170
    },
    {
      "epoch": 0.008282476024411508,
      "grad_norm": 1.5107547044754028,
      "learning_rate": 9.99925409280248e-06,
      "loss": 9.4922,
      "step": 171
    },
    {
      "epoch": 0.008282476024411508,
      "eval_accuracy": 0.08785258045033527,
      "eval_loss": 9.4609375,
      "eval_runtime": 276.9505,
      "eval_samples_per_second": 121.924,
      "eval_steps_per_second": 3.813,
      "step": 171
    },
    {
      "epoch": 0.008330911556718008,
      "grad_norm": 1.5190666913986206,
      "learning_rate": 9.99924924924925e-06,
      "loss": 9.4844,
      "step": 172
    },
    {
      "epoch": 0.008330911556718008,
      "eval_accuracy": 0.08782476056881207,
      "eval_loss": 9.453125,
      "eval_runtime": 275.3735,
      "eval_samples_per_second": 122.623,
      "eval_steps_per_second": 3.835,
      "step": 172
    },
    {
      "epoch": 0.008379347089024509,
      "grad_norm": 1.560573935508728,
      "learning_rate": 9.99924440569602e-06,
      "loss": 9.5234,
      "step": 173
    },
    {
      "epoch": 0.008379347089024509,
      "eval_accuracy": 0.08786801020772535,
      "eval_loss": 9.453125,
      "eval_runtime": 276.2814,
      "eval_samples_per_second": 122.22,
      "eval_steps_per_second": 3.822,
      "step": 173
    },
    {
      "epoch": 0.00842778262133101,
      "grad_norm": 1.7032357454299927,
      "learning_rate": 9.999239562142788e-06,
      "loss": 9.4844,
      "step": 174
    },
    {
      "epoch": 0.00842778262133101,
      "eval_accuracy": 0.08790746754228948,
      "eval_loss": 9.4453125,
      "eval_runtime": 275.8479,
      "eval_samples_per_second": 122.412,
      "eval_steps_per_second": 3.828,
      "step": 174
    },
    {
      "epoch": 0.008476218153637508,
      "grad_norm": 1.550713300704956,
      "learning_rate": 9.999234718589558e-06,
      "loss": 9.4219,
      "step": 175
    },
    {
      "epoch": 0.008476218153637508,
      "eval_accuracy": 0.08798829283803639,
      "eval_loss": 9.4453125,
      "eval_runtime": 275.7584,
      "eval_samples_per_second": 122.451,
      "eval_steps_per_second": 3.829,
      "step": 175
    },
    {
      "epoch": 0.008524653685944008,
      "grad_norm": 1.6866670846939087,
      "learning_rate": 9.999229875036328e-06,
      "loss": 9.4062,
      "step": 176
    },
    {
      "epoch": 0.008524653685944008,
      "eval_accuracy": 0.08809621429310245,
      "eval_loss": 9.4375,
      "eval_runtime": 276.5351,
      "eval_samples_per_second": 122.107,
      "eval_steps_per_second": 3.819,
      "step": 176
    },
    {
      "epoch": 0.008573089218250509,
      "grad_norm": 1.622749924659729,
      "learning_rate": 9.999225031483096e-06,
      "loss": 9.4375,
      "step": 177
    },
    {
      "epoch": 0.008573089218250509,
      "eval_accuracy": 0.08827711589522366,
      "eval_loss": 9.4375,
      "eval_runtime": 278.1964,
      "eval_samples_per_second": 121.378,
      "eval_steps_per_second": 3.796,
      "step": 177
    },
    {
      "epoch": 0.008621524750557009,
      "grad_norm": 1.5966665744781494,
      "learning_rate": 9.999220187929867e-06,
      "loss": 9.4375,
      "step": 178
    },
    {
      "epoch": 0.008621524750557009,
      "eval_accuracy": 0.08849081658763186,
      "eval_loss": 9.4296875,
      "eval_runtime": 277.208,
      "eval_samples_per_second": 121.811,
      "eval_steps_per_second": 3.809,
      "step": 178
    },
    {
      "epoch": 0.00866996028286351,
      "grad_norm": 1.499353289604187,
      "learning_rate": 9.999215344376635e-06,
      "loss": 9.4688,
      "step": 179
    },
    {
      "epoch": 0.00866996028286351,
      "eval_accuracy": 0.08868196609616225,
      "eval_loss": 9.4296875,
      "eval_runtime": 276.9344,
      "eval_samples_per_second": 121.931,
      "eval_steps_per_second": 3.813,
      "step": 179
    },
    {
      "epoch": 0.008718395815170008,
      "grad_norm": 1.5957542657852173,
      "learning_rate": 9.999210500823405e-06,
      "loss": 9.4453,
      "step": 180
    },
    {
      "epoch": 0.008718395815170008,
      "eval_accuracy": 0.08884607734314978,
      "eval_loss": 9.421875,
      "eval_runtime": 277.5515,
      "eval_samples_per_second": 121.66,
      "eval_steps_per_second": 3.805,
      "step": 180
    },
    {
      "epoch": 0.008766831347476509,
      "grad_norm": 1.519926905632019,
      "learning_rate": 9.999205657270175e-06,
      "loss": 9.4219,
      "step": 181
    },
    {
      "epoch": 0.008766831347476509,
      "eval_accuracy": 0.0889903586017467,
      "eval_loss": 9.421875,
      "eval_runtime": 277.0317,
      "eval_samples_per_second": 121.889,
      "eval_steps_per_second": 3.812,
      "step": 181
    },
    {
      "epoch": 0.008815266879783009,
      "grad_norm": 1.5913316011428833,
      "learning_rate": 9.999200813716943e-06,
      "loss": 9.4141,
      "step": 182
    },
    {
      "epoch": 0.008815266879783009,
      "eval_accuracy": 0.08903491094062725,
      "eval_loss": 9.4140625,
      "eval_runtime": 277.095,
      "eval_samples_per_second": 121.861,
      "eval_steps_per_second": 3.811,
      "step": 182
    },
    {
      "epoch": 0.00886370241208951,
      "grad_norm": 1.5328583717346191,
      "learning_rate": 9.999195970163713e-06,
      "loss": 9.4375,
      "step": 183
    },
    {
      "epoch": 0.00886370241208951,
      "eval_accuracy": 0.08903395562731792,
      "eval_loss": 9.40625,
      "eval_runtime": 276.2305,
      "eval_samples_per_second": 122.242,
      "eval_steps_per_second": 3.823,
      "step": 183
    },
    {
      "epoch": 0.008912137944396008,
      "grad_norm": 1.5967031717300415,
      "learning_rate": 9.999191126610483e-06,
      "loss": 9.3984,
      "step": 184
    },
    {
      "epoch": 0.008912137944396008,
      "eval_accuracy": 0.08904220606044394,
      "eval_loss": 9.40625,
      "eval_runtime": 278.9395,
      "eval_samples_per_second": 121.055,
      "eval_steps_per_second": 3.786,
      "step": 184
    },
    {
      "epoch": 0.008960573476702509,
      "grad_norm": 1.596799612045288,
      "learning_rate": 9.999186283057251e-06,
      "loss": 9.4297,
      "step": 185
    },
    {
      "epoch": 0.008960573476702509,
      "eval_accuracy": 0.08908192393500153,
      "eval_loss": 9.3984375,
      "eval_runtime": 277.1703,
      "eval_samples_per_second": 121.828,
      "eval_steps_per_second": 3.81,
      "step": 185
    },
    {
      "epoch": 0.009009009009009009,
      "grad_norm": 1.5406758785247803,
      "learning_rate": 9.999181439504021e-06,
      "loss": 9.3984,
      "step": 186
    },
    {
      "epoch": 0.009009009009009009,
      "eval_accuracy": 0.089139011142456,
      "eval_loss": 9.3984375,
      "eval_runtime": 276.7972,
      "eval_samples_per_second": 121.992,
      "eval_steps_per_second": 3.815,
      "step": 186
    },
    {
      "epoch": 0.00905744454131551,
      "grad_norm": 1.6137006282806396,
      "learning_rate": 9.999176595950791e-06,
      "loss": 9.3906,
      "step": 187
    },
    {
      "epoch": 0.00905744454131551,
      "eval_accuracy": 0.08919705366321981,
      "eval_loss": 9.390625,
      "eval_runtime": 277.048,
      "eval_samples_per_second": 121.881,
      "eval_steps_per_second": 3.812,
      "step": 187
    },
    {
      "epoch": 0.00910588007362201,
      "grad_norm": 1.5155887603759766,
      "learning_rate": 9.999171752397559e-06,
      "loss": 9.4219,
      "step": 188
    },
    {
      "epoch": 0.00910588007362201,
      "eval_accuracy": 0.08929362715412657,
      "eval_loss": 9.390625,
      "eval_runtime": 277.0594,
      "eval_samples_per_second": 121.876,
      "eval_steps_per_second": 3.811,
      "step": 188
    },
    {
      "epoch": 0.009154315605928508,
      "grad_norm": 1.7281869649887085,
      "learning_rate": 9.999166908844329e-06,
      "loss": 9.4062,
      "step": 189
    },
    {
      "epoch": 0.009154315605928508,
      "eval_accuracy": 0.08947652622953092,
      "eval_loss": 9.3828125,
      "eval_runtime": 277.1329,
      "eval_samples_per_second": 121.844,
      "eval_steps_per_second": 3.81,
      "step": 189
    },
    {
      "epoch": 0.009202751138235009,
      "grad_norm": 1.5536915063858032,
      "learning_rate": 9.999162065291099e-06,
      "loss": 9.375,
      "step": 190
    },
    {
      "epoch": 0.009202751138235009,
      "eval_accuracy": 0.08965256441844101,
      "eval_loss": 9.3828125,
      "eval_runtime": 277.1552,
      "eval_samples_per_second": 121.834,
      "eval_steps_per_second": 3.81,
      "step": 190
    },
    {
      "epoch": 0.00925118667054151,
      "grad_norm": 1.6295173168182373,
      "learning_rate": 9.999157221737867e-06,
      "loss": 9.3828,
      "step": 191
    },
    {
      "epoch": 0.00925118667054151,
      "eval_accuracy": 0.08979913263920268,
      "eval_loss": 9.375,
      "eval_runtime": 276.596,
      "eval_samples_per_second": 122.081,
      "eval_steps_per_second": 3.818,
      "step": 191
    },
    {
      "epoch": 0.00929962220284801,
      "grad_norm": 1.5873547792434692,
      "learning_rate": 9.999152378184637e-06,
      "loss": 9.3906,
      "step": 192
    },
    {
      "epoch": 0.00929962220284801,
      "eval_accuracy": 0.08980952529005266,
      "eval_loss": 9.375,
      "eval_runtime": 275.7787,
      "eval_samples_per_second": 122.442,
      "eval_steps_per_second": 3.829,
      "step": 192
    },
    {
      "epoch": 0.00934805773515451,
      "grad_norm": 1.4720993041992188,
      "learning_rate": 9.999147534631407e-06,
      "loss": 9.3906,
      "step": 193
    },
    {
      "epoch": 0.00934805773515451,
      "eval_accuracy": 0.08985268808230146,
      "eval_loss": 9.3671875,
      "eval_runtime": 276.9238,
      "eval_samples_per_second": 121.936,
      "eval_steps_per_second": 3.813,
      "step": 193
    },
    {
      "epoch": 0.009396493267461009,
      "grad_norm": 1.603896975517273,
      "learning_rate": 9.999142691078175e-06,
      "loss": 9.4141,
      "step": 194
    },
    {
      "epoch": 0.009396493267461009,
      "eval_accuracy": 0.08978121327743072,
      "eval_loss": 9.3671875,
      "eval_runtime": 275.8739,
      "eval_samples_per_second": 122.4,
      "eval_steps_per_second": 3.828,
      "step": 194
    },
    {
      "epoch": 0.00944492879976751,
      "grad_norm": 1.6265010833740234,
      "learning_rate": 9.999137847524946e-06,
      "loss": 9.3203,
      "step": 195
    },
    {
      "epoch": 0.00944492879976751,
      "eval_accuracy": 0.08979632459705102,
      "eval_loss": 9.359375,
      "eval_runtime": 276.051,
      "eval_samples_per_second": 122.322,
      "eval_steps_per_second": 3.825,
      "step": 195
    },
    {
      "epoch": 0.00949336433207401,
      "grad_norm": 1.609118103981018,
      "learning_rate": 9.999133003971715e-06,
      "loss": 9.3906,
      "step": 196
    },
    {
      "epoch": 0.00949336433207401,
      "eval_accuracy": 0.08980888841451311,
      "eval_loss": 9.359375,
      "eval_runtime": 274.9932,
      "eval_samples_per_second": 122.792,
      "eval_steps_per_second": 3.84,
      "step": 196
    },
    {
      "epoch": 0.00954179986438051,
      "grad_norm": 1.6511759757995605,
      "learning_rate": 9.999128160418484e-06,
      "loss": 9.3594,
      "step": 197
    },
    {
      "epoch": 0.00954179986438051,
      "eval_accuracy": 0.08997595244809313,
      "eval_loss": 9.3515625,
      "eval_runtime": 275.7963,
      "eval_samples_per_second": 122.435,
      "eval_steps_per_second": 3.829,
      "step": 197
    },
    {
      "epoch": 0.00959023539668701,
      "grad_norm": 1.5398412942886353,
      "learning_rate": 9.999123316865254e-06,
      "loss": 9.3516,
      "step": 198
    },
    {
      "epoch": 0.00959023539668701,
      "eval_accuracy": 0.09011600716901846,
      "eval_loss": 9.3515625,
      "eval_runtime": 275.8953,
      "eval_samples_per_second": 122.391,
      "eval_steps_per_second": 3.828,
      "step": 198
    },
    {
      "epoch": 0.009638670928993509,
      "grad_norm": 1.5655171871185303,
      "learning_rate": 9.999118473312022e-06,
      "loss": 9.3438,
      "step": 199
    },
    {
      "epoch": 0.009638670928993509,
      "eval_accuracy": 0.0902209468886039,
      "eval_loss": 9.34375,
      "eval_runtime": 276.4152,
      "eval_samples_per_second": 122.16,
      "eval_steps_per_second": 3.82,
      "step": 199
    },
    {
      "epoch": 0.00968710646130001,
      "grad_norm": 1.5900487899780273,
      "learning_rate": 9.999113629758792e-06,
      "loss": 9.3516,
      "step": 200
    },
    {
      "epoch": 0.00968710646130001,
      "eval_accuracy": 0.09037614187803769,
      "eval_loss": 9.34375,
      "eval_runtime": 274.9294,
      "eval_samples_per_second": 122.821,
      "eval_steps_per_second": 3.841,
      "step": 200
    },
    {
      "epoch": 0.00973554199360651,
      "grad_norm": 1.549442172050476,
      "learning_rate": 9.999108786205562e-06,
      "loss": 9.3125,
      "step": 201
    },
    {
      "epoch": 0.00973554199360651,
      "eval_accuracy": 0.09055328012469792,
      "eval_loss": 9.3359375,
      "eval_runtime": 275.1689,
      "eval_samples_per_second": 122.714,
      "eval_steps_per_second": 3.838,
      "step": 201
    },
    {
      "epoch": 0.00978397752591301,
      "grad_norm": 1.5649633407592773,
      "learning_rate": 9.99910394265233e-06,
      "loss": 9.3516,
      "step": 202
    },
    {
      "epoch": 0.00978397752591301,
      "eval_accuracy": 0.0907463113109588,
      "eval_loss": 9.3359375,
      "eval_runtime": 276.2363,
      "eval_samples_per_second": 122.24,
      "eval_steps_per_second": 3.823,
      "step": 202
    },
    {
      "epoch": 0.009832413058219509,
      "grad_norm": 1.6223474740982056,
      "learning_rate": 9.9990990990991e-06,
      "loss": 9.3359,
      "step": 203
    },
    {
      "epoch": 0.009832413058219509,
      "eval_accuracy": 0.09079908513407721,
      "eval_loss": 9.328125,
      "eval_runtime": 276.2485,
      "eval_samples_per_second": 122.234,
      "eval_steps_per_second": 3.823,
      "step": 203
    },
    {
      "epoch": 0.00988084859052601,
      "grad_norm": 1.5935430526733398,
      "learning_rate": 9.999094255545868e-06,
      "loss": 9.3516,
      "step": 204
    },
    {
      "epoch": 0.00988084859052601,
      "eval_accuracy": 0.09073201056020702,
      "eval_loss": 9.328125,
      "eval_runtime": 277.2721,
      "eval_samples_per_second": 121.783,
      "eval_steps_per_second": 3.809,
      "step": 204
    },
    {
      "epoch": 0.00992928412283251,
      "grad_norm": 1.6288846731185913,
      "learning_rate": 9.999089411992638e-06,
      "loss": 9.3281,
      "step": 205
    },
    {
      "epoch": 0.00992928412283251,
      "eval_accuracy": 0.09064690082901221,
      "eval_loss": 9.3203125,
      "eval_runtime": 276.8611,
      "eval_samples_per_second": 121.964,
      "eval_steps_per_second": 3.814,
      "step": 205
    },
    {
      "epoch": 0.00997771965513901,
      "grad_norm": 1.4847911596298218,
      "learning_rate": 9.999084568439408e-06,
      "loss": 9.375,
      "step": 206
    },
    {
      "epoch": 0.00997771965513901,
      "eval_accuracy": 0.0904633648780683,
      "eval_loss": 9.3125,
      "eval_runtime": 275.7135,
      "eval_samples_per_second": 122.471,
      "eval_steps_per_second": 3.83,
      "step": 206
    },
    {
      "epoch": 0.01002615518744551,
      "grad_norm": 1.6263271570205688,
      "learning_rate": 9.999079724886176e-06,
      "loss": 9.2812,
      "step": 207
    },
    {
      "epoch": 0.01002615518744551,
      "eval_accuracy": 0.09040885412166019,
      "eval_loss": 9.3125,
      "eval_runtime": 275.4549,
      "eval_samples_per_second": 122.586,
      "eval_steps_per_second": 3.834,
      "step": 207
    },
    {
      "epoch": 0.01007459071975201,
      "grad_norm": 1.5669511556625366,
      "learning_rate": 9.999074881332946e-06,
      "loss": 9.3281,
      "step": 208
    },
    {
      "epoch": 0.01007459071975201,
      "eval_accuracy": 0.09057241533977267,
      "eval_loss": 9.3046875,
      "eval_runtime": 276.0055,
      "eval_samples_per_second": 122.342,
      "eval_steps_per_second": 3.826,
      "step": 208
    },
    {
      "epoch": 0.01012302625205851,
      "grad_norm": 1.5233213901519775,
      "learning_rate": 9.999070037779716e-06,
      "loss": 9.3281,
      "step": 209
    },
    {
      "epoch": 0.01012302625205851,
      "eval_accuracy": 0.09081425435147383,
      "eval_loss": 9.3046875,
      "eval_runtime": 275.4632,
      "eval_samples_per_second": 122.583,
      "eval_steps_per_second": 3.834,
      "step": 209
    },
    {
      "epoch": 0.01017146178436501,
      "grad_norm": 1.6155483722686768,
      "learning_rate": 9.999065194226484e-06,
      "loss": 9.3594,
      "step": 210
    },
    {
      "epoch": 0.01017146178436501,
      "eval_accuracy": 0.0911761733512689,
      "eval_loss": 9.296875,
      "eval_runtime": 276.0337,
      "eval_samples_per_second": 122.329,
      "eval_steps_per_second": 3.826,
      "step": 210
    },
    {
      "epoch": 0.01021989731667151,
      "grad_norm": 1.5271143913269043,
      "learning_rate": 9.999060350673254e-06,
      "loss": 9.3438,
      "step": 211
    },
    {
      "epoch": 0.01021989731667151,
      "eval_accuracy": 0.09151863869821945,
      "eval_loss": 9.296875,
      "eval_runtime": 274.7088,
      "eval_samples_per_second": 122.919,
      "eval_steps_per_second": 3.844,
      "step": 211
    },
    {
      "epoch": 0.010268332848978011,
      "grad_norm": 1.6638132333755493,
      "learning_rate": 9.999055507120024e-06,
      "loss": 9.2891,
      "step": 212
    },
    {
      "epoch": 0.010268332848978011,
      "eval_accuracy": 0.09163796601522115,
      "eval_loss": 9.2890625,
      "eval_runtime": 275.693,
      "eval_samples_per_second": 122.48,
      "eval_steps_per_second": 3.83,
      "step": 212
    },
    {
      "epoch": 0.01031676838128451,
      "grad_norm": 1.5015349388122559,
      "learning_rate": 9.999050663566794e-06,
      "loss": 9.3438,
      "step": 213
    },
    {
      "epoch": 0.01031676838128451,
      "eval_accuracy": 0.09161217255586926,
      "eval_loss": 9.2890625,
      "eval_runtime": 274.9875,
      "eval_samples_per_second": 122.795,
      "eval_steps_per_second": 3.84,
      "step": 213
    },
    {
      "epoch": 0.01036520391359101,
      "grad_norm": 1.5039061307907104,
      "learning_rate": 9.999045820013564e-06,
      "loss": 9.3047,
      "step": 214
    },
    {
      "epoch": 0.01036520391359101,
      "eval_accuracy": 0.09152989981571427,
      "eval_loss": 9.28125,
      "eval_runtime": 274.8846,
      "eval_samples_per_second": 122.841,
      "eval_steps_per_second": 3.842,
      "step": 214
    },
    {
      "epoch": 0.01041363944589751,
      "grad_norm": 1.6265090703964233,
      "learning_rate": 9.999040976460332e-06,
      "loss": 9.2656,
      "step": 215
    },
    {
      "epoch": 0.01041363944589751,
      "eval_accuracy": 0.09139931138121775,
      "eval_loss": 9.28125,
      "eval_runtime": 274.6634,
      "eval_samples_per_second": 122.94,
      "eval_steps_per_second": 3.845,
      "step": 215
    },
    {
      "epoch": 0.010462074978204011,
      "grad_norm": 1.5140306949615479,
      "learning_rate": 9.999036132907102e-06,
      "loss": 9.2734,
      "step": 216
    },
    {
      "epoch": 0.010462074978204011,
      "eval_accuracy": 0.09134954824246813,
      "eval_loss": 9.2734375,
      "eval_runtime": 274.7537,
      "eval_samples_per_second": 122.899,
      "eval_steps_per_second": 3.843,
      "step": 216
    },
    {
      "epoch": 0.010510510510510511,
      "grad_norm": 1.5547981262207031,
      "learning_rate": 9.999031289353872e-06,
      "loss": 9.2891,
      "step": 217
    },
    {
      "epoch": 0.010510510510510511,
      "eval_accuracy": 0.09132992089629463,
      "eval_loss": 9.2734375,
      "eval_runtime": 275.3328,
      "eval_samples_per_second": 122.641,
      "eval_steps_per_second": 3.835,
      "step": 217
    },
    {
      "epoch": 0.01055894604281701,
      "grad_norm": 1.5140680074691772,
      "learning_rate": 9.99902644580064e-06,
      "loss": 9.2969,
      "step": 218
    },
    {
      "epoch": 0.01055894604281701,
      "eval_accuracy": 0.091310090907904,
      "eval_loss": 9.265625,
      "eval_runtime": 275.0207,
      "eval_samples_per_second": 122.78,
      "eval_steps_per_second": 3.84,
      "step": 218
    },
    {
      "epoch": 0.01060738157512351,
      "grad_norm": 1.5878396034240723,
      "learning_rate": 9.99902160224741e-06,
      "loss": 9.25,
      "step": 219
    },
    {
      "epoch": 0.01060738157512351,
      "eval_accuracy": 0.09137461797961599,
      "eval_loss": 9.265625,
      "eval_runtime": 275.3479,
      "eval_samples_per_second": 122.634,
      "eval_steps_per_second": 3.835,
      "step": 219
    },
    {
      "epoch": 0.01065581710743001,
      "grad_norm": 1.5309175252914429,
      "learning_rate": 9.99901675869418e-06,
      "loss": 9.2578,
      "step": 220
    },
    {
      "epoch": 0.01065581710743001,
      "eval_accuracy": 0.09149657964544039,
      "eval_loss": 9.2578125,
      "eval_runtime": 274.9496,
      "eval_samples_per_second": 122.812,
      "eval_steps_per_second": 3.841,
      "step": 220
    },
    {
      "epoch": 0.010704252639736511,
      "grad_norm": 1.5207297801971436,
      "learning_rate": 9.999011915140948e-06,
      "loss": 9.25,
      "step": 221
    },
    {
      "epoch": 0.010704252639736511,
      "eval_accuracy": 0.09163194464648355,
      "eval_loss": 9.2578125,
      "eval_runtime": 274.7916,
      "eval_samples_per_second": 122.882,
      "eval_steps_per_second": 3.843,
      "step": 221
    },
    {
      "epoch": 0.010752688172043012,
      "grad_norm": 1.5458952188491821,
      "learning_rate": 9.999007071587717e-06,
      "loss": 9.2656,
      "step": 222
    },
    {
      "epoch": 0.010752688172043012,
      "eval_accuracy": 0.09197788386001349,
      "eval_loss": 9.25,
      "eval_runtime": 274.1902,
      "eval_samples_per_second": 123.152,
      "eval_steps_per_second": 3.851,
      "step": 222
    },
    {
      "epoch": 0.01080112370434951,
      "grad_norm": 1.468177080154419,
      "learning_rate": 9.999002228034487e-06,
      "loss": 9.2578,
      "step": 223
    },
    {
      "epoch": 0.01080112370434951,
      "eval_accuracy": 0.09228760801445338,
      "eval_loss": 9.25,
      "eval_runtime": 274.801,
      "eval_samples_per_second": 122.878,
      "eval_steps_per_second": 3.843,
      "step": 223
    },
    {
      "epoch": 0.01084955923665601,
      "grad_norm": 1.466130018234253,
      "learning_rate": 9.998997384481255e-06,
      "loss": 9.2734,
      "step": 224
    },
    {
      "epoch": 0.01084955923665601,
      "eval_accuracy": 0.09260112447324241,
      "eval_loss": 9.2421875,
      "eval_runtime": 274.0532,
      "eval_samples_per_second": 123.213,
      "eval_steps_per_second": 3.853,
      "step": 224
    },
    {
      "epoch": 0.010897994768962511,
      "grad_norm": 1.4513353109359741,
      "learning_rate": 9.998992540928025e-06,
      "loss": 9.2891,
      "step": 225
    },
    {
      "epoch": 0.010897994768962511,
      "eval_accuracy": 0.09285208238471446,
      "eval_loss": 9.2421875,
      "eval_runtime": 274.2911,
      "eval_samples_per_second": 123.106,
      "eval_steps_per_second": 3.85,
      "step": 225
    },
    {
      "epoch": 0.010946430301269012,
      "grad_norm": 1.6049507856369019,
      "learning_rate": 9.998987697374795e-06,
      "loss": 9.25,
      "step": 226
    },
    {
      "epoch": 0.010946430301269012,
      "eval_accuracy": 0.09283341035185029,
      "eval_loss": 9.234375,
      "eval_runtime": 275.8109,
      "eval_samples_per_second": 122.428,
      "eval_steps_per_second": 3.829,
      "step": 226
    },
    {
      "epoch": 0.01099486583357551,
      "grad_norm": 1.6145049333572388,
      "learning_rate": 9.998982853821563e-06,
      "loss": 9.2344,
      "step": 227
    },
    {
      "epoch": 0.01099486583357551,
      "eval_accuracy": 0.09279450304616123,
      "eval_loss": 9.234375,
      "eval_runtime": 275.8634,
      "eval_samples_per_second": 122.405,
      "eval_steps_per_second": 3.828,
      "step": 227
    },
    {
      "epoch": 0.01104330136588201,
      "grad_norm": 1.5092509984970093,
      "learning_rate": 9.998978010268333e-06,
      "loss": 9.2656,
      "step": 228
    },
    {
      "epoch": 0.01104330136588201,
      "eval_accuracy": 0.09270768533056489,
      "eval_loss": 9.2265625,
      "eval_runtime": 275.1066,
      "eval_samples_per_second": 122.742,
      "eval_steps_per_second": 3.839,
      "step": 228
    },
    {
      "epoch": 0.011091736898188511,
      "grad_norm": 1.6245758533477783,
      "learning_rate": 9.998973166715103e-06,
      "loss": 9.2656,
      "step": 229
    },
    {
      "epoch": 0.011091736898188511,
      "eval_accuracy": 0.09277232819782952,
      "eval_loss": 9.2265625,
      "eval_runtime": 274.1156,
      "eval_samples_per_second": 123.185,
      "eval_steps_per_second": 3.852,
      "step": 229
    },
    {
      "epoch": 0.011140172430495011,
      "grad_norm": 1.5349066257476807,
      "learning_rate": 9.998968323161873e-06,
      "loss": 9.2656,
      "step": 230
    },
    {
      "epoch": 0.011140172430495011,
      "eval_accuracy": 0.09297572308605222,
      "eval_loss": 9.21875,
      "eval_runtime": 275.053,
      "eval_samples_per_second": 122.765,
      "eval_steps_per_second": 3.839,
      "step": 230
    },
    {
      "epoch": 0.011188607962801512,
      "grad_norm": 1.5491435527801514,
      "learning_rate": 9.998963479608643e-06,
      "loss": 9.25,
      "step": 231
    },
    {
      "epoch": 0.011188607962801512,
      "eval_accuracy": 0.09332889952162252,
      "eval_loss": 9.21875,
      "eval_runtime": 275.8534,
      "eval_samples_per_second": 122.409,
      "eval_steps_per_second": 3.828,
      "step": 231
    },
    {
      "epoch": 0.01123704349510801,
      "grad_norm": 1.5584843158721924,
      "learning_rate": 9.998958636055411e-06,
      "loss": 9.2891,
      "step": 232
    },
    {
      "epoch": 0.01123704349510801,
      "eval_accuracy": 0.0936537349956827,
      "eval_loss": 9.2109375,
      "eval_runtime": 275.2078,
      "eval_samples_per_second": 122.696,
      "eval_steps_per_second": 3.837,
      "step": 232
    },
    {
      "epoch": 0.011285479027414511,
      "grad_norm": 1.6923131942749023,
      "learning_rate": 9.99895379250218e-06,
      "loss": 9.2188,
      "step": 233
    },
    {
      "epoch": 0.011285479027414511,
      "eval_accuracy": 0.09384227910427856,
      "eval_loss": 9.203125,
      "eval_runtime": 275.578,
      "eval_samples_per_second": 122.532,
      "eval_steps_per_second": 3.832,
      "step": 233
    },
    {
      "epoch": 0.011333914559721011,
      "grad_norm": 1.636615514755249,
      "learning_rate": 9.99894894894895e-06,
      "loss": 9.2578,
      "step": 234
    },
    {
      "epoch": 0.011333914559721011,
      "eval_accuracy": 0.09388075217664518,
      "eval_loss": 9.203125,
      "eval_runtime": 275.1327,
      "eval_samples_per_second": 122.73,
      "eval_steps_per_second": 3.838,
      "step": 234
    },
    {
      "epoch": 0.011382350092027512,
      "grad_norm": 1.5573487281799316,
      "learning_rate": 9.998944105395719e-06,
      "loss": 9.2422,
      "step": 235
    },
    {
      "epoch": 0.011382350092027512,
      "eval_accuracy": 0.09375699567975478,
      "eval_loss": 9.1953125,
      "eval_runtime": 274.1524,
      "eval_samples_per_second": 123.169,
      "eval_steps_per_second": 3.852,
      "step": 235
    },
    {
      "epoch": 0.011430785624334012,
      "grad_norm": 1.758978009223938,
      "learning_rate": 9.998939261842489e-06,
      "loss": 9.2109,
      "step": 236
    },
    {
      "epoch": 0.011430785624334012,
      "eval_accuracy": 0.09350146384395322,
      "eval_loss": 9.1953125,
      "eval_runtime": 276.5184,
      "eval_samples_per_second": 122.115,
      "eval_steps_per_second": 3.819,
      "step": 236
    },
    {
      "epoch": 0.01147922115664051,
      "grad_norm": 1.6766207218170166,
      "learning_rate": 9.998934418289259e-06,
      "loss": 9.1797,
      "step": 237
    },
    {
      "epoch": 0.01147922115664051,
      "eval_accuracy": 0.09353747626082612,
      "eval_loss": 9.1953125,
      "eval_runtime": 275.7856,
      "eval_samples_per_second": 122.439,
      "eval_steps_per_second": 3.829,
      "step": 237
    },
    {
      "epoch": 0.011527656688947011,
      "grad_norm": 1.7581781148910522,
      "learning_rate": 9.998929574736027e-06,
      "loss": 9.1953,
      "step": 238
    },
    {
      "epoch": 0.011527656688947011,
      "eval_accuracy": 0.09377196225493427,
      "eval_loss": 9.1875,
      "eval_runtime": 276.3511,
      "eval_samples_per_second": 122.189,
      "eval_steps_per_second": 3.821,
      "step": 238
    },
    {
      "epoch": 0.011576092221253512,
      "grad_norm": 2.0294253826141357,
      "learning_rate": 9.998924731182797e-06,
      "loss": 9.1797,
      "step": 239
    },
    {
      "epoch": 0.011576092221253512,
      "eval_accuracy": 0.09428256274432681,
      "eval_loss": 9.1875,
      "eval_runtime": 275.8013,
      "eval_samples_per_second": 122.432,
      "eval_steps_per_second": 3.829,
      "step": 239
    },
    {
      "epoch": 0.011624527753560012,
      "grad_norm": 1.4771103858947754,
      "learning_rate": 9.998919887629566e-06,
      "loss": 9.2266,
      "step": 240
    },
    {
      "epoch": 0.011624527753560012,
      "eval_accuracy": 0.09478583916501448,
      "eval_loss": 9.1796875,
      "eval_runtime": 273.9293,
      "eval_samples_per_second": 123.269,
      "eval_steps_per_second": 3.855,
      "step": 240
    },
    {
      "epoch": 0.011672963285866512,
      "grad_norm": 1.494795322418213,
      "learning_rate": 9.998915044076335e-06,
      "loss": 9.2109,
      "step": 241
    },
    {
      "epoch": 0.011672963285866512,
      "eval_accuracy": 0.09512494644093829,
      "eval_loss": 9.171875,
      "eval_runtime": 274.6237,
      "eval_samples_per_second": 122.957,
      "eval_steps_per_second": 3.845,
      "step": 241
    },
    {
      "epoch": 0.011721398818173011,
      "grad_norm": 1.4708678722381592,
      "learning_rate": 9.998910200523105e-06,
      "loss": 9.1719,
      "step": 242
    },
    {
      "epoch": 0.011721398818173011,
      "eval_accuracy": 0.0953564506995658,
      "eval_loss": 9.171875,
      "eval_runtime": 274.319,
      "eval_samples_per_second": 123.094,
      "eval_steps_per_second": 3.85,
      "step": 242
    },
    {
      "epoch": 0.011769834350479512,
      "grad_norm": 1.5596672296524048,
      "learning_rate": 9.998905356969873e-06,
      "loss": 9.2031,
      "step": 243
    },
    {
      "epoch": 0.011769834350479512,
      "eval_accuracy": 0.09549230783170773,
      "eval_loss": 9.171875,
      "eval_runtime": 276.3644,
      "eval_samples_per_second": 122.183,
      "eval_steps_per_second": 3.821,
      "step": 243
    },
    {
      "epoch": 0.011818269882786012,
      "grad_norm": 1.6623671054840088,
      "learning_rate": 9.998900513416643e-06,
      "loss": 9.1953,
      "step": 244
    },
    {
      "epoch": 0.011818269882786012,
      "eval_accuracy": 0.09535106620636777,
      "eval_loss": 9.1640625,
      "eval_runtime": 276.0732,
      "eval_samples_per_second": 122.312,
      "eval_steps_per_second": 3.825,
      "step": 244
    },
    {
      "epoch": 0.011866705415092512,
      "grad_norm": 1.5597991943359375,
      "learning_rate": 9.998895669863412e-06,
      "loss": 9.1875,
      "step": 245
    },
    {
      "epoch": 0.011866705415092512,
      "eval_accuracy": 0.09501265370375983,
      "eval_loss": 9.1640625,
      "eval_runtime": 276.6977,
      "eval_samples_per_second": 122.036,
      "eval_steps_per_second": 3.816,
      "step": 245
    },
    {
      "epoch": 0.011915140947399011,
      "grad_norm": 1.540256381034851,
      "learning_rate": 9.998890826310182e-06,
      "loss": 9.2031,
      "step": 246
    },
    {
      "epoch": 0.011915140947399011,
      "eval_accuracy": 0.09489992673325895,
      "eval_loss": 9.15625,
      "eval_runtime": 275.9711,
      "eval_samples_per_second": 122.357,
      "eval_steps_per_second": 3.826,
      "step": 246
    },
    {
      "epoch": 0.011963576479705511,
      "grad_norm": 1.7622281312942505,
      "learning_rate": 9.998885982756952e-06,
      "loss": 9.1797,
      "step": 247
    },
    {
      "epoch": 0.011963576479705511,
      "eval_accuracy": 0.09502625968119574,
      "eval_loss": 9.1484375,
      "eval_runtime": 276.4265,
      "eval_samples_per_second": 122.155,
      "eval_steps_per_second": 3.82,
      "step": 247
    },
    {
      "epoch": 0.012012012012012012,
      "grad_norm": 1.5139068365097046,
      "learning_rate": 9.99888113920372e-06,
      "loss": 9.1484,
      "step": 248
    },
    {
      "epoch": 0.012012012012012012,
      "eval_accuracy": 0.09517540435300378,
      "eval_loss": 9.1484375,
      "eval_runtime": 276.0853,
      "eval_samples_per_second": 122.306,
      "eval_steps_per_second": 3.825,
      "step": 248
    },
    {
      "epoch": 0.012060447544318512,
      "grad_norm": 1.8858153820037842,
      "learning_rate": 9.99887629565049e-06,
      "loss": 9.1406,
      "step": 249
    },
    {
      "epoch": 0.012060447544318512,
      "eval_accuracy": 0.0953735305435811,
      "eval_loss": 9.1484375,
      "eval_runtime": 277.0667,
      "eval_samples_per_second": 121.873,
      "eval_steps_per_second": 3.811,
      "step": 249
    },
    {
      "epoch": 0.012108883076625013,
      "grad_norm": 1.5456604957580566,
      "learning_rate": 9.99887145209726e-06,
      "loss": 9.1641,
      "step": 250
    },
    {
      "epoch": 0.012108883076625013,
      "eval_accuracy": 0.09559869499570124,
      "eval_loss": 9.140625,
      "eval_runtime": 277.6666,
      "eval_samples_per_second": 121.61,
      "eval_steps_per_second": 3.803,
      "step": 250
    },
    {
      "epoch": 0.012157318608931511,
      "grad_norm": 1.594663143157959,
      "learning_rate": 9.998866608544028e-06,
      "loss": 9.1406,
      "step": 251
    },
    {
      "epoch": 0.012157318608931511,
      "eval_accuracy": 0.09564637381450322,
      "eval_loss": 9.140625,
      "eval_runtime": 276.8219,
      "eval_samples_per_second": 121.981,
      "eval_steps_per_second": 3.815,
      "step": 251
    },
    {
      "epoch": 0.012205754141238012,
      "grad_norm": 1.6868451833724976,
      "learning_rate": 9.998861764990798e-06,
      "loss": 9.1719,
      "step": 252
    },
    {
      "epoch": 0.012205754141238012,
      "eval_accuracy": 0.09536970929034377,
      "eval_loss": 9.1328125,
      "eval_runtime": 274.9951,
      "eval_samples_per_second": 122.791,
      "eval_steps_per_second": 3.84,
      "step": 252
    },
    {
      "epoch": 0.012254189673544512,
      "grad_norm": 1.5256409645080566,
      "learning_rate": 9.998856921437568e-06,
      "loss": 9.125,
      "step": 253
    },
    {
      "epoch": 0.012254189673544512,
      "eval_accuracy": 0.09525680862651392,
      "eval_loss": 9.1328125,
      "eval_runtime": 275.3586,
      "eval_samples_per_second": 122.629,
      "eval_steps_per_second": 3.835,
      "step": 253
    },
    {
      "epoch": 0.012302625205851013,
      "grad_norm": 1.565302848815918,
      "learning_rate": 9.998852077884336e-06,
      "loss": 9.1719,
      "step": 254
    },
    {
      "epoch": 0.012302625205851013,
      "eval_accuracy": 0.09499291056203368,
      "eval_loss": 9.125,
      "eval_runtime": 275.0624,
      "eval_samples_per_second": 122.761,
      "eval_steps_per_second": 3.839,
      "step": 254
    },
    {
      "epoch": 0.012351060738157513,
      "grad_norm": 1.4815526008605957,
      "learning_rate": 9.998847234331106e-06,
      "loss": 9.1797,
      "step": 255
    },
    {
      "epoch": 0.012351060738157513,
      "eval_accuracy": 0.09496150101837846,
      "eval_loss": 9.125,
      "eval_runtime": 275.5286,
      "eval_samples_per_second": 122.554,
      "eval_steps_per_second": 3.833,
      "step": 255
    },
    {
      "epoch": 0.012399496270464012,
      "grad_norm": 1.6366430521011353,
      "learning_rate": 9.998842390777876e-06,
      "loss": 9.0859,
      "step": 256
    },
    {
      "epoch": 0.012399496270464012,
      "eval_accuracy": 0.09506522488466111,
      "eval_loss": 9.1171875,
      "eval_runtime": 276.1079,
      "eval_samples_per_second": 122.296,
      "eval_steps_per_second": 3.825,
      "step": 256
    },
    {
      "epoch": 0.012447931802770512,
      "grad_norm": 1.6034120321273804,
      "learning_rate": 9.998837547224644e-06,
      "loss": 9.1875,
      "step": 257
    },
    {
      "epoch": 0.012447931802770512,
      "eval_accuracy": 0.09566794073618354,
      "eval_loss": 9.1171875,
      "eval_runtime": 275.8176,
      "eval_samples_per_second": 122.425,
      "eval_steps_per_second": 3.829,
      "step": 257
    },
    {
      "epoch": 0.012496367335077013,
      "grad_norm": 1.6382652521133423,
      "learning_rate": 9.998832703671414e-06,
      "loss": 9.1094,
      "step": 258
    },
    {
      "epoch": 0.012496367335077013,
      "eval_accuracy": 0.09628628898731317,
      "eval_loss": 9.109375,
      "eval_runtime": 275.7044,
      "eval_samples_per_second": 122.475,
      "eval_steps_per_second": 3.83,
      "step": 258
    },
    {
      "epoch": 0.012544802867383513,
      "grad_norm": 1.4967926740646362,
      "learning_rate": 9.998827860118184e-06,
      "loss": 9.0938,
      "step": 259
    },
    {
      "epoch": 0.012544802867383513,
      "eval_accuracy": 0.09678612049030963,
      "eval_loss": 9.109375,
      "eval_runtime": 276.0511,
      "eval_samples_per_second": 122.322,
      "eval_steps_per_second": 3.825,
      "step": 259
    },
    {
      "epoch": 0.012593238399690013,
      "grad_norm": 2.137125015258789,
      "learning_rate": 9.998823016564952e-06,
      "loss": 9.1016,
      "step": 260
    },
    {
      "epoch": 0.012593238399690013,
      "eval_accuracy": 0.09689392614982306,
      "eval_loss": 9.1015625,
      "eval_runtime": 276.485,
      "eval_samples_per_second": 122.13,
      "eval_steps_per_second": 3.819,
      "step": 260
    },
    {
      "epoch": 0.012641673931996512,
      "grad_norm": 1.655360460281372,
      "learning_rate": 9.998818173011722e-06,
      "loss": 9.1406,
      "step": 261
    },
    {
      "epoch": 0.012641673931996512,
      "eval_accuracy": 0.09685108179534405,
      "eval_loss": 9.1015625,
      "eval_runtime": 276.2683,
      "eval_samples_per_second": 122.225,
      "eval_steps_per_second": 3.822,
      "step": 261
    },
    {
      "epoch": 0.012690109464303012,
      "grad_norm": 1.615159273147583,
      "learning_rate": 9.998813329458492e-06,
      "loss": 9.0781,
      "step": 262
    },
    {
      "epoch": 0.012690109464303012,
      "eval_accuracy": 0.09661187713246557,
      "eval_loss": 9.09375,
      "eval_runtime": 277.0541,
      "eval_samples_per_second": 121.879,
      "eval_steps_per_second": 3.812,
      "step": 262
    },
    {
      "epoch": 0.012738544996609513,
      "grad_norm": 1.56972074508667,
      "learning_rate": 9.998808485905261e-06,
      "loss": 9.1094,
      "step": 263
    },
    {
      "epoch": 0.012738544996609513,
      "eval_accuracy": 0.09626272459234972,
      "eval_loss": 9.09375,
      "eval_runtime": 276.2994,
      "eval_samples_per_second": 122.212,
      "eval_steps_per_second": 3.822,
      "step": 263
    },
    {
      "epoch": 0.012786980528916013,
      "grad_norm": 1.5011804103851318,
      "learning_rate": 9.998803642352031e-06,
      "loss": 9.1172,
      "step": 264
    },
    {
      "epoch": 0.012786980528916013,
      "eval_accuracy": 0.09589736067486343,
      "eval_loss": 9.0859375,
      "eval_runtime": 276.7096,
      "eval_samples_per_second": 122.03,
      "eval_steps_per_second": 3.816,
      "step": 264
    },
    {
      "epoch": 0.012835416061222512,
      "grad_norm": 1.6870362758636475,
      "learning_rate": 9.9987987987988e-06,
      "loss": 9.1172,
      "step": 265
    },
    {
      "epoch": 0.012835416061222512,
      "eval_accuracy": 0.09563450477035701,
      "eval_loss": 9.0859375,
      "eval_runtime": 275.3219,
      "eval_samples_per_second": 122.646,
      "eval_steps_per_second": 3.836,
      "step": 265
    },
    {
      "epoch": 0.012883851593529012,
      "grad_norm": 1.5479800701141357,
      "learning_rate": 9.99879395524557e-06,
      "loss": 9.125,
      "step": 266
    },
    {
      "epoch": 0.012883851593529012,
      "eval_accuracy": 0.09551361421339459,
      "eval_loss": 9.0859375,
      "eval_runtime": 275.3988,
      "eval_samples_per_second": 122.611,
      "eval_steps_per_second": 3.834,
      "step": 266
    },
    {
      "epoch": 0.012932287125835513,
      "grad_norm": 1.5906175374984741,
      "learning_rate": 9.99878911169234e-06,
      "loss": 9.1094,
      "step": 267
    },
    {
      "epoch": 0.012932287125835513,
      "eval_accuracy": 0.09573892340995555,
      "eval_loss": 9.078125,
      "eval_runtime": 273.7737,
      "eval_samples_per_second": 123.339,
      "eval_steps_per_second": 3.857,
      "step": 267
    },
    {
      "epoch": 0.012980722658142013,
      "grad_norm": 1.5682505369186401,
      "learning_rate": 9.998784268139107e-06,
      "loss": 9.0781,
      "step": 268
    },
    {
      "epoch": 0.012980722658142013,
      "eval_accuracy": 0.09638306512043707,
      "eval_loss": 9.078125,
      "eval_runtime": 272.9963,
      "eval_samples_per_second": 123.69,
      "eval_steps_per_second": 3.868,
      "step": 268
    },
    {
      "epoch": 0.013029158190448514,
      "grad_norm": 1.5259824991226196,
      "learning_rate": 9.998779424585877e-06,
      "loss": 9.125,
      "step": 269
    },
    {
      "epoch": 0.013029158190448514,
      "eval_accuracy": 0.09727434348915333,
      "eval_loss": 9.0703125,
      "eval_runtime": 274.1813,
      "eval_samples_per_second": 123.156,
      "eval_steps_per_second": 3.851,
      "step": 269
    },
    {
      "epoch": 0.013077593722755012,
      "grad_norm": 1.5006844997406006,
      "learning_rate": 9.998774581032647e-06,
      "loss": 9.0547,
      "step": 270
    },
    {
      "epoch": 0.013077593722755012,
      "eval_accuracy": 0.09799540239547996,
      "eval_loss": 9.0703125,
      "eval_runtime": 272.3774,
      "eval_samples_per_second": 123.971,
      "eval_steps_per_second": 3.877,
      "step": 270
    },
    {
      "epoch": 0.013126029255061513,
      "grad_norm": 1.4817960262298584,
      "learning_rate": 9.998769737479415e-06,
      "loss": 9.0781,
      "step": 271
    },
    {
      "epoch": 0.013126029255061513,
      "eval_accuracy": 0.09830503970325537,
      "eval_loss": 9.0625,
      "eval_runtime": 271.8893,
      "eval_samples_per_second": 124.194,
      "eval_steps_per_second": 3.884,
      "step": 271
    },
    {
      "epoch": 0.013174464787368013,
      "grad_norm": 1.6597894430160522,
      "learning_rate": 9.998764893926185e-06,
      "loss": 9.1016,
      "step": 272
    },
    {
      "epoch": 0.013174464787368013,
      "eval_accuracy": 0.09809840253955858,
      "eval_loss": 9.0625,
      "eval_runtime": 273.6177,
      "eval_samples_per_second": 123.409,
      "eval_steps_per_second": 3.859,
      "step": 272
    },
    {
      "epoch": 0.013222900319674514,
      "grad_norm": 1.5939491987228394,
      "learning_rate": 9.998760050372955e-06,
      "loss": 9.0703,
      "step": 273
    },
    {
      "epoch": 0.013222900319674514,
      "eval_accuracy": 0.09753586774480431,
      "eval_loss": 9.0546875,
      "eval_runtime": 273.2408,
      "eval_samples_per_second": 123.58,
      "eval_steps_per_second": 3.865,
      "step": 273
    },
    {
      "epoch": 0.013271335851981014,
      "grad_norm": 1.5878655910491943,
      "learning_rate": 9.998755206819723e-06,
      "loss": 9.0547,
      "step": 274
    },
    {
      "epoch": 0.013271335851981014,
      "eval_accuracy": 0.09690096072964631,
      "eval_loss": 9.0546875,
      "eval_runtime": 272.9584,
      "eval_samples_per_second": 123.707,
      "eval_steps_per_second": 3.869,
      "step": 274
    },
    {
      "epoch": 0.013319771384287513,
      "grad_norm": 1.6010398864746094,
      "learning_rate": 9.998750363266493e-06,
      "loss": 9.0312,
      "step": 275
    },
    {
      "epoch": 0.013319771384287513,
      "eval_accuracy": 0.09638720481144417,
      "eval_loss": 9.046875,
      "eval_runtime": 272.7096,
      "eval_samples_per_second": 123.82,
      "eval_steps_per_second": 3.872,
      "step": 275
    },
    {
      "epoch": 0.013368206916594013,
      "grad_norm": 1.7441232204437256,
      "learning_rate": 9.998745519713263e-06,
      "loss": 9.0938,
      "step": 276
    },
    {
      "epoch": 0.013368206916594013,
      "eval_accuracy": 0.09639140240022759,
      "eval_loss": 9.046875,
      "eval_runtime": 273.1864,
      "eval_samples_per_second": 123.604,
      "eval_steps_per_second": 3.865,
      "step": 276
    },
    {
      "epoch": 0.013416642448900513,
      "grad_norm": 1.586517095565796,
      "learning_rate": 9.998740676160031e-06,
      "loss": 9.0156,
      "step": 277
    },
    {
      "epoch": 0.013416642448900513,
      "eval_accuracy": 0.09671230082549781,
      "eval_loss": 9.0390625,
      "eval_runtime": 272.732,
      "eval_samples_per_second": 123.81,
      "eval_steps_per_second": 3.872,
      "step": 277
    },
    {
      "epoch": 0.013465077981207014,
      "grad_norm": 1.5039782524108887,
      "learning_rate": 9.998735832606801e-06,
      "loss": 9.1094,
      "step": 278
    },
    {
      "epoch": 0.013465077981207014,
      "eval_accuracy": 0.0972694800759422,
      "eval_loss": 9.0390625,
      "eval_runtime": 272.288,
      "eval_samples_per_second": 124.012,
      "eval_steps_per_second": 3.878,
      "step": 278
    },
    {
      "epoch": 0.013513513513513514,
      "grad_norm": 1.534090518951416,
      "learning_rate": 9.99873098905357e-06,
      "loss": 9.0859,
      "step": 279
    },
    {
      "epoch": 0.013513513513513514,
      "eval_accuracy": 0.09795999790525846,
      "eval_loss": 9.03125,
      "eval_runtime": 273.6685,
      "eval_samples_per_second": 123.387,
      "eval_steps_per_second": 3.859,
      "step": 279
    },
    {
      "epoch": 0.013561949045820013,
      "grad_norm": 1.5849289894104004,
      "learning_rate": 9.99872614550034e-06,
      "loss": 9.0234,
      "step": 280
    },
    {
      "epoch": 0.013561949045820013,
      "eval_accuracy": 0.09837451703484297,
      "eval_loss": 9.03125,
      "eval_runtime": 273.5891,
      "eval_samples_per_second": 123.422,
      "eval_steps_per_second": 3.86,
      "step": 280
    },
    {
      "epoch": 0.013610384578126513,
      "grad_norm": 1.523674488067627,
      "learning_rate": 9.99872130194711e-06,
      "loss": 9.0781,
      "step": 281
    },
    {
      "epoch": 0.013610384578126513,
      "eval_accuracy": 0.09843887041322598,
      "eval_loss": 9.0234375,
      "eval_runtime": 271.771,
      "eval_samples_per_second": 124.248,
      "eval_steps_per_second": 3.886,
      "step": 281
    },
    {
      "epoch": 0.013658820110433014,
      "grad_norm": 1.646908164024353,
      "learning_rate": 9.998716458393879e-06,
      "loss": 9.0547,
      "step": 282
    },
    {
      "epoch": 0.013658820110433014,
      "eval_accuracy": 0.09825828724887455,
      "eval_loss": 9.0234375,
      "eval_runtime": 272.8785,
      "eval_samples_per_second": 123.744,
      "eval_steps_per_second": 3.87,
      "step": 282
    },
    {
      "epoch": 0.013707255642739514,
      "grad_norm": 1.6313369274139404,
      "learning_rate": 9.998711614840649e-06,
      "loss": 9.0234,
      "step": 283
    },
    {
      "epoch": 0.013707255642739514,
      "eval_accuracy": 0.09794141271905878,
      "eval_loss": 9.015625,
      "eval_runtime": 273.6116,
      "eval_samples_per_second": 123.412,
      "eval_steps_per_second": 3.859,
      "step": 283
    },
    {
      "epoch": 0.013755691175046015,
      "grad_norm": 1.6014082431793213,
      "learning_rate": 9.998706771287417e-06,
      "loss": 9.0312,
      "step": 284
    },
    {
      "epoch": 0.013755691175046015,
      "eval_accuracy": 0.09782020372432657,
      "eval_loss": 9.015625,
      "eval_runtime": 273.8768,
      "eval_samples_per_second": 123.293,
      "eval_steps_per_second": 3.856,
      "step": 284
    },
    {
      "epoch": 0.013804126707352513,
      "grad_norm": 1.5171185731887817,
      "learning_rate": 9.998701927734187e-06,
      "loss": 9.0391,
      "step": 285
    },
    {
      "epoch": 0.013804126707352513,
      "eval_accuracy": 0.09783482291284813,
      "eval_loss": 9.0078125,
      "eval_runtime": 273.0741,
      "eval_samples_per_second": 123.655,
      "eval_steps_per_second": 3.867,
      "step": 285
    },
    {
      "epoch": 0.013852562239659014,
      "grad_norm": 1.5492215156555176,
      "learning_rate": 9.998697084180956e-06,
      "loss": 9.0312,
      "step": 286
    },
    {
      "epoch": 0.013852562239659014,
      "eval_accuracy": 0.09799062582893332,
      "eval_loss": 9.0078125,
      "eval_runtime": 273.3737,
      "eval_samples_per_second": 123.52,
      "eval_steps_per_second": 3.863,
      "step": 286
    },
    {
      "epoch": 0.013900997771965514,
      "grad_norm": 1.6462546586990356,
      "learning_rate": 9.998692240627725e-06,
      "loss": 9.0625,
      "step": 287
    },
    {
      "epoch": 0.013900997771965514,
      "eval_accuracy": 0.09823570711610857,
      "eval_loss": 9.0078125,
      "eval_runtime": 272.8604,
      "eval_samples_per_second": 123.752,
      "eval_steps_per_second": 3.87,
      "step": 287
    },
    {
      "epoch": 0.013949433304272014,
      "grad_norm": 1.6392829418182373,
      "learning_rate": 9.998687397074494e-06,
      "loss": 9.0234,
      "step": 288
    },
    {
      "epoch": 0.013949433304272014,
      "eval_accuracy": 0.09855127894595708,
      "eval_loss": 9.0,
      "eval_runtime": 272.8831,
      "eval_samples_per_second": 123.742,
      "eval_steps_per_second": 3.87,
      "step": 288
    },
    {
      "epoch": 0.013997868836578513,
      "grad_norm": 1.5253773927688599,
      "learning_rate": 9.998682553521264e-06,
      "loss": 9.0078,
      "step": 289
    },
    {
      "epoch": 0.013997868836578513,
      "eval_accuracy": 0.09903811239816902,
      "eval_loss": 9.0,
      "eval_runtime": 272.9158,
      "eval_samples_per_second": 123.727,
      "eval_steps_per_second": 3.869,
      "step": 289
    },
    {
      "epoch": 0.014046304368885014,
      "grad_norm": 1.496385931968689,
      "learning_rate": 9.998677709968032e-06,
      "loss": 9.0,
      "step": 290
    },
    {
      "epoch": 0.014046304368885014,
      "eval_accuracy": 0.09958177251784199,
      "eval_loss": 8.9921875,
      "eval_runtime": 273.8166,
      "eval_samples_per_second": 123.32,
      "eval_steps_per_second": 3.857,
      "step": 290
    },
    {
      "epoch": 0.014094739901191514,
      "grad_norm": 1.5430630445480347,
      "learning_rate": 9.998672866414802e-06,
      "loss": 9.0078,
      "step": 291
    },
    {
      "epoch": 0.014094739901191514,
      "eval_accuracy": 0.09971363470341763,
      "eval_loss": 8.9921875,
      "eval_runtime": 272.085,
      "eval_samples_per_second": 124.105,
      "eval_steps_per_second": 3.881,
      "step": 291
    },
    {
      "epoch": 0.014143175433498014,
      "grad_norm": 1.7000993490219116,
      "learning_rate": 9.998668022861572e-06,
      "loss": 9.0,
      "step": 292
    },
    {
      "epoch": 0.014143175433498014,
      "eval_accuracy": 0.09992762488470744,
      "eval_loss": 8.984375,
      "eval_runtime": 273.2642,
      "eval_samples_per_second": 123.569,
      "eval_steps_per_second": 3.864,
      "step": 292
    },
    {
      "epoch": 0.014191610965804515,
      "grad_norm": 1.5401760339736938,
      "learning_rate": 9.99866317930834e-06,
      "loss": 9.0078,
      "step": 293
    },
    {
      "epoch": 0.014191610965804515,
      "eval_accuracy": 0.09988570689464958,
      "eval_loss": 8.984375,
      "eval_runtime": 271.53,
      "eval_samples_per_second": 124.358,
      "eval_steps_per_second": 3.889,
      "step": 293
    },
    {
      "epoch": 0.014240046498111014,
      "grad_norm": 1.5899308919906616,
      "learning_rate": 9.99865833575511e-06,
      "loss": 8.9922,
      "step": 294
    },
    {
      "epoch": 0.014240046498111014,
      "eval_accuracy": 0.09954338629213985,
      "eval_loss": 8.9765625,
      "eval_runtime": 271.4912,
      "eval_samples_per_second": 124.376,
      "eval_steps_per_second": 3.89,
      "step": 294
    },
    {
      "epoch": 0.014288482030417514,
      "grad_norm": 1.5780622959136963,
      "learning_rate": 9.99865349220188e-06,
      "loss": 9.0078,
      "step": 295
    },
    {
      "epoch": 0.014288482030417514,
      "eval_accuracy": 0.09903443588937252,
      "eval_loss": 8.9765625,
      "eval_runtime": 272.7386,
      "eval_samples_per_second": 123.807,
      "eval_steps_per_second": 3.872,
      "step": 295
    },
    {
      "epoch": 0.014336917562724014,
      "grad_norm": 1.6593127250671387,
      "learning_rate": 9.998648648648648e-06,
      "loss": 8.9844,
      "step": 296
    },
    {
      "epoch": 0.014336917562724014,
      "eval_accuracy": 0.09852673028879613,
      "eval_loss": 8.96875,
      "eval_runtime": 273.5255,
      "eval_samples_per_second": 123.451,
      "eval_steps_per_second": 3.861,
      "step": 296
    },
    {
      "epoch": 0.014385353095030515,
      "grad_norm": 1.5654476881027222,
      "learning_rate": 9.99864380509542e-06,
      "loss": 8.9766,
      "step": 297
    },
    {
      "epoch": 0.014385353095030515,
      "eval_accuracy": 0.09832848830266619,
      "eval_loss": 8.96875,
      "eval_runtime": 272.9229,
      "eval_samples_per_second": 123.724,
      "eval_steps_per_second": 3.869,
      "step": 297
    },
    {
      "epoch": 0.014433788627337015,
      "grad_norm": 1.604347586631775,
      "learning_rate": 9.998638961542188e-06,
      "loss": 8.9531,
      "step": 298
    },
    {
      "epoch": 0.014433788627337015,
      "eval_accuracy": 0.09845606605279392,
      "eval_loss": 8.9609375,
      "eval_runtime": 274.3511,
      "eval_samples_per_second": 123.08,
      "eval_steps_per_second": 3.849,
      "step": 298
    },
    {
      "epoch": 0.014482224159643514,
      "grad_norm": 1.6617177724838257,
      "learning_rate": 9.998634117988958e-06,
      "loss": 8.9688,
      "step": 299
    },
    {
      "epoch": 0.014482224159643514,
      "eval_accuracy": 0.09881535070376629,
      "eval_loss": 8.9609375,
      "eval_runtime": 275.2558,
      "eval_samples_per_second": 122.675,
      "eval_steps_per_second": 3.836,
      "step": 299
    },
    {
      "epoch": 0.014530659691950014,
      "grad_norm": 1.5470112562179565,
      "learning_rate": 9.998629274435728e-06,
      "loss": 9.0312,
      "step": 300
    },
    {
      "epoch": 0.014530659691950014,
      "eval_accuracy": 0.09944139935914688,
      "eval_loss": 8.953125,
      "eval_runtime": 276.2061,
      "eval_samples_per_second": 122.253,
      "eval_steps_per_second": 3.823,
      "step": 300
    },
    {
      "epoch": 0.014579095224256515,
      "grad_norm": 1.5366243124008179,
      "learning_rate": 9.998624430882496e-06,
      "loss": 9.0156,
      "step": 301
    },
    {
      "epoch": 0.014579095224256515,
      "eval_accuracy": 0.0997650189799043,
      "eval_loss": 8.953125,
      "eval_runtime": 273.6153,
      "eval_samples_per_second": 123.41,
      "eval_steps_per_second": 3.859,
      "step": 301
    },
    {
      "epoch": 0.014627530756563015,
      "grad_norm": 1.8393828868865967,
      "learning_rate": 9.998619587329266e-06,
      "loss": 8.9688,
      "step": 302
    },
    {
      "epoch": 0.014627530756563015,
      "eval_accuracy": 0.09985768437090925,
      "eval_loss": 8.9453125,
      "eval_runtime": 272.5368,
      "eval_samples_per_second": 123.899,
      "eval_steps_per_second": 3.875,
      "step": 302
    },
    {
      "epoch": 0.014675966288869515,
      "grad_norm": 1.5231480598449707,
      "learning_rate": 9.998614743776036e-06,
      "loss": 9.0,
      "step": 303
    },
    {
      "epoch": 0.014675966288869515,
      "eval_accuracy": 0.09973019346744601,
      "eval_loss": 8.9453125,
      "eval_runtime": 272.9977,
      "eval_samples_per_second": 123.69,
      "eval_steps_per_second": 3.868,
      "step": 303
    },
    {
      "epoch": 0.014724401821176014,
      "grad_norm": 1.4661198854446411,
      "learning_rate": 9.998609900222804e-06,
      "loss": 8.9375,
      "step": 304
    },
    {
      "epoch": 0.014724401821176014,
      "eval_accuracy": 0.09956171093834608,
      "eval_loss": 8.9375,
      "eval_runtime": 273.4012,
      "eval_samples_per_second": 123.507,
      "eval_steps_per_second": 3.862,
      "step": 304
    },
    {
      "epoch": 0.014772837353482515,
      "grad_norm": 1.561277985572815,
      "learning_rate": 9.998605056669574e-06,
      "loss": 8.9766,
      "step": 305
    },
    {
      "epoch": 0.014772837353482515,
      "eval_accuracy": 0.09941792181084791,
      "eval_loss": 8.9375,
      "eval_runtime": 273.3274,
      "eval_samples_per_second": 123.54,
      "eval_steps_per_second": 3.863,
      "step": 305
    },
    {
      "epoch": 0.014821272885789015,
      "grad_norm": 1.5084242820739746,
      "learning_rate": 9.998600213116343e-06,
      "loss": 8.9375,
      "step": 306
    },
    {
      "epoch": 0.014821272885789015,
      "eval_accuracy": 0.09944964979227292,
      "eval_loss": 8.9375,
      "eval_runtime": 272.8323,
      "eval_samples_per_second": 123.765,
      "eval_steps_per_second": 3.871,
      "step": 306
    },
    {
      "epoch": 0.014869708418095515,
      "grad_norm": 1.533602237701416,
      "learning_rate": 9.998595369563112e-06,
      "loss": 8.9688,
      "step": 307
    },
    {
      "epoch": 0.014869708418095515,
      "eval_accuracy": 0.09968031453314374,
      "eval_loss": 8.9296875,
      "eval_runtime": 273.2909,
      "eval_samples_per_second": 123.557,
      "eval_steps_per_second": 3.864,
      "step": 307
    },
    {
      "epoch": 0.014918143950402014,
      "grad_norm": 1.527116060256958,
      "learning_rate": 9.998590526009882e-06,
      "loss": 8.9531,
      "step": 308
    },
    {
      "epoch": 0.014918143950402014,
      "eval_accuracy": 0.099938480717768,
      "eval_loss": 8.9296875,
      "eval_runtime": 273.5392,
      "eval_samples_per_second": 123.445,
      "eval_steps_per_second": 3.861,
      "step": 308
    },
    {
      "epoch": 0.014966579482708514,
      "grad_norm": 1.5343533754348755,
      "learning_rate": 9.998585682456651e-06,
      "loss": 8.9531,
      "step": 309
    },
    {
      "epoch": 0.014966579482708514,
      "eval_accuracy": 0.10016824804310583,
      "eval_loss": 8.921875,
      "eval_runtime": 273.4771,
      "eval_samples_per_second": 123.473,
      "eval_steps_per_second": 3.861,
      "step": 309
    },
    {
      "epoch": 0.015015015015015015,
      "grad_norm": 2.02919602394104,
      "learning_rate": 9.99858083890342e-06,
      "loss": 8.9062,
      "step": 310
    },
    {
      "epoch": 0.015015015015015015,
      "eval_accuracy": 0.10033235929009336,
      "eval_loss": 8.921875,
      "eval_runtime": 272.9511,
      "eval_samples_per_second": 123.711,
      "eval_steps_per_second": 3.869,
      "step": 310
    },
    {
      "epoch": 0.015063450547321515,
      "grad_norm": 1.50547456741333,
      "learning_rate": 9.99857599535019e-06,
      "loss": 8.9375,
      "step": 311
    },
    {
      "epoch": 0.015063450547321515,
      "eval_accuracy": 0.10040134449058222,
      "eval_loss": 8.9140625,
      "eval_runtime": 274.4167,
      "eval_samples_per_second": 123.05,
      "eval_steps_per_second": 3.848,
      "step": 311
    },
    {
      "epoch": 0.015111886079628016,
      "grad_norm": 1.5935693979263306,
      "learning_rate": 9.99857115179696e-06,
      "loss": 8.8828,
      "step": 312
    },
    {
      "epoch": 0.015111886079628016,
      "eval_accuracy": 0.1003402333876733,
      "eval_loss": 8.9140625,
      "eval_runtime": 272.7238,
      "eval_samples_per_second": 123.814,
      "eval_steps_per_second": 3.872,
      "step": 312
    },
    {
      "epoch": 0.015160321611934514,
      "grad_norm": 1.4832584857940674,
      "learning_rate": 9.998566308243727e-06,
      "loss": 8.9219,
      "step": 313
    },
    {
      "epoch": 0.015160321611934514,
      "eval_accuracy": 0.10030963441288658,
      "eval_loss": 8.90625,
      "eval_runtime": 272.1097,
      "eval_samples_per_second": 124.093,
      "eval_steps_per_second": 3.881,
      "step": 313
    },
    {
      "epoch": 0.015208757144241015,
      "grad_norm": 1.4832618236541748,
      "learning_rate": 9.998561464690499e-06,
      "loss": 8.9219,
      "step": 314
    },
    {
      "epoch": 0.015208757144241015,
      "eval_accuracy": 0.10044369671396249,
      "eval_loss": 8.90625,
      "eval_runtime": 273.1456,
      "eval_samples_per_second": 123.623,
      "eval_steps_per_second": 3.866,
      "step": 314
    },
    {
      "epoch": 0.015257192676547515,
      "grad_norm": 1.5148617029190063,
      "learning_rate": 9.998556621137267e-06,
      "loss": 8.9297,
      "step": 315
    },
    {
      "epoch": 0.015257192676547515,
      "eval_accuracy": 0.10085141285482906,
      "eval_loss": 8.90625,
      "eval_runtime": 273.2988,
      "eval_samples_per_second": 123.553,
      "eval_steps_per_second": 3.864,
      "step": 315
    },
    {
      "epoch": 0.015305628208854016,
      "grad_norm": 1.433423638343811,
      "learning_rate": 9.998551777584037e-06,
      "loss": 8.9922,
      "step": 316
    },
    {
      "epoch": 0.015305628208854016,
      "eval_accuracy": 0.10107848793356786,
      "eval_loss": 8.8984375,
      "eval_runtime": 273.7559,
      "eval_samples_per_second": 123.347,
      "eval_steps_per_second": 3.857,
      "step": 316
    },
    {
      "epoch": 0.015354063741160516,
      "grad_norm": 1.5502877235412598,
      "learning_rate": 9.998546934030807e-06,
      "loss": 8.9062,
      "step": 317
    },
    {
      "epoch": 0.015354063741160516,
      "eval_accuracy": 0.10110254445963007,
      "eval_loss": 8.8984375,
      "eval_runtime": 273.1804,
      "eval_samples_per_second": 123.607,
      "eval_steps_per_second": 3.866,
      "step": 317
    },
    {
      "epoch": 0.015402499273467015,
      "grad_norm": 1.4339704513549805,
      "learning_rate": 9.998542090477575e-06,
      "loss": 8.9297,
      "step": 318
    },
    {
      "epoch": 0.015402499273467015,
      "eval_accuracy": 0.10105709470521651,
      "eval_loss": 8.890625,
      "eval_runtime": 272.4751,
      "eval_samples_per_second": 123.927,
      "eval_steps_per_second": 3.876,
      "step": 318
    },
    {
      "epoch": 0.015450934805773515,
      "grad_norm": 1.5828499794006348,
      "learning_rate": 9.998537246924345e-06,
      "loss": 8.9531,
      "step": 319
    },
    {
      "epoch": 0.015450934805773515,
      "eval_accuracy": 0.1008436256039136,
      "eval_loss": 8.890625,
      "eval_runtime": 273.6696,
      "eval_samples_per_second": 123.386,
      "eval_steps_per_second": 3.859,
      "step": 319
    },
    {
      "epoch": 0.015499370338080016,
      "grad_norm": 1.4665073156356812,
      "learning_rate": 9.998532403371115e-06,
      "loss": 8.9531,
      "step": 320
    },
    {
      "epoch": 0.015499370338080016,
      "eval_accuracy": 0.10056403724204985,
      "eval_loss": 8.8828125,
      "eval_runtime": 273.7537,
      "eval_samples_per_second": 123.348,
      "eval_steps_per_second": 3.857,
      "step": 320
    },
    {
      "epoch": 0.015547805870386516,
      "grad_norm": 1.5187170505523682,
      "learning_rate": 9.998527559817883e-06,
      "loss": 8.9375,
      "step": 321
    },
    {
      "epoch": 0.015547805870386516,
      "eval_accuracy": 0.10036628738701864,
      "eval_loss": 8.8828125,
      "eval_runtime": 274.5883,
      "eval_samples_per_second": 122.973,
      "eval_steps_per_second": 3.846,
      "step": 321
    },
    {
      "epoch": 0.015596241402693016,
      "grad_norm": 1.6168104410171509,
      "learning_rate": 9.998522716264653e-06,
      "loss": 8.9219,
      "step": 322
    },
    {
      "epoch": 0.015596241402693016,
      "eval_accuracy": 0.10023019866377143,
      "eval_loss": 8.875,
      "eval_runtime": 274.4874,
      "eval_samples_per_second": 123.018,
      "eval_steps_per_second": 3.847,
      "step": 322
    },
    {
      "epoch": 0.015644676934999515,
      "grad_norm": 1.5896227359771729,
      "learning_rate": 9.998517872711423e-06,
      "loss": 8.9062,
      "step": 323
    },
    {
      "epoch": 0.015644676934999515,
      "eval_accuracy": 0.10039622053737764,
      "eval_loss": 8.875,
      "eval_runtime": 273.3822,
      "eval_samples_per_second": 123.516,
      "eval_steps_per_second": 3.863,
      "step": 323
    },
    {
      "epoch": 0.015693112467306015,
      "grad_norm": 1.476304531097412,
      "learning_rate": 9.99851302915819e-06,
      "loss": 8.8906,
      "step": 324
    },
    {
      "epoch": 0.015693112467306015,
      "eval_accuracy": 0.10063834903796041,
      "eval_loss": 8.875,
      "eval_runtime": 273.0848,
      "eval_samples_per_second": 123.65,
      "eval_steps_per_second": 3.867,
      "step": 324
    },
    {
      "epoch": 0.015741547999612516,
      "grad_norm": 1.493653655052185,
      "learning_rate": 9.99850818560496e-06,
      "loss": 8.8906,
      "step": 325
    },
    {
      "epoch": 0.015741547999612516,
      "eval_accuracy": 0.10110543934844622,
      "eval_loss": 8.8671875,
      "eval_runtime": 273.5247,
      "eval_samples_per_second": 123.451,
      "eval_steps_per_second": 3.861,
      "step": 325
    },
    {
      "epoch": 0.015789983531919016,
      "grad_norm": 1.5021024942398071,
      "learning_rate": 9.998503342051729e-06,
      "loss": 8.8672,
      "step": 326
    },
    {
      "epoch": 0.015789983531919016,
      "eval_accuracy": 0.10160095746710661,
      "eval_loss": 8.8671875,
      "eval_runtime": 273.3554,
      "eval_samples_per_second": 123.528,
      "eval_steps_per_second": 3.863,
      "step": 326
    },
    {
      "epoch": 0.015838419064225517,
      "grad_norm": 1.4941586256027222,
      "learning_rate": 9.998498498498499e-06,
      "loss": 8.875,
      "step": 327
    },
    {
      "epoch": 0.015838419064225517,
      "eval_accuracy": 0.1018975967240975,
      "eval_loss": 8.859375,
      "eval_runtime": 272.1708,
      "eval_samples_per_second": 124.065,
      "eval_steps_per_second": 3.88,
      "step": 327
    },
    {
      "epoch": 0.015886854596532017,
      "grad_norm": 1.484066128730774,
      "learning_rate": 9.998493654945269e-06,
      "loss": 8.8516,
      "step": 328
    },
    {
      "epoch": 0.015886854596532017,
      "eval_accuracy": 0.10215561816428094,
      "eval_loss": 8.859375,
      "eval_runtime": 272.903,
      "eval_samples_per_second": 123.733,
      "eval_steps_per_second": 3.87,
      "step": 328
    },
    {
      "epoch": 0.015935290128838518,
      "grad_norm": 1.6349196434020996,
      "learning_rate": 9.998488811392037e-06,
      "loss": 8.8672,
      "step": 329
    },
    {
      "epoch": 0.015935290128838518,
      "eval_accuracy": 0.10202540606533052,
      "eval_loss": 8.8515625,
      "eval_runtime": 273.5376,
      "eval_samples_per_second": 123.446,
      "eval_steps_per_second": 3.861,
      "step": 329
    },
    {
      "epoch": 0.015983725661145014,
      "grad_norm": 1.4366816282272339,
      "learning_rate": 9.998483967838807e-06,
      "loss": 8.8984,
      "step": 330
    },
    {
      "epoch": 0.015983725661145014,
      "eval_accuracy": 0.10181083690627749,
      "eval_loss": 8.8515625,
      "eval_runtime": 273.8934,
      "eval_samples_per_second": 123.285,
      "eval_steps_per_second": 3.856,
      "step": 330
    },
    {
      "epoch": 0.016032161193451515,
      "grad_norm": 1.4731358289718628,
      "learning_rate": 9.998479124285576e-06,
      "loss": 8.875,
      "step": 331
    },
    {
      "epoch": 0.016032161193451515,
      "eval_accuracy": 0.10155426291050211,
      "eval_loss": 8.84375,
      "eval_runtime": 273.3318,
      "eval_samples_per_second": 123.538,
      "eval_steps_per_second": 3.863,
      "step": 331
    },
    {
      "epoch": 0.016080596725758015,
      "grad_norm": 1.4572798013687134,
      "learning_rate": 9.998474280732346e-06,
      "loss": 8.8828,
      "step": 332
    },
    {
      "epoch": 0.016080596725758015,
      "eval_accuracy": 0.10136490823303775,
      "eval_loss": 8.84375,
      "eval_runtime": 273.42,
      "eval_samples_per_second": 123.499,
      "eval_steps_per_second": 3.862,
      "step": 332
    },
    {
      "epoch": 0.016129032258064516,
      "grad_norm": 1.5042625665664673,
      "learning_rate": 9.998469437179116e-06,
      "loss": 8.8438,
      "step": 333
    },
    {
      "epoch": 0.016129032258064516,
      "eval_accuracy": 0.10138867527021833,
      "eval_loss": 8.8359375,
      "eval_runtime": 273.8134,
      "eval_samples_per_second": 123.321,
      "eval_steps_per_second": 3.857,
      "step": 333
    },
    {
      "epoch": 0.016177467790371016,
      "grad_norm": 1.9862890243530273,
      "learning_rate": 9.998464593625884e-06,
      "loss": 8.7969,
      "step": 334
    },
    {
      "epoch": 0.016177467790371016,
      "eval_accuracy": 0.10165384708577767,
      "eval_loss": 8.8359375,
      "eval_runtime": 273.5642,
      "eval_samples_per_second": 123.434,
      "eval_steps_per_second": 3.86,
      "step": 334
    },
    {
      "epoch": 0.016225903322677517,
      "grad_norm": 1.5006351470947266,
      "learning_rate": 9.998459750072654e-06,
      "loss": 8.8828,
      "step": 335
    },
    {
      "epoch": 0.016225903322677517,
      "eval_accuracy": 0.10197017158671838,
      "eval_loss": 8.828125,
      "eval_runtime": 273.8604,
      "eval_samples_per_second": 123.3,
      "eval_steps_per_second": 3.856,
      "step": 335
    },
    {
      "epoch": 0.016274338854984017,
      "grad_norm": 1.5454577207565308,
      "learning_rate": 9.998454906519424e-06,
      "loss": 8.8281,
      "step": 336
    },
    {
      "epoch": 0.016274338854984017,
      "eval_accuracy": 0.10246210004324674,
      "eval_loss": 8.828125,
      "eval_runtime": 273.8457,
      "eval_samples_per_second": 123.307,
      "eval_steps_per_second": 3.856,
      "step": 336
    },
    {
      "epoch": 0.016322774387290517,
      "grad_norm": 1.6074914932250977,
      "learning_rate": 9.998450062966192e-06,
      "loss": 8.8203,
      "step": 337
    },
    {
      "epoch": 0.016322774387290517,
      "eval_accuracy": 0.10273896720962333,
      "eval_loss": 8.828125,
      "eval_runtime": 273.8399,
      "eval_samples_per_second": 123.309,
      "eval_steps_per_second": 3.856,
      "step": 337
    },
    {
      "epoch": 0.016371209919597018,
      "grad_norm": 1.5352425575256348,
      "learning_rate": 9.998445219412962e-06,
      "loss": 8.8594,
      "step": 338
    },
    {
      "epoch": 0.016371209919597018,
      "eval_accuracy": 0.10277469013761462,
      "eval_loss": 8.8203125,
      "eval_runtime": 273.8619,
      "eval_samples_per_second": 123.299,
      "eval_steps_per_second": 3.856,
      "step": 338
    },
    {
      "epoch": 0.016419645451903518,
      "grad_norm": 1.5608229637145996,
      "learning_rate": 9.998440375859732e-06,
      "loss": 8.8594,
      "step": 339
    },
    {
      "epoch": 0.016419645451903518,
      "eval_accuracy": 0.10268248792882025,
      "eval_loss": 8.8203125,
      "eval_runtime": 273.0524,
      "eval_samples_per_second": 123.665,
      "eval_steps_per_second": 3.867,
      "step": 339
    },
    {
      "epoch": 0.016468080984210015,
      "grad_norm": 1.4532408714294434,
      "learning_rate": 9.9984355323065e-06,
      "loss": 8.8203,
      "step": 340
    },
    {
      "epoch": 0.016468080984210015,
      "eval_accuracy": 0.10246901882751734,
      "eval_loss": 8.8125,
      "eval_runtime": 273.0044,
      "eval_samples_per_second": 123.687,
      "eval_steps_per_second": 3.868,
      "step": 340
    },
    {
      "epoch": 0.016516516516516516,
      "grad_norm": 1.5474005937576294,
      "learning_rate": 9.99843068875327e-06,
      "loss": 8.8359,
      "step": 341
    },
    {
      "epoch": 0.016516516516516516,
      "eval_accuracy": 0.10244681503029747,
      "eval_loss": 8.8125,
      "eval_runtime": 272.933,
      "eval_samples_per_second": 123.719,
      "eval_steps_per_second": 3.869,
      "step": 341
    },
    {
      "epoch": 0.016516516516516516,
      "step": 341,
      "total_flos": 1427643152990208.0,
      "train_loss": 9.567586143695015,
      "train_runtime": 93928.2806,
      "train_samples_per_second": 703.348,
      "train_steps_per_second": 21.981
    }
  ],
  "logging_steps": 1,
  "max_steps": 2064600,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 1000000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1427643152990208.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}