{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 8.085714285714285,
  "eval_steps": 500000000,
  "global_step": 70,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "crossentropy": 3.0095932483673096,
      "epoch": 0.014285714285714285,
      "grad_norm": 4.875,
      "learning_rate": 0.0006000000000000001,
      "loss": 60.1919,
      "step": 1
    },
    {
      "crossentropy": 3.1867529153823853,
      "epoch": 0.02857142857142857,
      "grad_norm": 5.25,
      "learning_rate": 0.0012000000000000001,
      "loss": 63.7351,
      "step": 2
    },
    {
      "crossentropy": 2.9023284912109375,
      "epoch": 0.04285714285714286,
      "grad_norm": 3.203125,
      "learning_rate": 0.0018,
      "loss": 58.0466,
      "step": 3
    },
    {
      "crossentropy": 3.143028497695923,
      "epoch": 0.05714285714285714,
      "grad_norm": 4.5625,
      "learning_rate": 0.0024000000000000002,
      "loss": 62.8606,
      "step": 4
    },
    {
      "crossentropy": 3.0156885385513306,
      "epoch": 0.07142857142857142,
      "grad_norm": 5.5625,
      "learning_rate": 0.003,
      "loss": 60.3138,
      "step": 5
    },
    {
      "crossentropy": 3.0303726196289062,
      "epoch": 0.08571428571428572,
      "grad_norm": 4.15625,
      "learning_rate": 0.0036,
      "loss": 60.6075,
      "step": 6
    },
    {
      "crossentropy": 3.0610936880111694,
      "epoch": 0.1,
      "grad_norm": 3.765625,
      "learning_rate": 0.0042,
      "loss": 61.2219,
      "step": 7
    },
    {
      "crossentropy": 3.0712296962738037,
      "epoch": 0.11428571428571428,
      "grad_norm": 3.40625,
      "learning_rate": 0.0048000000000000004,
      "loss": 61.4246,
      "step": 8
    },
    {
      "crossentropy": 2.847040295600891,
      "epoch": 1.0142857142857142,
      "grad_norm": 3.75,
      "learning_rate": 0.0054,
      "loss": 56.9408,
      "step": 9
    },
    {
      "crossentropy": 3.19703209400177,
      "epoch": 1.0285714285714285,
      "grad_norm": 4.6875,
      "learning_rate": 0.006,
      "loss": 63.9406,
      "step": 10
    },
    {
      "crossentropy": 2.9198442697525024,
      "epoch": 1.042857142857143,
      "grad_norm": 4.28125,
      "learning_rate": 0.005995888604263721,
      "loss": 58.3969,
      "step": 11
    },
    {
      "crossentropy": 2.968014121055603,
      "epoch": 1.0571428571428572,
      "grad_norm": 4.625,
      "learning_rate": 0.00598356568610482,
      "loss": 59.3603,
      "step": 12
    },
    {
      "crossentropy": 2.9565632343292236,
      "epoch": 1.0714285714285714,
      "grad_norm": 3.953125,
      "learning_rate": 0.005963065021785414,
      "loss": 59.1313,
      "step": 13
    },
    {
      "crossentropy": 2.905748724937439,
      "epoch": 1.0857142857142856,
      "grad_norm": 3.875,
      "learning_rate": 0.005934442802201417,
      "loss": 58.115,
      "step": 14
    },
    {
      "crossentropy": 2.625692844390869,
      "epoch": 1.1,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.5036366780598959,
      "learning_rate": 0.0058977774788672045,
      "loss": 52.5139,
      "step": 15
    },
    {
      "crossentropy": 2.9286997318267822,
      "epoch": 1.1142857142857143,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.4874013264973958,
      "learning_rate": 0.0058531695488854615,
      "loss": 58.574,
      "step": 16
    },
    {
      "crossentropy": 2.689926862716675,
      "epoch": 2.0142857142857142,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.36258138020833336,
      "learning_rate": 0.005800741279491605,
      "loss": 53.7985,
      "step": 17
    },
    {
      "crossentropy": 2.7979776859283447,
      "epoch": 2.0285714285714285,
      "grad_norm": 4.375,
      "grad_norm_var": 0.35179036458333335,
      "learning_rate": 0.005740636372927803,
      "loss": 55.9596,
      "step": 18
    },
    {
      "crossentropy": 2.779425024986267,
      "epoch": 2.0428571428571427,
      "grad_norm": 4.25,
      "grad_norm_var": 0.19148763020833334,
      "learning_rate": 0.0056730195725651035,
      "loss": 55.5885,
      "step": 19
    },
    {
      "crossentropy": 2.753769636154175,
      "epoch": 2.057142857142857,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.18843994140625,
      "learning_rate": 0.005598076211353316,
      "loss": 55.0754,
      "step": 20
    },
    {
      "crossentropy": 2.6169257164001465,
      "epoch": 2.0714285714285716,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.1863922119140625,
      "learning_rate": 0.005516011703836273,
      "loss": 52.3385,
      "step": 21
    },
    {
      "crossentropy": 2.7982966899871826,
      "epoch": 2.085714285714286,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.16999409993489584,
      "learning_rate": 0.005427050983124842,
      "loss": 55.9659,
      "step": 22
    },
    {
      "crossentropy": 2.806610345840454,
      "epoch": 2.1,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.14814046223958333,
      "learning_rate": 0.005331437884370913,
      "loss": 56.1322,
      "step": 23
    },
    {
      "crossentropy": 2.518147110939026,
      "epoch": 2.1142857142857143,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.18651936848958334,
      "learning_rate": 0.005229434476432183,
      "loss": 50.3629,
      "step": 24
    },
    {
      "crossentropy": 2.6377108097076416,
      "epoch": 3.0142857142857142,
      "grad_norm": 3.5,
      "grad_norm_var": 0.17744140625,
      "learning_rate": 0.005121320343559642,
      "loss": 52.7542,
      "step": 25
    },
    {
      "crossentropy": 2.6592438220977783,
      "epoch": 3.0285714285714285,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.13261311848958332,
      "learning_rate": 0.005007391819076575,
      "loss": 53.1849,
      "step": 26
    },
    {
      "crossentropy": 2.6324286460876465,
      "epoch": 3.0428571428571427,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.14711812337239583,
      "learning_rate": 0.004887961173149513,
      "loss": 52.6486,
      "step": 27
    },
    {
      "crossentropy": 2.602684259414673,
      "epoch": 3.057142857142857,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.14667561848958333,
      "learning_rate": 0.00476335575687742,
      "loss": 52.0537,
      "step": 28
    },
    {
      "crossentropy": 2.546660304069519,
      "epoch": 3.0714285714285716,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.13367513020833333,
      "learning_rate": 0.0046339171050450816,
      "loss": 50.9332,
      "step": 29
    },
    {
      "crossentropy": 2.4825092554092407,
      "epoch": 3.085714285714286,
      "grad_norm": 3.25,
      "grad_norm_var": 0.15003255208333333,
      "learning_rate": 0.0045000000000000005,
      "loss": 49.6502,
      "step": 30
    },
    {
      "crossentropy": 2.4625256061553955,
      "epoch": 3.1,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.14875386555989584,
      "learning_rate": 0.0043619714992186405,
      "loss": 49.2505,
      "step": 31
    },
    {
      "crossentropy": 2.4745893478393555,
      "epoch": 3.1142857142857143,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.14601236979166668,
      "learning_rate": 0.0042202099292274016,
      "loss": 49.4918,
      "step": 32
    },
    {
      "crossentropy": 2.474223494529724,
      "epoch": 4.014285714285714,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.1176177978515625,
      "learning_rate": 0.0040751038486359,
      "loss": 49.4845,
      "step": 33
    },
    {
      "crossentropy": 2.567926287651062,
      "epoch": 4.0285714285714285,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.11607666015625,
      "learning_rate": 0.0039270509831248425,
      "loss": 51.3585,
      "step": 34
    },
    {
      "crossentropy": 2.297714114189148,
      "epoch": 4.042857142857143,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.11497294108072917,
      "learning_rate": 0.0037764571353075625,
      "loss": 45.9543,
      "step": 35
    },
    {
      "crossentropy": 2.3516281843185425,
      "epoch": 4.057142857142857,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.11594136555989583,
      "learning_rate": 0.0036237350724532776,
      "loss": 47.0326,
      "step": 36
    },
    {
      "crossentropy": 2.457553267478943,
      "epoch": 4.071428571428571,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.11121317545572916,
      "learning_rate": 0.003469303395120693,
      "loss": 49.1511,
      "step": 37
    },
    {
      "crossentropy": 2.4849528074264526,
      "epoch": 4.085714285714285,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.0993072509765625,
      "learning_rate": 0.0033135853898029607,
      "loss": 49.6991,
      "step": 38
    },
    {
      "crossentropy": 2.4843567609786987,
      "epoch": 4.1,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.08580322265625,
      "learning_rate": 0.003157007868728832,
      "loss": 49.6871,
      "step": 39
    },
    {
      "crossentropy": 2.2625155448913574,
      "epoch": 4.114285714285714,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.09256083170572917,
      "learning_rate": 0.003,
      "loss": 45.2503,
      "step": 40
    },
    {
      "crossentropy": 2.3267452716827393,
      "epoch": 5.014285714285714,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.07134501139322917,
      "learning_rate": 0.0028429921312711683,
      "loss": 46.5349,
      "step": 41
    },
    {
      "crossentropy": 2.2545454502105713,
      "epoch": 5.0285714285714285,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.06944071451822917,
      "learning_rate": 0.0026864146101970403,
      "loss": 45.0909,
      "step": 42
    },
    {
      "crossentropy": 2.2587673664093018,
      "epoch": 5.042857142857143,
      "grad_norm": 3.75,
      "grad_norm_var": 0.07167867024739584,
      "learning_rate": 0.002530696604879307,
      "loss": 45.1753,
      "step": 43
    },
    {
      "crossentropy": 2.4503393173217773,
      "epoch": 5.057142857142857,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.06571858723958333,
      "learning_rate": 0.0023762649275467225,
      "loss": 49.0068,
      "step": 44
    },
    {
      "crossentropy": 2.314779281616211,
      "epoch": 5.071428571428571,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.07141520182291666,
      "learning_rate": 0.0022235428646924377,
      "loss": 46.2956,
      "step": 45
    },
    {
      "crossentropy": 2.332405924797058,
      "epoch": 5.085714285714285,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.06809488932291667,
      "learning_rate": 0.002072949016875158,
      "loss": 46.6481,
      "step": 46
    },
    {
      "crossentropy": 2.3183114528656006,
      "epoch": 5.1,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.06519775390625,
      "learning_rate": 0.0019248961513640991,
      "loss": 46.3662,
      "step": 47
    },
    {
      "crossentropy": 2.3166401386260986,
      "epoch": 5.114285714285714,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.0475738525390625,
      "learning_rate": 0.0017797900707725999,
      "loss": 46.3328,
      "step": 48
    },
    {
      "crossentropy": 2.2864686250686646,
      "epoch": 6.014285714285714,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.04687093098958333,
      "learning_rate": 0.0016380285007813599,
      "loss": 45.7294,
      "step": 49
    },
    {
      "crossentropy": 2.2661304473876953,
      "epoch": 6.0285714285714285,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.046484375,
      "learning_rate": 0.0015000000000000007,
      "loss": 45.3226,
      "step": 50
    },
    {
      "crossentropy": 2.2226359844207764,
      "epoch": 6.042857142857143,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.0484283447265625,
      "learning_rate": 0.0013660828949549188,
      "loss": 44.4527,
      "step": 51
    },
    {
      "crossentropy": 2.328931450843811,
      "epoch": 6.057142857142857,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.04837239583333333,
      "learning_rate": 0.001236644243122581,
      "loss": 46.5786,
      "step": 52
    },
    {
      "crossentropy": 2.1706167459487915,
      "epoch": 6.071428571428571,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.05158589680989583,
      "learning_rate": 0.0011120388268504881,
      "loss": 43.4123,
      "step": 53
    },
    {
      "crossentropy": 2.215790271759033,
      "epoch": 6.085714285714285,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.05446675618489583,
      "learning_rate": 0.0009926081809234263,
      "loss": 44.3158,
      "step": 54
    },
    {
      "crossentropy": 2.3414868116378784,
      "epoch": 6.1,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.05676676432291667,
      "learning_rate": 0.0008786796564403576,
      "loss": 46.8297,
      "step": 55
    },
    {
      "crossentropy": 2.367440342903137,
      "epoch": 6.114285714285714,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.03863932291666667,
      "learning_rate": 0.000770565523567817,
      "loss": 47.3488,
      "step": 56
    },
    {
      "crossentropy": 2.2342344522476196,
      "epoch": 7.014285714285714,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.0346588134765625,
      "learning_rate": 0.0006685621156290873,
      "loss": 44.6847,
      "step": 57
    },
    {
      "crossentropy": 2.2827868461608887,
      "epoch": 7.0285714285714285,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0323394775390625,
      "learning_rate": 0.000572949016875158,
      "loss": 45.6557,
      "step": 58
    },
    {
      "crossentropy": 2.2687994241714478,
      "epoch": 7.042857142857143,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.04039306640625,
      "learning_rate": 0.0004839882961637282,
      "loss": 45.376,
      "step": 59
    },
    {
      "crossentropy": 2.257681131362915,
      "epoch": 7.057142857142857,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.034130859375,
      "learning_rate": 0.00040192378864668387,
      "loss": 45.1536,
      "step": 60
    },
    {
      "crossentropy": 2.335356831550598,
      "epoch": 7.071428571428571,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.026496378580729167,
      "learning_rate": 0.00032698042743489666,
      "loss": 46.7071,
      "step": 61
    },
    {
      "crossentropy": 2.244073271751404,
      "epoch": 7.085714285714285,
      "grad_norm": 3.0,
      "grad_norm_var": 0.02554931640625,
      "learning_rate": 0.0002593636270721971,
      "loss": 44.8815,
      "step": 62
    },
    {
      "crossentropy": 2.2275052070617676,
      "epoch": 7.1,
      "grad_norm": 3.0,
      "grad_norm_var": 0.0238677978515625,
      "learning_rate": 0.00019925872050839512,
      "loss": 44.5501,
      "step": 63
    },
    {
      "crossentropy": 2.284676194190979,
      "epoch": 7.114285714285714,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.022850545247395833,
      "learning_rate": 0.00014683045111453942,
      "loss": 45.6935,
      "step": 64
    },
    {
      "crossentropy": 2.276751399040222,
      "epoch": 8.014285714285714,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.020832316080729166,
      "learning_rate": 0.0001022225211327954,
      "loss": 45.535,
      "step": 65
    },
    {
      "crossentropy": 2.1085686683654785,
      "epoch": 8.028571428571428,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.020540364583333335,
      "learning_rate": 6.555719779858293e-05,
      "loss": 42.1714,
      "step": 66
    },
    {
      "crossentropy": 2.1858569383621216,
      "epoch": 8.042857142857143,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.019759114583333334,
      "learning_rate": 3.693497821458702e-05,
      "loss": 43.7171,
      "step": 67
    },
    {
      "crossentropy": 2.4135935306549072,
      "epoch": 8.057142857142857,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.019266764322916668,
      "learning_rate": 1.643431389518013e-05,
      "loss": 48.2719,
      "step": 68
    },
    {
      "crossentropy": 2.331327199935913,
      "epoch": 8.071428571428571,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.017606608072916665,
      "learning_rate": 4.1113957362785e-06,
      "loss": 46.6265,
      "step": 69
    },
    {
      "crossentropy": 2.2184821367263794,
      "epoch": 8.085714285714285,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.017919921875,
      "learning_rate": 0.0,
      "loss": 44.3696,
      "step": 70
    }
  ],
  "logging_steps": 1,
  "max_steps": 70,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.618168818761728e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}