{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.2158273381294964,
  "eval_steps": 500,
  "global_step": 90,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 0.00013,
      "loss": 1.1241,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.00026,
      "loss": 1.0107,
      "step": 2
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00039,
      "loss": 1.1086,
      "step": 3
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00052,
      "loss": 1.0044,
      "step": 4
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00065,
      "loss": 1.0496,
      "step": 5
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0005933661039639299,
      "loss": 1.0199,
      "step": 6
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0005493502655735357,
      "loss": 1.0198,
      "step": 7
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0005138701197773616,
      "loss": 0.969,
      "step": 8
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0004844813951249544,
      "loss": 0.9383,
      "step": 9
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0004596194077712558,
      "loss": 0.8776,
      "step": 10
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0004382299106011073,
      "loss": 1.0173,
      "step": 11
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0004195731958391368,
      "loss": 1.1173,
      "step": 12
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0004031128874149274,
      "loss": 1.0876,
      "step": 13
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0003884492980336779,
      "loss": 1.0524,
      "step": 14
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0003752776749732568,
      "loss": 0.8953,
      "step": 15
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00036336104634371584,
      "loss": 1.1335,
      "step": 16
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00035251199395531623,
      "loss": 0.9837,
      "step": 17
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00034258007985157445,
      "loss": 0.9707,
      "step": 18
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0003334429644276751,
      "loss": 0.9149,
      "step": 19
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000325,
      "loss": 1.0043,
      "step": 20
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00031716752370827323,
      "loss": 1.001,
      "step": 21
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00030987534150481746,
      "loss": 1.0395,
      "step": 22
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000303064062678102,
      "loss": 0.8718,
      "step": 23
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029668305198196496,
      "loss": 1.1114,
      "step": 24
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029068883707497264,
      "loss": 0.7765,
      "step": 25
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002850438562747845,
      "loss": 0.9522,
      "step": 26
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00027971546389275785,
      "loss": 0.9588,
      "step": 27
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00027467513278676785,
      "loss": 1.0313,
      "step": 28
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002698978095246549,
      "loss": 0.9338,
      "step": 29
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000265361388801511,
      "loss": 0.892,
      "step": 30
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00026104628189331215,
      "loss": 0.893,
      "step": 31
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002569350598886808,
      "loss": 0.8983,
      "step": 32
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00025301215685249496,
      "loss": 0.9277,
      "step": 33
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00024926362137539537,
      "loss": 0.8962,
      "step": 34
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00024567690745599767,
      "loss": 0.9124,
      "step": 35
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002422406975624772,
      "loss": 0.9535,
      "step": 36
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00023894475218048754,
      "loss": 0.9019,
      "step": 37
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002357797812857538,
      "loss": 1.024,
      "step": 38
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00023273733406281566,
      "loss": 0.8549,
      "step": 39
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002298097038856279,
      "loss": 1.0489,
      "step": 40
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00022698984612511293,
      "loss": 0.751,
      "step": 41
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00022427130678626507,
      "loss": 0.834,
      "step": 42
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00022164816032790388,
      "loss": 0.889,
      "step": 43
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00021911495530055366,
      "loss": 1.0103,
      "step": 44
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00021666666666666666,
      "loss": 0.8766,
      "step": 45
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002142986538536308,
      "loss": 0.8181,
      "step": 46
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002120066237423687,
      "loss": 0.8754,
      "step": 47
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002097865979195684,
      "loss": 0.9038,
      "step": 48
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00020763488362498048,
      "loss": 0.8646,
      "step": 49
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00020554804791094464,
      "loss": 0.8836,
      "step": 50
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002035228946026736,
      "loss": 0.9962,
      "step": 51
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002015564437074637,
      "loss": 0.8835,
      "step": 52
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019964591297103414,
      "loss": 0.9196,
      "step": 53
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019778870132130996,
      "loss": 0.8995,
      "step": 54
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019598237397554634,
      "loss": 1.0178,
      "step": 55
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019422464901683895,
      "loss": 0.9395,
      "step": 56
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00019251338527170498,
      "loss": 0.9882,
      "step": 57
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00019084657134227863,
      "loss": 0.9274,
      "step": 58
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00018922231566536414,
      "loss": 0.9517,
      "step": 59
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0001876388374866284,
      "loss": 0.865,
      "step": 60
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00018609445865200715,
      "loss": 0.9314,
      "step": 61
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00018458759613029606,
      "loss": 0.9224,
      "step": 62
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00018311675519117857,
      "loss": 0.788,
      "step": 63
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00018168052317185792,
      "loss": 0.9739,
      "step": 64
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00018027756377319947,
      "loss": 0.9419,
      "step": 65
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0001789066118330336,
      "loss": 0.8772,
      "step": 66
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00017756646853014972,
      "loss": 0.8707,
      "step": 67
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00017625599697765812,
      "loss": 0.8089,
      "step": 68
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00017497411816890378,
      "loss": 0.9303,
      "step": 69
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00017371980724307585,
      "loss": 0.9161,
      "step": 70
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00017249209004113945,
      "loss": 0.9064,
      "step": 71
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00017129003992578723,
      "loss": 1.0988,
      "step": 72
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00017011277484181944,
      "loss": 0.9804,
      "step": 73
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0001689594545957618,
      "loss": 0.8382,
      "step": 74
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00016782927833565472,
      "loss": 0.9632,
      "step": 75
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00016672148221383754,
      "loss": 0.9494,
      "step": 76
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00016563533721722828,
      "loss": 0.9253,
      "step": 77
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0001645701471510958,
      "loss": 0.9143,
      "step": 78
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00016352524676365398,
      "loss": 0.8907,
      "step": 79
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0001625,
      "loss": 0.9748,
      "step": 80
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00016149379837498482,
      "loss": 0.893,
      "step": 81
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00016050605945555833,
      "loss": 0.839,
      "step": 82
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0001595362254439902,
      "loss": 0.9276,
      "step": 83
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00015858376185413662,
      "loss": 0.8758,
      "step": 84
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00015764815627361642,
      "loss": 0.9125,
      "step": 85
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00015672891720538393,
      "loss": 0.955,
      "step": 86
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00015582557298274985,
      "loss": 0.9104,
      "step": 87
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00015493767075240873,
      "loss": 0.8861,
      "step": 88
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0001540647755204926,
      "loss": 0.9693,
      "step": 89
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0001532064692570853,
      "loss": 0.7245,
      "step": 90
    }
  ],
  "logging_steps": 1,
  "max_steps": 417,
  "num_train_epochs": 1,
  "save_steps": 10,
  "total_flos": 2.9172058829881344e+16,
  "trial_name": null,
  "trial_params": null
}