{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 966,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2,
      "learning_rate": 0.00013195876288659794,
      "loss": 1.0791,
      "step": 64
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00019286536248561565,
      "loss": 0.7112,
      "step": 128
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00017813578826237055,
      "loss": 0.6255,
      "step": 192
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00016340621403912543,
      "loss": 0.6076,
      "step": 256
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.00014867663981588033,
      "loss": 0.6049,
      "step": 320
    },
    {
      "epoch": 1.19,
      "learning_rate": 0.0001339470655926352,
      "loss": 0.5394,
      "step": 384
    },
    {
      "epoch": 1.39,
      "learning_rate": 0.00011921749136939012,
      "loss": 0.5384,
      "step": 448
    },
    {
      "epoch": 1.59,
      "learning_rate": 0.000104487917146145,
      "loss": 0.5194,
      "step": 512
    },
    {
      "epoch": 1.79,
      "learning_rate": 8.975834292289989e-05,
      "loss": 0.5137,
      "step": 576
    },
    {
      "epoch": 1.99,
      "learning_rate": 7.502876869965478e-05,
      "loss": 0.5329,
      "step": 640
    },
    {
      "epoch": 2.19,
      "learning_rate": 6.0299194476409674e-05,
      "loss": 0.4623,
      "step": 704
    },
    {
      "epoch": 2.39,
      "learning_rate": 4.556962025316456e-05,
      "loss": 0.4729,
      "step": 768
    },
    {
      "epoch": 2.58,
      "learning_rate": 3.084004602991945e-05,
      "loss": 0.4677,
      "step": 832
    },
    {
      "epoch": 2.78,
      "learning_rate": 1.611047180667434e-05,
      "loss": 0.4768,
      "step": 896
    },
    {
      "epoch": 2.98,
      "learning_rate": 1.380897583429229e-06,
      "loss": 0.4893,
      "step": 960
    }
  ],
  "logging_steps": 64,
  "max_steps": 966,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 1.570602351423652e+17,
  "trial_name": null,
  "trial_params": null
}