{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 696,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2,
      "learning_rate": 0.00013142857142857143,
      "loss": 1.5505,
      "step": 46
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00019329073482428116,
      "loss": 1.096,
      "step": 92
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00017859424920127796,
      "loss": 1.0296,
      "step": 138
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.00016389776357827478,
      "loss": 0.9289,
      "step": 184
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.00014920127795527158,
      "loss": 0.9128,
      "step": 230
    },
    {
      "epoch": 1.19,
      "learning_rate": 0.00013450479233226837,
      "loss": 0.8074,
      "step": 276
    },
    {
      "epoch": 1.39,
      "learning_rate": 0.00011980830670926518,
      "loss": 0.8344,
      "step": 322
    },
    {
      "epoch": 1.59,
      "learning_rate": 0.00010511182108626199,
      "loss": 0.8405,
      "step": 368
    },
    {
      "epoch": 1.78,
      "learning_rate": 9.041533546325878e-05,
      "loss": 0.8496,
      "step": 414
    },
    {
      "epoch": 1.98,
      "learning_rate": 7.571884984025559e-05,
      "loss": 0.824,
      "step": 460
    },
    {
      "epoch": 2.18,
      "learning_rate": 6.1022364217252406e-05,
      "loss": 0.7313,
      "step": 506
    },
    {
      "epoch": 2.38,
      "learning_rate": 4.632587859424921e-05,
      "loss": 0.7288,
      "step": 552
    },
    {
      "epoch": 2.58,
      "learning_rate": 3.162939297124601e-05,
      "loss": 0.7126,
      "step": 598
    },
    {
      "epoch": 2.78,
      "learning_rate": 1.693290734824281e-05,
      "loss": 0.7486,
      "step": 644
    },
    {
      "epoch": 2.97,
      "learning_rate": 2.2364217252396165e-06,
      "loss": 0.7282,
      "step": 690
    }
  ],
  "logging_steps": 46,
  "max_steps": 696,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 1.0979123823378432e+17,
  "trial_name": null,
  "trial_params": null
}