{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.989247311827957,
  "eval_steps": 500,
  "global_step": 69,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.014336917562724014,
      "grad_norm": 1592.8598960717857,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 26.6864,
      "step": 1
    },
    {
      "epoch": 0.07168458781362007,
      "grad_norm": 82.43506905355594,
      "learning_rate": 1.4285714285714287e-05,
      "loss": 18.9341,
      "step": 5
    },
    {
      "epoch": 0.14336917562724014,
      "grad_norm": 135.87449096422125,
      "learning_rate": 1.9884683243281117e-05,
      "loss": 14.9563,
      "step": 10
    },
    {
      "epoch": 0.21505376344086022,
      "grad_norm": 180.9959372057913,
      "learning_rate": 1.918957811620231e-05,
      "loss": 5.504,
      "step": 15
    },
    {
      "epoch": 0.2867383512544803,
      "grad_norm": 20.767771755600748,
      "learning_rate": 1.7907757369376984e-05,
      "loss": 2.7926,
      "step": 20
    },
    {
      "epoch": 0.35842293906810035,
      "grad_norm": 34.10996282402289,
      "learning_rate": 1.612105982547663e-05,
      "loss": 2.4052,
      "step": 25
    },
    {
      "epoch": 0.43010752688172044,
      "grad_norm": 18.71021876217168,
      "learning_rate": 1.3943558551133186e-05,
      "loss": 1.9413,
      "step": 30
    },
    {
      "epoch": 0.5017921146953405,
      "grad_norm": 10.33065920006336,
      "learning_rate": 1.1514277775045768e-05,
      "loss": 1.747,
      "step": 35
    },
    {
      "epoch": 0.5734767025089605,
      "grad_norm": 9.008840964472656,
      "learning_rate": 8.98831678012568e-06,
      "loss": 1.6321,
      "step": 40
    },
    {
      "epoch": 0.6451612903225806,
      "grad_norm": 5.736460965578735,
      "learning_rate": 6.526947471551799e-06,
      "loss": 1.4876,
      "step": 45
    },
    {
      "epoch": 0.7168458781362007,
      "grad_norm": 8.624535565442502,
      "learning_rate": 4.287317849052075e-06,
      "loss": 1.4237,
      "step": 50
    },
    {
      "epoch": 0.7885304659498208,
      "grad_norm": 5.331226004589582,
      "learning_rate": 2.4124187730720916e-06,
      "loss": 1.3632,
      "step": 55
    },
    {
      "epoch": 0.8602150537634409,
      "grad_norm": 2.296827735628457,
      "learning_rate": 1.0219546042925842e-06,
      "loss": 1.3358,
      "step": 60
    },
    {
      "epoch": 0.931899641577061,
      "grad_norm": 1.3436396035278684,
      "learning_rate": 2.0470058747505516e-07,
      "loss": 1.327,
      "step": 65
    },
    {
      "epoch": 0.989247311827957,
      "eval_loss": 1.3196523189544678,
      "eval_runtime": 1.3553,
      "eval_samples_per_second": 130.603,
      "eval_steps_per_second": 2.214,
      "step": 69
    },
    {
      "epoch": 0.989247311827957,
      "step": 69,
      "total_flos": 9467382988800.0,
      "train_loss": 4.305814397507819,
      "train_runtime": 487.0201,
      "train_samples_per_second": 36.555,
      "train_steps_per_second": 0.142
    }
  ],
  "logging_steps": 5,
  "max_steps": 69,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 9467382988800.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}