{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5610724925521351,
  "eval_steps": 500,
  "global_step": 2260,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05,
      "learning_rate": 5e-06,
      "loss": 2.4558,
      "step": 1
    },
    {
      "epoch": 1.0,
      "eval_loss": 2.1018261909484863,
      "eval_runtime": 0.6129,
      "eval_samples_per_second": 3.263,
      "eval_steps_per_second": 3.263,
      "step": 19
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.9877368211746216,
      "eval_runtime": 0.6133,
      "eval_samples_per_second": 3.261,
      "eval_steps_per_second": 3.261,
      "step": 38
    },
    {
      "epoch": 2.11,
      "learning_rate": 3.6143458894413465e-05,
      "loss": 2.0718,
      "step": 40
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.9598064422607422,
      "eval_runtime": 0.6117,
      "eval_samples_per_second": 3.269,
      "eval_steps_per_second": 3.269,
      "step": 57
    },
    {
      "epoch": 4.0,
      "eval_loss": 1.9522112607955933,
      "eval_runtime": 0.6123,
      "eval_samples_per_second": 3.267,
      "eval_steps_per_second": 3.267,
      "step": 76
    },
    {
      "epoch": 4.21,
      "learning_rate": 3.7445716067596503e-06,
      "loss": 1.826,
      "step": 80
    },
    {
      "epoch": 0.12,
      "learning_rate": 1.1904761904761905e-05,
      "loss": 3.0723,
      "step": 120
    },
    {
      "epoch": 0.16,
      "learning_rate": 1.5873015873015872e-05,
      "loss": 2.9971,
      "step": 160
    },
    {
      "epoch": 0.2,
      "learning_rate": 1.984126984126984e-05,
      "loss": 2.8439,
      "step": 200
    },
    {
      "epoch": 0.24,
      "learning_rate": 2.380952380952381e-05,
      "loss": 2.8909,
      "step": 240
    },
    {
      "epoch": 0.28,
      "learning_rate": 2.777777777777778e-05,
      "loss": 2.7911,
      "step": 280
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.1746031746031745e-05,
      "loss": 2.9226,
      "step": 320
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.571428571428572e-05,
      "loss": 2.686,
      "step": 360
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.968253968253968e-05,
      "loss": 2.7288,
      "step": 400
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.3650793650793655e-05,
      "loss": 2.8761,
      "step": 440
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.761904761904762e-05,
      "loss": 2.7233,
      "step": 480
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.999846164295305e-05,
      "loss": 2.7677,
      "step": 520
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.998115730036208e-05,
      "loss": 2.8222,
      "step": 560
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.994463902265648e-05,
      "loss": 2.741,
      "step": 600
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.9888934897398796e-05,
      "loss": 2.7184,
      "step": 640
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.981408776869891e-05,
      "loss": 2.7622,
      "step": 680
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.972015520426105e-05,
      "loss": 2.7802,
      "step": 720
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.960720945110629e-05,
      "loss": 2.8312,
      "step": 760
    },
    {
      "epoch": 0.79,
      "learning_rate": 4.9475337380004715e-05,
      "loss": 2.6631,
      "step": 800
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.932464041865992e-05,
      "loss": 2.7406,
      "step": 840
    },
    {
      "epoch": 2.19,
      "learning_rate": 3.454201062050763e-05,
      "loss": 2.0682,
      "step": 880
    },
    {
      "epoch": 2.29,
      "learning_rate": 3.291511591195636e-05,
      "loss": 2.0316,
      "step": 920
    },
    {
      "epoch": 2.39,
      "learning_rate": 3.125004214391146e-05,
      "loss": 2.0728,
      "step": 960
    },
    {
      "epoch": 2.49,
      "learning_rate": 2.955482090443287e-05,
      "loss": 2.025,
      "step": 1000
    },
    {
      "epoch": 2.59,
      "learning_rate": 2.7837629199805354e-05,
      "loss": 2.0502,
      "step": 1040
    },
    {
      "epoch": 2.69,
      "learning_rate": 2.610675001223441e-05,
      "loss": 2.0532,
      "step": 1080
    },
    {
      "epoch": 2.79,
      "learning_rate": 2.4370532346360474e-05,
      "loss": 2.1131,
      "step": 1120
    },
    {
      "epoch": 2.89,
      "learning_rate": 2.2637350957309882e-05,
      "loss": 2.0662,
      "step": 1160
    },
    {
      "epoch": 2.99,
      "learning_rate": 2.0915565954536744e-05,
      "loss": 1.9638,
      "step": 1200
    },
    {
      "epoch": 3.0,
      "eval_loss": 2.4228010177612305,
      "eval_runtime": 5.1555,
      "eval_samples_per_second": 9.116,
      "eval_steps_per_second": 9.116,
      "step": 1206
    },
    {
      "epoch": 3.08,
      "learning_rate": 1.9213482476309065e-05,
      "loss": 1.8999,
      "step": 1240
    },
    {
      "epoch": 3.18,
      "learning_rate": 1.7539310629351915e-05,
      "loss": 1.8828,
      "step": 1280
    },
    {
      "epoch": 3.28,
      "learning_rate": 1.5901125886881146e-05,
      "loss": 1.7305,
      "step": 1320
    },
    {
      "epoch": 3.38,
      "learning_rate": 1.430683013605043e-05,
      "loss": 1.8129,
      "step": 1360
    },
    {
      "epoch": 3.48,
      "learning_rate": 1.276411356270143e-05,
      "loss": 1.9584,
      "step": 1400
    },
    {
      "epoch": 3.58,
      "learning_rate": 1.1280417557268735e-05,
      "loss": 1.8074,
      "step": 1440
    },
    {
      "epoch": 3.68,
      "learning_rate": 9.862898820764927e-06,
      "loss": 1.7996,
      "step": 1480
    },
    {
      "epoch": 3.78,
      "learning_rate": 8.518394843983093e-06,
      "loss": 1.8291,
      "step": 1520
    },
    {
      "epoch": 3.88,
      "learning_rate": 7.253390926429918e-06,
      "loss": 1.8193,
      "step": 1560
    },
    {
      "epoch": 3.98,
      "learning_rate": 6.073988894075491e-06,
      "loss": 1.8176,
      "step": 1600
    },
    {
      "epoch": 4.0,
      "eval_loss": 2.489954948425293,
      "eval_runtime": 5.1439,
      "eval_samples_per_second": 9.137,
      "eval_steps_per_second": 9.137,
      "step": 1608
    },
    {
      "epoch": 4.08,
      "learning_rate": 4.985877666811953e-06,
      "loss": 1.7447,
      "step": 1640
    },
    {
      "epoch": 4.18,
      "learning_rate": 3.994305817590549e-06,
      "loss": 1.8169,
      "step": 1680
    },
    {
      "epoch": 4.28,
      "learning_rate": 3.1040562555998216e-06,
      "loss": 1.7304,
      "step": 1720
    },
    {
      "epoch": 4.38,
      "learning_rate": 2.3194231556022544e-06,
      "loss": 1.6802,
      "step": 1760
    },
    {
      "epoch": 4.48,
      "learning_rate": 1.644191244712251e-06,
      "loss": 1.762,
      "step": 1800
    },
    {
      "epoch": 4.58,
      "learning_rate": 1.0816175465267586e-06,
      "loss": 1.6769,
      "step": 1840
    },
    {
      "epoch": 4.68,
      "learning_rate": 6.344156706670989e-07,
      "loss": 1.6643,
      "step": 1880
    },
    {
      "epoch": 4.78,
      "learning_rate": 3.047427235122663e-07,
      "loss": 1.7539,
      "step": 1920
    },
    {
      "epoch": 4.88,
      "learning_rate": 9.418890326059748e-08,
      "loss": 1.7693,
      "step": 1960
    },
    {
      "epoch": 4.98,
      "learning_rate": 3.769829508754041e-09,
      "loss": 1.8315,
      "step": 2000
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.999974616484595e-05,
      "loss": 3.4729,
      "step": 2040
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.99983643554066e-05,
      "loss": 3.8916,
      "step": 2080
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.999578104083307e-05,
      "loss": 3.7239,
      "step": 2120
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.9991996345288116e-05,
      "loss": 3.8084,
      "step": 2160
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.9987010450676885e-05,
      "loss": 3.2992,
      "step": 2200
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.998082359663817e-05,
      "loss": 3.809,
      "step": 2240
    },
    {
      "epoch": 0.56,
      "step": 2260,
      "total_flos": 1.095290092486656e+16,
      "train_loss": 0.0,
      "train_runtime": 9.5028,
      "train_samples_per_second": 42.093,
      "train_steps_per_second": 42.093
    }
  ],
  "logging_steps": 40,
  "max_steps": 400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 20,
  "total_flos": 1.095290092486656e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}