{
  "best_metric": 66.4804,
  "best_model_checkpoint": "bin/indosum-pt-pl50-0/checkpoint-4460",
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 1.1290439367294312,
      "learning_rate": 0.0008,
      "loss": 2.9265,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 83.836,
      "eval_loss": 1.873731017112732,
      "eval_rouge1": 55.0839,
      "eval_rouge2": 40.3522,
      "eval_rougeL": 51.1983,
      "eval_rougeLsum": 53.7369,
      "eval_runtime": 1057.5845,
      "eval_samples_per_second": 0.709,
      "eval_steps_per_second": 0.023,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.9764631986618042,
      "learning_rate": 0.0006,
      "loss": 2.2409,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 97.02533333333334,
      "eval_loss": 1.5732626914978027,
      "eval_rouge1": 61.4245,
      "eval_rouge2": 48.8132,
      "eval_rougeL": 57.8573,
      "eval_rougeLsum": 60.2997,
      "eval_runtime": 1157.6573,
      "eval_samples_per_second": 0.648,
      "eval_steps_per_second": 0.021,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.2892028093338013,
      "learning_rate": 0.0004,
      "loss": 1.9661,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 98.75733333333334,
      "eval_loss": 1.3582721948623657,
      "eval_rouge1": 63.476,
      "eval_rouge2": 51.6887,
      "eval_rougeL": 59.9726,
      "eval_rougeLsum": 62.3509,
      "eval_runtime": 1155.9967,
      "eval_samples_per_second": 0.649,
      "eval_steps_per_second": 0.021,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.0121344327926636,
      "learning_rate": 0.0002,
      "loss": 1.7713,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 98.79866666666666,
      "eval_loss": 1.256926417350769,
      "eval_rouge1": 65.7891,
      "eval_rouge2": 54.9944,
      "eval_rougeL": 62.429,
      "eval_rougeLsum": 64.7377,
      "eval_runtime": 1159.8277,
      "eval_samples_per_second": 0.647,
      "eval_steps_per_second": 0.021,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.1966058015823364,
      "learning_rate": 0.0,
      "loss": 1.6308,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 100.69733333333333,
      "eval_loss": 1.1937309503555298,
      "eval_rouge1": 66.4804,
      "eval_rouge2": 56.0803,
      "eval_rougeL": 63.1939,
      "eval_rougeLsum": 65.4418,
      "eval_runtime": 1168.6011,
      "eval_samples_per_second": 0.642,
      "eval_steps_per_second": 0.021,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 5.530296634048512e+16,
      "train_loss": 2.1071388689391815,
      "train_runtime": 11378.6339,
      "train_samples_per_second": 6.267,
      "train_steps_per_second": 0.392
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 5.530296634048512e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}