{
  "best_metric": NaN,
  "best_model_checkpoint": "/scratch/czm5kz/finetuned_pythia70M_nondeduped_cp_1430008_1_0.0002_sequential/checkpoint-20",
  "epoch": 0.9975062344139651,
  "eval_steps": 20,
  "global_step": 5600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.0,
      "eval_loss": NaN,
      "eval_runtime": 16.1146,
      "eval_samples_per_second": 696.823,
      "eval_steps_per_second": 87.126,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.01,
      "eval_loss": NaN,
      "eval_runtime": 16.2377,
      "eval_samples_per_second": 691.539,
      "eval_steps_per_second": 86.465,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.01,
      "eval_loss": NaN,
      "eval_runtime": 16.0293,
      "eval_samples_per_second": 700.529,
      "eval_steps_per_second": 87.589,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.01,
      "eval_loss": NaN,
      "eval_runtime": 16.1982,
      "eval_samples_per_second": 693.223,
      "eval_steps_per_second": 86.676,
      "step": 80
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 85
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 95
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 100
    },
    {
      "epoch": 0.02,
      "eval_loss": NaN,
      "eval_runtime": 16.0082,
      "eval_samples_per_second": 701.454,
      "eval_steps_per_second": 87.705,
      "step": 100
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 105
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 115
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 120
    },
    {
      "epoch": 0.02,
      "eval_loss": NaN,
      "eval_runtime": 16.1988,
      "eval_samples_per_second": 693.2,
      "eval_steps_per_second": 86.673,
      "step": 120
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 125
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 130
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 135
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 140
    },
    {
      "epoch": 0.02,
      "eval_loss": NaN,
      "eval_runtime": 16.1782,
      "eval_samples_per_second": 694.08,
      "eval_steps_per_second": 86.783,
      "step": 140
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 145
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 150
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 155
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 160
    },
    {
      "epoch": 0.03,
      "eval_loss": NaN,
      "eval_runtime": 15.992,
      "eval_samples_per_second": 702.163,
      "eval_steps_per_second": 87.794,
      "step": 160
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 165
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 170
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 175
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 180
    },
    {
      "epoch": 0.03,
      "eval_loss": NaN,
      "eval_runtime": 16.1988,
      "eval_samples_per_second": 693.201,
      "eval_steps_per_second": 86.673,
      "step": 180
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 185
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 190
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 195
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 200
    },
    {
      "epoch": 0.04,
      "eval_loss": NaN,
      "eval_runtime": 16.0093,
      "eval_samples_per_second": 701.407,
      "eval_steps_per_second": 87.699,
      "step": 200
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 205
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 210
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 215
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 220
    },
    {
      "epoch": 0.04,
      "eval_loss": NaN,
      "eval_runtime": 16.1792,
      "eval_samples_per_second": 694.038,
      "eval_steps_per_second": 86.778,
      "step": 220
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 225
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 230
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 235
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 240
    },
    {
      "epoch": 0.04,
      "eval_loss": NaN,
      "eval_runtime": 16.0036,
      "eval_samples_per_second": 701.654,
      "eval_steps_per_second": 87.73,
      "step": 240
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 245
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 250
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 255
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 260
    },
    {
      "epoch": 0.05,
      "eval_loss": NaN,
      "eval_runtime": 16.1856,
      "eval_samples_per_second": 693.763,
      "eval_steps_per_second": 86.744,
      "step": 260
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 265
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 270
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 275
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 280
    },
    {
      "epoch": 0.05,
      "eval_loss": NaN,
      "eval_runtime": 16.203,
      "eval_samples_per_second": 693.019,
      "eval_steps_per_second": 86.651,
      "step": 280
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 285
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 290
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 295
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 300
    },
    {
      "epoch": 0.05,
      "eval_loss": NaN,
      "eval_runtime": 15.9989,
      "eval_samples_per_second": 701.86,
      "eval_steps_per_second": 87.756,
      "step": 300
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 305
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 310
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 315
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 320
    },
    {
      "epoch": 0.06,
      "eval_loss": NaN,
      "eval_runtime": 16.1855,
      "eval_samples_per_second": 693.771,
      "eval_steps_per_second": 86.745,
      "step": 320
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 325
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 330
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 335
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 340
    },
    {
      "epoch": 0.06,
      "eval_loss": NaN,
      "eval_runtime": 16.0192,
      "eval_samples_per_second": 700.973,
      "eval_steps_per_second": 87.645,
      "step": 340
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 345
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 350
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 355
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 360
    },
    {
      "epoch": 0.06,
      "eval_loss": NaN,
      "eval_runtime": 16.1801,
      "eval_samples_per_second": 694.0,
      "eval_steps_per_second": 86.773,
      "step": 360
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 365
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 370
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 375
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 380
    },
    {
      "epoch": 0.07,
      "eval_loss": NaN,
      "eval_runtime": 16.0121,
      "eval_samples_per_second": 701.281,
      "eval_steps_per_second": 87.684,
      "step": 380
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 385
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 390
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 395
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 400
    },
    {
      "epoch": 0.07,
      "eval_loss": NaN,
      "eval_runtime": 16.1904,
      "eval_samples_per_second": 693.561,
      "eval_steps_per_second": 86.718,
      "step": 400
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 405
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 410
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 415
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 420
    },
    {
      "epoch": 0.07,
      "eval_loss": NaN,
      "eval_runtime": 16.1998,
      "eval_samples_per_second": 693.156,
      "eval_steps_per_second": 86.668,
      "step": 420
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 425
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 430
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 435
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 440
    },
    {
      "epoch": 0.08,
      "eval_loss": NaN,
      "eval_runtime": 16.0087,
      "eval_samples_per_second": 701.43,
      "eval_steps_per_second": 87.702,
      "step": 440
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 445
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 450
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 455
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 460
    },
    {
      "epoch": 0.08,
      "eval_loss": NaN,
      "eval_runtime": 16.199,
      "eval_samples_per_second": 693.193,
      "eval_steps_per_second": 86.672,
      "step": 460
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 465
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 470
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 475
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 480
    },
    {
      "epoch": 0.09,
      "eval_loss": NaN,
      "eval_runtime": 15.9611,
      "eval_samples_per_second": 703.522,
      "eval_steps_per_second": 87.964,
      "step": 480
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 485
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 490
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 495
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 500
    },
    {
      "epoch": 0.09,
      "eval_loss": NaN,
      "eval_runtime": 16.1944,
      "eval_samples_per_second": 693.387,
      "eval_steps_per_second": 86.697,
      "step": 500
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 505
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 510
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 515
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 520
    },
    {
      "epoch": 0.09,
      "eval_loss": NaN,
      "eval_runtime": 16.0222,
      "eval_samples_per_second": 700.838,
      "eval_steps_per_second": 87.628,
      "step": 520
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 525
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 530
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 535
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 540
    },
    {
      "epoch": 0.1,
      "eval_loss": NaN,
      "eval_runtime": 16.1622,
      "eval_samples_per_second": 694.77,
      "eval_steps_per_second": 86.869,
      "step": 540
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 545
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 550
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 555
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 560
    },
    {
      "epoch": 0.1,
      "eval_loss": NaN,
      "eval_runtime": 16.1899,
      "eval_samples_per_second": 693.581,
      "eval_steps_per_second": 86.721,
      "step": 560
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 565
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 570
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 575
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 580
    },
    {
      "epoch": 0.1,
      "eval_loss": NaN,
      "eval_runtime": 16.0008,
      "eval_samples_per_second": 701.775,
      "eval_steps_per_second": 87.745,
      "step": 580
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 585
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 590
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 595
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 600
    },
    {
      "epoch": 0.11,
      "eval_loss": NaN,
      "eval_runtime": 16.1819,
      "eval_samples_per_second": 693.923,
      "eval_steps_per_second": 86.764,
      "step": 600
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 605
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 610
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 615
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 620
    },
    {
      "epoch": 0.11,
      "eval_loss": NaN,
      "eval_runtime": 15.9831,
      "eval_samples_per_second": 702.554,
      "eval_steps_per_second": 87.843,
      "step": 620
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 625
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 630
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 635
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 640
    },
    {
      "epoch": 0.11,
      "eval_loss": NaN,
      "eval_runtime": 16.1804,
      "eval_samples_per_second": 693.989,
      "eval_steps_per_second": 86.772,
      "step": 640
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 645
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 650
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 655
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 660
    },
    {
      "epoch": 0.12,
      "eval_loss": NaN,
      "eval_runtime": 16.0085,
      "eval_samples_per_second": 701.438,
      "eval_steps_per_second": 87.703,
      "step": 660
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 665
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 670
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 675
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 680
    },
    {
      "epoch": 0.12,
      "eval_loss": NaN,
      "eval_runtime": 16.1876,
      "eval_samples_per_second": 693.679,
      "eval_steps_per_second": 86.733,
      "step": 680
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 685
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 690
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 695
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 700
    },
    {
      "epoch": 0.12,
      "eval_loss": NaN,
      "eval_runtime": 16.1685,
      "eval_samples_per_second": 694.499,
      "eval_steps_per_second": 86.836,
      "step": 700
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 705
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 710
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 715
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 720
    },
    {
      "epoch": 0.13,
      "eval_loss": NaN,
      "eval_runtime": 16.0219,
      "eval_samples_per_second": 700.852,
      "eval_steps_per_second": 87.63,
      "step": 720
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 725
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 730
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 735
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 740
    },
    {
      "epoch": 0.13,
      "eval_loss": NaN,
      "eval_runtime": 16.1706,
      "eval_samples_per_second": 694.409,
      "eval_steps_per_second": 86.824,
      "step": 740
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 745
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 750
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 755
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 760
    },
    {
      "epoch": 0.14,
      "eval_loss": NaN,
      "eval_runtime": 16.0001,
      "eval_samples_per_second": 701.808,
      "eval_steps_per_second": 87.749,
      "step": 760
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 765
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 770
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 775
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 780
    },
    {
      "epoch": 0.14,
      "eval_loss": NaN,
      "eval_runtime": 16.1874,
      "eval_samples_per_second": 693.687,
      "eval_steps_per_second": 86.734,
      "step": 780
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 785
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 790
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 795
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 800
    },
    {
      "epoch": 0.14,
      "eval_loss": NaN,
      "eval_runtime": 16.0324,
      "eval_samples_per_second": 700.394,
      "eval_steps_per_second": 87.573,
      "step": 800
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 805
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 810
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 815
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 820
    },
    {
      "epoch": 0.15,
      "eval_loss": NaN,
      "eval_runtime": 16.2018,
      "eval_samples_per_second": 693.07,
      "eval_steps_per_second": 86.657,
      "step": 820
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 825
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 830
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 2.7079,
      "step": 835
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 840
    },
    {
      "epoch": 0.15,
      "eval_loss": NaN,
      "eval_runtime": 16.1881,
      "eval_samples_per_second": 693.659,
      "eval_steps_per_second": 86.731,
      "step": 840
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 845
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 850
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 855
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 860
    },
    {
      "epoch": 0.15,
      "eval_loss": NaN,
      "eval_runtime": 16.0096,
      "eval_samples_per_second": 701.392,
      "eval_steps_per_second": 87.697,
      "step": 860
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 865
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 870
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 875
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 880
    },
    {
      "epoch": 0.16,
      "eval_loss": NaN,
      "eval_runtime": 16.2063,
      "eval_samples_per_second": 692.877,
      "eval_steps_per_second": 86.633,
      "step": 880
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 885
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 890
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 895
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 900
    },
    {
      "epoch": 0.16,
      "eval_loss": NaN,
      "eval_runtime": 15.9917,
      "eval_samples_per_second": 702.178,
      "eval_steps_per_second": 87.796,
      "step": 900
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 905
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 910
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 915
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 920
    },
    {
      "epoch": 0.16,
      "eval_loss": NaN,
      "eval_runtime": 16.2069,
      "eval_samples_per_second": 692.853,
      "eval_steps_per_second": 86.63,
      "step": 920
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 925
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 930
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 935
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 940
    },
    {
      "epoch": 0.17,
      "eval_loss": NaN,
      "eval_runtime": 16.0224,
      "eval_samples_per_second": 700.833,
      "eval_steps_per_second": 87.627,
      "step": 940
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 945
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 950
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 955
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 960
    },
    {
      "epoch": 0.17,
      "eval_loss": NaN,
      "eval_runtime": 16.2025,
      "eval_samples_per_second": 693.043,
      "eval_steps_per_second": 86.653,
      "step": 960
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 965
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 970
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 975
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 980
    },
    {
      "epoch": 0.17,
      "eval_loss": NaN,
      "eval_runtime": 16.2371,
      "eval_samples_per_second": 691.563,
      "eval_steps_per_second": 86.468,
      "step": 980
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 985
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 990
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 995
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1000
    },
    {
      "epoch": 0.18,
      "eval_loss": NaN,
      "eval_runtime": 16.0227,
      "eval_samples_per_second": 700.819,
      "eval_steps_per_second": 87.626,
      "step": 1000
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1005
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1010
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1015
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1020
    },
    {
      "epoch": 0.18,
      "eval_loss": NaN,
      "eval_runtime": 16.1836,
      "eval_samples_per_second": 693.852,
      "eval_steps_per_second": 86.755,
      "step": 1020
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1025
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1030
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1035
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1040
    },
    {
      "epoch": 0.19,
      "eval_loss": NaN,
      "eval_runtime": 16.0089,
      "eval_samples_per_second": 701.424,
      "eval_steps_per_second": 87.701,
      "step": 1040
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1045
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1050
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1055
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1060
    },
    {
      "epoch": 0.19,
      "eval_loss": NaN,
      "eval_runtime": 16.2159,
      "eval_samples_per_second": 692.468,
      "eval_steps_per_second": 86.582,
      "step": 1060
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1065
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1070
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1075
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1080
    },
    {
      "epoch": 0.19,
      "eval_loss": NaN,
      "eval_runtime": 16.0071,
      "eval_samples_per_second": 701.499,
      "eval_steps_per_second": 87.711,
      "step": 1080
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1085
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1090
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1095
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1100
    },
    {
      "epoch": 0.2,
      "eval_loss": NaN,
      "eval_runtime": 16.1828,
      "eval_samples_per_second": 693.885,
      "eval_steps_per_second": 86.759,
      "step": 1100
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1105
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1110
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1115
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1120
    },
    {
      "epoch": 0.2,
      "eval_loss": NaN,
      "eval_runtime": 16.2019,
      "eval_samples_per_second": 693.066,
      "eval_steps_per_second": 86.656,
      "step": 1120
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1125
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1130
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1135
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1140
    },
    {
      "epoch": 0.2,
      "eval_loss": NaN,
      "eval_runtime": 16.0117,
      "eval_samples_per_second": 701.301,
      "eval_steps_per_second": 87.686,
      "step": 1140
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1145
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1150
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1155
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1160
    },
    {
      "epoch": 0.21,
      "eval_loss": NaN,
      "eval_runtime": 16.2337,
      "eval_samples_per_second": 691.71,
      "eval_steps_per_second": 86.487,
      "step": 1160
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1165
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1170
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1175
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1180
    },
    {
      "epoch": 0.21,
      "eval_loss": NaN,
      "eval_runtime": 15.9876,
      "eval_samples_per_second": 702.357,
      "eval_steps_per_second": 87.818,
      "step": 1180
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1185
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1190
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1195
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1200
    },
    {
      "epoch": 0.21,
      "eval_loss": NaN,
      "eval_runtime": 16.193,
      "eval_samples_per_second": 693.449,
      "eval_steps_per_second": 86.704,
      "step": 1200
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1205
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1210
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1215
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1220
    },
    {
      "epoch": 0.22,
      "eval_loss": NaN,
      "eval_runtime": 16.0244,
      "eval_samples_per_second": 700.743,
      "eval_steps_per_second": 87.616,
      "step": 1220
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1225
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1230
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1235
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1240
    },
    {
      "epoch": 0.22,
      "eval_loss": NaN,
      "eval_runtime": 16.2076,
      "eval_samples_per_second": 692.821,
      "eval_steps_per_second": 86.626,
      "step": 1240
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1245
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1250
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1255
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1260
    },
    {
      "epoch": 0.22,
      "eval_loss": NaN,
      "eval_runtime": 16.0179,
      "eval_samples_per_second": 701.027,
      "eval_steps_per_second": 87.652,
      "step": 1260
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1265
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1270
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1275
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1280
    },
    {
      "epoch": 0.23,
      "eval_loss": NaN,
      "eval_runtime": 16.0135,
      "eval_samples_per_second": 701.223,
      "eval_steps_per_second": 87.676,
      "step": 1280
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1285
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1290
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1295
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1300
    },
    {
      "epoch": 0.23,
      "eval_loss": NaN,
      "eval_runtime": 16.1956,
      "eval_samples_per_second": 693.337,
      "eval_steps_per_second": 86.69,
      "step": 1300
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1305
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1310
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1315
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1320
    },
    {
      "epoch": 0.24,
      "eval_loss": NaN,
      "eval_runtime": 16.0336,
      "eval_samples_per_second": 700.342,
      "eval_steps_per_second": 87.566,
      "step": 1320
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1325
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1330
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1335
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1340
    },
    {
      "epoch": 0.24,
      "eval_loss": NaN,
      "eval_runtime": 16.2227,
      "eval_samples_per_second": 692.18,
      "eval_steps_per_second": 86.546,
      "step": 1340
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1345
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1350
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1355
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1360
    },
    {
      "epoch": 0.24,
      "eval_loss": NaN,
      "eval_runtime": 16.0535,
      "eval_samples_per_second": 699.473,
      "eval_steps_per_second": 87.457,
      "step": 1360
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1365
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1370
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1375
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1380
    },
    {
      "epoch": 0.25,
      "eval_loss": NaN,
      "eval_runtime": 16.1935,
      "eval_samples_per_second": 693.425,
      "eval_steps_per_second": 86.701,
      "step": 1380
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1385
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1390
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1395
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1400
    },
    {
      "epoch": 0.25,
      "eval_loss": NaN,
      "eval_runtime": 16.0209,
      "eval_samples_per_second": 700.898,
      "eval_steps_per_second": 87.636,
      "step": 1400
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1405
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1410
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1415
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1420
    },
    {
      "epoch": 0.25,
      "eval_loss": NaN,
      "eval_runtime": 16.0299,
      "eval_samples_per_second": 700.505,
      "eval_steps_per_second": 87.587,
      "step": 1420
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1425
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1430
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 1.0606,
      "step": 1435
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1440
    },
    {
      "epoch": 0.26,
      "eval_loss": NaN,
      "eval_runtime": 16.202,
      "eval_samples_per_second": 693.065,
      "eval_steps_per_second": 86.656,
      "step": 1440
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1445
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1450
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1455
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.9122,
      "step": 1460
    },
    {
      "epoch": 0.26,
      "eval_loss": NaN,
      "eval_runtime": 16.0103,
      "eval_samples_per_second": 701.36,
      "eval_steps_per_second": 87.693,
      "step": 1460
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1465
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1470
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1475
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1480
    },
    {
      "epoch": 0.26,
      "eval_loss": NaN,
      "eval_runtime": 16.0306,
      "eval_samples_per_second": 700.471,
      "eval_steps_per_second": 87.582,
      "step": 1480
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1485
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1490
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1495
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1500
    },
    {
      "epoch": 0.27,
      "eval_loss": NaN,
      "eval_runtime": 16.2098,
      "eval_samples_per_second": 692.728,
      "eval_steps_per_second": 86.614,
      "step": 1500
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1505
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1510
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1515
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1520
    },
    {
      "epoch": 0.27,
      "eval_loss": NaN,
      "eval_runtime": 16.0138,
      "eval_samples_per_second": 701.208,
      "eval_steps_per_second": 87.674,
      "step": 1520
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1525
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1530
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1535
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1540
    },
    {
      "epoch": 0.27,
      "eval_loss": NaN,
      "eval_runtime": 16.2276,
      "eval_samples_per_second": 691.968,
      "eval_steps_per_second": 86.519,
      "step": 1540
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1545
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1550
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1555
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1560
    },
    {
      "epoch": 0.28,
      "eval_loss": NaN,
      "eval_runtime": 16.0281,
      "eval_samples_per_second": 700.584,
      "eval_steps_per_second": 87.596,
      "step": 1560
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1565
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1570
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1575
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1580
    },
    {
      "epoch": 0.28,
      "eval_loss": NaN,
      "eval_runtime": 16.232,
      "eval_samples_per_second": 691.782,
      "eval_steps_per_second": 86.496,
      "step": 1580
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1585
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1590
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1595
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1600
    },
    {
      "epoch": 0.29,
      "eval_loss": NaN,
      "eval_runtime": 16.034,
      "eval_samples_per_second": 700.326,
      "eval_steps_per_second": 87.564,
      "step": 1600
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1605
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1610
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1615
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1620
    },
    {
      "epoch": 0.29,
      "eval_loss": NaN,
      "eval_runtime": 16.0337,
      "eval_samples_per_second": 700.336,
      "eval_steps_per_second": 87.565,
      "step": 1620
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1625
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1630
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1635
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1640
    },
    {
      "epoch": 0.29,
      "eval_loss": NaN,
      "eval_runtime": 16.2259,
      "eval_samples_per_second": 692.043,
      "eval_steps_per_second": 86.529,
      "step": 1640
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1645
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1650
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1655
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1660
    },
    {
      "epoch": 0.3,
      "eval_loss": NaN,
      "eval_runtime": 16.0115,
      "eval_samples_per_second": 701.31,
      "eval_steps_per_second": 87.687,
      "step": 1660
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1665
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1670
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1675
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1680
    },
    {
      "epoch": 0.3,
      "eval_loss": NaN,
      "eval_runtime": 16.1906,
      "eval_samples_per_second": 693.551,
      "eval_steps_per_second": 86.717,
      "step": 1680
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1685
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1690
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1695
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1700
    },
    {
      "epoch": 0.3,
      "eval_loss": NaN,
      "eval_runtime": 16.0064,
      "eval_samples_per_second": 701.532,
      "eval_steps_per_second": 87.715,
      "step": 1700
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1705
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1710
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1715
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1720
    },
    {
      "epoch": 0.31,
      "eval_loss": NaN,
      "eval_runtime": 16.2263,
      "eval_samples_per_second": 692.025,
      "eval_steps_per_second": 86.526,
      "step": 1720
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1725
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1730
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1735
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1740
    },
    {
      "epoch": 0.31,
      "eval_loss": NaN,
      "eval_runtime": 16.022,
      "eval_samples_per_second": 700.85,
      "eval_steps_per_second": 87.63,
      "step": 1740
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1745
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1750
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1755
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1760
    },
    {
      "epoch": 0.31,
      "eval_loss": NaN,
      "eval_runtime": 16.0469,
      "eval_samples_per_second": 699.762,
      "eval_steps_per_second": 87.494,
      "step": 1760
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1765
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1770
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1775
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1780
    },
    {
      "epoch": 0.32,
      "eval_loss": NaN,
      "eval_runtime": 16.2208,
      "eval_samples_per_second": 692.26,
      "eval_steps_per_second": 86.556,
      "step": 1780
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1785
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1790
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1795
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1800
    },
    {
      "epoch": 0.32,
      "eval_loss": NaN,
      "eval_runtime": 16.0447,
      "eval_samples_per_second": 699.857,
      "eval_steps_per_second": 87.505,
      "step": 1800
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1805
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1810
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1815
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1820
    },
    {
      "epoch": 0.32,
      "eval_loss": NaN,
      "eval_runtime": 16.2161,
      "eval_samples_per_second": 692.462,
      "eval_steps_per_second": 86.581,
      "step": 1820
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1825
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1830
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1835
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1840
    },
    {
      "epoch": 0.33,
      "eval_loss": NaN,
      "eval_runtime": 16.0155,
      "eval_samples_per_second": 701.133,
      "eval_steps_per_second": 87.665,
      "step": 1840
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1845
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1850
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1855
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1860
    },
    {
      "epoch": 0.33,
      "eval_loss": NaN,
      "eval_runtime": 16.1884,
      "eval_samples_per_second": 693.644,
      "eval_steps_per_second": 86.729,
      "step": 1860
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1865
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1870
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1875
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1880
    },
    {
      "epoch": 0.33,
      "eval_loss": NaN,
      "eval_runtime": 16.025,
      "eval_samples_per_second": 700.718,
      "eval_steps_per_second": 87.613,
      "step": 1880
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1885
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1890
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1895
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1900
    },
    {
      "epoch": 0.34,
      "eval_loss": NaN,
      "eval_runtime": 16.2084,
      "eval_samples_per_second": 692.79,
      "eval_steps_per_second": 86.622,
      "step": 1900
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1905
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1910
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1915
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1920
    },
    {
      "epoch": 0.34,
      "eval_loss": NaN,
      "eval_runtime": 16.2095,
      "eval_samples_per_second": 692.744,
      "eval_steps_per_second": 86.616,
      "step": 1920
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1925
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1930
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1935
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1940
    },
    {
      "epoch": 0.35,
      "eval_loss": NaN,
      "eval_runtime": 16.0186,
      "eval_samples_per_second": 700.997,
      "eval_steps_per_second": 87.648,
      "step": 1940
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1945
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1950
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1955
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1960
    },
    {
      "epoch": 0.35,
      "eval_loss": NaN,
      "eval_runtime": 16.1962,
      "eval_samples_per_second": 693.312,
      "eval_steps_per_second": 86.687,
      "step": 1960
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1965
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1970
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1975
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1980
    },
    {
      "epoch": 0.35,
      "eval_loss": NaN,
      "eval_runtime": 16.0472,
      "eval_samples_per_second": 699.747,
      "eval_steps_per_second": 87.492,
      "step": 1980
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1985
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1990
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 1995
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2000
    },
    {
      "epoch": 0.36,
      "eval_loss": NaN,
      "eval_runtime": 16.2021,
      "eval_samples_per_second": 693.06,
      "eval_steps_per_second": 86.656,
      "step": 2000
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2005
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2010
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2015
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2020
    },
    {
      "epoch": 0.36,
      "eval_loss": NaN,
      "eval_runtime": 16.0067,
      "eval_samples_per_second": 701.518,
      "eval_steps_per_second": 87.713,
      "step": 2020
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2025
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2030
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2035
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2040
    },
    {
      "epoch": 0.36,
      "eval_loss": NaN,
      "eval_runtime": 16.1988,
      "eval_samples_per_second": 693.198,
      "eval_steps_per_second": 86.673,
      "step": 2040
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2045
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2050
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2055
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2060
    },
    {
      "epoch": 0.37,
      "eval_loss": NaN,
      "eval_runtime": 16.1992,
      "eval_samples_per_second": 693.183,
      "eval_steps_per_second": 86.671,
      "step": 2060
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2065
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2070
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2075
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2080
    },
    {
      "epoch": 0.37,
      "eval_loss": NaN,
      "eval_runtime": 16.0247,
      "eval_samples_per_second": 700.73,
      "eval_steps_per_second": 87.615,
      "step": 2080
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2085
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2090
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2095
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2100
    },
    {
      "epoch": 0.37,
      "eval_loss": NaN,
      "eval_runtime": 16.188,
      "eval_samples_per_second": 693.663,
      "eval_steps_per_second": 86.731,
      "step": 2100
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2105
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2110
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2115
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2120
    },
    {
      "epoch": 0.38,
      "eval_loss": NaN,
      "eval_runtime": 16.0324,
      "eval_samples_per_second": 700.393,
      "eval_steps_per_second": 87.573,
      "step": 2120
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2125
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2130
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2135
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2140
    },
    {
      "epoch": 0.38,
      "eval_loss": NaN,
      "eval_runtime": 16.2289,
      "eval_samples_per_second": 691.914,
      "eval_steps_per_second": 86.512,
      "step": 2140
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2145
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2150
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2155
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2160
    },
    {
      "epoch": 0.38,
      "eval_loss": NaN,
      "eval_runtime": 16.0005,
      "eval_samples_per_second": 701.79,
      "eval_steps_per_second": 87.747,
      "step": 2160
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2165
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2170
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2175
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2180
    },
    {
      "epoch": 0.39,
      "eval_loss": NaN,
      "eval_runtime": 16.2072,
      "eval_samples_per_second": 692.842,
      "eval_steps_per_second": 86.628,
      "step": 2180
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2185
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2190
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2195
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2200
    },
    {
      "epoch": 0.39,
      "eval_loss": NaN,
      "eval_runtime": 16.2049,
      "eval_samples_per_second": 692.941,
      "eval_steps_per_second": 86.641,
      "step": 2200
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2205
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2210
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2215
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2220
    },
    {
      "epoch": 0.4,
      "eval_loss": NaN,
      "eval_runtime": 16.0208,
      "eval_samples_per_second": 700.902,
      "eval_steps_per_second": 87.636,
      "step": 2220
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2225
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2230
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2235
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2240
    },
    {
      "epoch": 0.4,
      "eval_loss": NaN,
      "eval_runtime": 16.2122,
      "eval_samples_per_second": 692.626,
      "eval_steps_per_second": 86.601,
      "step": 2240
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2245
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2250
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2255
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2260
    },
    {
      "epoch": 0.4,
      "eval_loss": NaN,
      "eval_runtime": 16.0178,
      "eval_samples_per_second": 701.034,
      "eval_steps_per_second": 87.653,
      "step": 2260
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2265
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2270
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2275
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2280
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 16.2241,
      "eval_samples_per_second": 692.117,
      "eval_steps_per_second": 86.538,
      "step": 2280
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2285
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.9947,
      "step": 2290
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2295
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2300
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 16.0265,
      "eval_samples_per_second": 700.653,
      "eval_steps_per_second": 87.605,
      "step": 2300
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2305
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2310
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2315
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2320
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 16.2331,
      "eval_samples_per_second": 691.736,
      "eval_steps_per_second": 86.49,
      "step": 2320
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2325
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2330
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2335
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2340
    },
    {
      "epoch": 0.42,
      "eval_loss": NaN,
      "eval_runtime": 16.2,
      "eval_samples_per_second": 693.148,
      "eval_steps_per_second": 86.667,
      "step": 2340
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2345
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2350
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2355
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2360
    },
    {
      "epoch": 0.42,
      "eval_loss": NaN,
      "eval_runtime": 16.044,
      "eval_samples_per_second": 699.889,
      "eval_steps_per_second": 87.509,
      "step": 2360
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2365
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2370
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2375
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2380
    },
    {
      "epoch": 0.42,
      "eval_loss": NaN,
      "eval_runtime": 16.2276,
      "eval_samples_per_second": 691.968,
      "eval_steps_per_second": 86.519,
      "step": 2380
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2385
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2390
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2395
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2400
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 16.0377,
      "eval_samples_per_second": 700.161,
      "eval_steps_per_second": 87.543,
      "step": 2400
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2405
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2410
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2415
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2420
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 16.2397,
      "eval_samples_per_second": 691.455,
      "eval_steps_per_second": 86.455,
      "step": 2420
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2425
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2430
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2435
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2440
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 16.0588,
      "eval_samples_per_second": 699.244,
      "eval_steps_per_second": 87.429,
      "step": 2440
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2445
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2450
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2455
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2460
    },
    {
      "epoch": 0.44,
      "eval_loss": NaN,
      "eval_runtime": 16.2263,
      "eval_samples_per_second": 692.024,
      "eval_steps_per_second": 86.526,
      "step": 2460
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2465
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2470
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2475
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2480
    },
    {
      "epoch": 0.44,
      "eval_loss": NaN,
      "eval_runtime": 16.215,
      "eval_samples_per_second": 692.506,
      "eval_steps_per_second": 86.586,
      "step": 2480
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2485
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2490
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2495
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2500
    },
    {
      "epoch": 0.45,
      "eval_loss": NaN,
      "eval_runtime": 16.0384,
      "eval_samples_per_second": 700.132,
      "eval_steps_per_second": 87.54,
      "step": 2500
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2505
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2510
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2515
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2520
    },
    {
      "epoch": 0.45,
      "eval_loss": NaN,
      "eval_runtime": 16.2142,
      "eval_samples_per_second": 692.54,
      "eval_steps_per_second": 86.591,
      "step": 2520
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2525
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2530
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2535
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2540
    },
    {
      "epoch": 0.45,
      "eval_loss": NaN,
      "eval_runtime": 16.0257,
      "eval_samples_per_second": 700.687,
      "eval_steps_per_second": 87.609,
      "step": 2540
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2545
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2550
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2555
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2560
    },
    {
      "epoch": 0.46,
      "eval_loss": NaN,
      "eval_runtime": 16.2346,
      "eval_samples_per_second": 691.672,
      "eval_steps_per_second": 86.482,
      "step": 2560
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2565
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2570
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2575
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2580
    },
    {
      "epoch": 0.46,
      "eval_loss": NaN,
      "eval_runtime": 16.0287,
      "eval_samples_per_second": 700.555,
      "eval_steps_per_second": 87.593,
      "step": 2580
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2585
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2590
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2595
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2600
    },
    {
      "epoch": 0.46,
      "eval_loss": NaN,
      "eval_runtime": 16.2119,
      "eval_samples_per_second": 692.641,
      "eval_steps_per_second": 86.603,
      "step": 2600
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2605
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2610
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2615
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2620
    },
    {
      "epoch": 0.47,
      "eval_loss": NaN,
      "eval_runtime": 16.2398,
      "eval_samples_per_second": 691.449,
      "eval_steps_per_second": 86.454,
      "step": 2620
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2625
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2630
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2635
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2640
    },
    {
      "epoch": 0.47,
      "eval_loss": NaN,
      "eval_runtime": 16.0618,
      "eval_samples_per_second": 699.113,
      "eval_steps_per_second": 87.412,
      "step": 2640
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2645
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2650
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2655
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2660
    },
    {
      "epoch": 0.47,
      "eval_loss": NaN,
      "eval_runtime": 16.2534,
      "eval_samples_per_second": 690.873,
      "eval_steps_per_second": 86.382,
      "step": 2660
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2665
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2670
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2675
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2680
    },
    {
      "epoch": 0.48,
      "eval_loss": NaN,
      "eval_runtime": 16.0344,
      "eval_samples_per_second": 700.309,
      "eval_steps_per_second": 87.562,
      "step": 2680
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2685
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2690
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2695
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2700
    },
    {
      "epoch": 0.48,
      "eval_loss": NaN,
      "eval_runtime": 16.2211,
      "eval_samples_per_second": 692.246,
      "eval_steps_per_second": 86.554,
      "step": 2700
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2705
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2710
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2715
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2720
    },
    {
      "epoch": 0.48,
      "eval_loss": NaN,
      "eval_runtime": 16.0518,
      "eval_samples_per_second": 699.549,
      "eval_steps_per_second": 87.467,
      "step": 2720
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2725
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2730
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2735
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2740
    },
    {
      "epoch": 0.49,
      "eval_loss": NaN,
      "eval_runtime": 16.2309,
      "eval_samples_per_second": 691.83,
      "eval_steps_per_second": 86.502,
      "step": 2740
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2745
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2750
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2755
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2760
    },
    {
      "epoch": 0.49,
      "eval_loss": NaN,
      "eval_runtime": 16.2124,
      "eval_samples_per_second": 692.618,
      "eval_steps_per_second": 86.6,
      "step": 2760
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2765
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2770
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2775
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2780
    },
    {
      "epoch": 0.5,
      "eval_loss": NaN,
      "eval_runtime": 16.0539,
      "eval_samples_per_second": 699.456,
      "eval_steps_per_second": 87.455,
      "step": 2780
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2785
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2790
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2795
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2800
    },
    {
      "epoch": 0.5,
      "eval_loss": NaN,
      "eval_runtime": 16.2032,
      "eval_samples_per_second": 693.012,
      "eval_steps_per_second": 86.65,
      "step": 2800
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2805
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2810
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2815
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2820
    },
    {
      "epoch": 0.5,
      "eval_loss": NaN,
      "eval_runtime": 16.0294,
      "eval_samples_per_second": 700.524,
      "eval_steps_per_second": 87.589,
      "step": 2820
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2825
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2830
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2835
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2840
    },
    {
      "epoch": 0.51,
      "eval_loss": NaN,
      "eval_runtime": 16.2244,
      "eval_samples_per_second": 692.105,
      "eval_steps_per_second": 86.536,
      "step": 2840
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2845
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2850
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2855
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2860
    },
    {
      "epoch": 0.51,
      "eval_loss": NaN,
      "eval_runtime": 16.0285,
      "eval_samples_per_second": 700.563,
      "eval_steps_per_second": 87.594,
      "step": 2860
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2865
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2870
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2875
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2880
    },
    {
      "epoch": 0.51,
      "eval_loss": NaN,
      "eval_runtime": 16.2292,
      "eval_samples_per_second": 691.901,
      "eval_steps_per_second": 86.511,
      "step": 2880
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2885
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2890
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2895
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2900
    },
    {
      "epoch": 0.52,
      "eval_loss": NaN,
      "eval_runtime": 16.2277,
      "eval_samples_per_second": 691.967,
      "eval_steps_per_second": 86.519,
      "step": 2900
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2905
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2910
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2915
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2920
    },
    {
      "epoch": 0.52,
      "eval_loss": NaN,
      "eval_runtime": 16.0565,
      "eval_samples_per_second": 699.342,
      "eval_steps_per_second": 87.441,
      "step": 2920
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2925
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2930
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2935
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2940
    },
    {
      "epoch": 0.52,
      "eval_loss": NaN,
      "eval_runtime": 16.2374,
      "eval_samples_per_second": 691.552,
      "eval_steps_per_second": 86.467,
      "step": 2940
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2945
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2950
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2955
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2960
    },
    {
      "epoch": 0.53,
      "eval_loss": NaN,
      "eval_runtime": 15.9983,
      "eval_samples_per_second": 701.889,
      "eval_steps_per_second": 87.76,
      "step": 2960
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2965
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2970
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2975
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2980
    },
    {
      "epoch": 0.53,
      "eval_loss": NaN,
      "eval_runtime": 16.2161,
      "eval_samples_per_second": 692.461,
      "eval_steps_per_second": 86.581,
      "step": 2980
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2985
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2990
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 2995
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3000
    },
    {
      "epoch": 0.53,
      "eval_loss": NaN,
      "eval_runtime": 16.0362,
      "eval_samples_per_second": 700.226,
      "eval_steps_per_second": 87.552,
      "step": 3000
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3005
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3010
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3015
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3020
    },
    {
      "epoch": 0.54,
      "eval_loss": NaN,
      "eval_runtime": 16.1901,
      "eval_samples_per_second": 693.572,
      "eval_steps_per_second": 86.72,
      "step": 3020
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3025
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3030
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3035
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3040
    },
    {
      "epoch": 0.54,
      "eval_loss": NaN,
      "eval_runtime": 16.2307,
      "eval_samples_per_second": 691.838,
      "eval_steps_per_second": 86.503,
      "step": 3040
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3045
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3050
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3055
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3060
    },
    {
      "epoch": 0.55,
      "eval_loss": NaN,
      "eval_runtime": 16.0487,
      "eval_samples_per_second": 699.684,
      "eval_steps_per_second": 87.484,
      "step": 3060
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3065
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3070
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3075
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3080
    },
    {
      "epoch": 0.55,
      "eval_loss": NaN,
      "eval_runtime": 16.224,
      "eval_samples_per_second": 692.121,
      "eval_steps_per_second": 86.538,
      "step": 3080
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3085
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3090
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3095
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3100
    },
    {
      "epoch": 0.55,
      "eval_loss": NaN,
      "eval_runtime": 16.0323,
      "eval_samples_per_second": 700.397,
      "eval_steps_per_second": 87.573,
      "step": 3100
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3105
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3110
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3115
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3120
    },
    {
      "epoch": 0.56,
      "eval_loss": NaN,
      "eval_runtime": 16.2229,
      "eval_samples_per_second": 692.171,
      "eval_steps_per_second": 86.545,
      "step": 3120
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3125
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3130
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3135
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3140
    },
    {
      "epoch": 0.56,
      "eval_loss": NaN,
      "eval_runtime": 16.0233,
      "eval_samples_per_second": 700.792,
      "eval_steps_per_second": 87.622,
      "step": 3140
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3145
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3150
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3155
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3160
    },
    {
      "epoch": 0.56,
      "eval_loss": NaN,
      "eval_runtime": 16.2068,
      "eval_samples_per_second": 692.859,
      "eval_steps_per_second": 86.631,
      "step": 3160
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3165
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3170
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3175
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3180
    },
    {
      "epoch": 0.57,
      "eval_loss": NaN,
      "eval_runtime": 16.2238,
      "eval_samples_per_second": 692.13,
      "eval_steps_per_second": 86.539,
      "step": 3180
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3185
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3190
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3195
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3200
    },
    {
      "epoch": 0.57,
      "eval_loss": NaN,
      "eval_runtime": 16.0258,
      "eval_samples_per_second": 700.681,
      "eval_steps_per_second": 87.609,
      "step": 3200
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3205
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3210
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3215
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3220
    },
    {
      "epoch": 0.57,
      "eval_loss": NaN,
      "eval_runtime": 16.2216,
      "eval_samples_per_second": 692.224,
      "eval_steps_per_second": 86.551,
      "step": 3220
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3225
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3230
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3235
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3240
    },
    {
      "epoch": 0.58,
      "eval_loss": NaN,
      "eval_runtime": 16.0142,
      "eval_samples_per_second": 701.189,
      "eval_steps_per_second": 87.672,
      "step": 3240
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3245
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3250
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3255
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3260
    },
    {
      "epoch": 0.58,
      "eval_loss": NaN,
      "eval_runtime": 16.2272,
      "eval_samples_per_second": 691.986,
      "eval_steps_per_second": 86.521,
      "step": 3260
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3265
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3270
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3275
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3280
    },
    {
      "epoch": 0.58,
      "eval_loss": NaN,
      "eval_runtime": 16.0324,
      "eval_samples_per_second": 700.396,
      "eval_steps_per_second": 87.573,
      "step": 3280
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3285
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3290
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3295
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3300
    },
    {
      "epoch": 0.59,
      "eval_loss": NaN,
      "eval_runtime": 16.2259,
      "eval_samples_per_second": 692.041,
      "eval_steps_per_second": 86.528,
      "step": 3300
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3305
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3310
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3315
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3320
    },
    {
      "epoch": 0.59,
      "eval_loss": NaN,
      "eval_runtime": 16.0161,
      "eval_samples_per_second": 701.105,
      "eval_steps_per_second": 87.662,
      "step": 3320
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3325
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3330
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3335
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3340
    },
    {
      "epoch": 0.59,
      "eval_loss": NaN,
      "eval_runtime": 16.0254,
      "eval_samples_per_second": 700.698,
      "eval_steps_per_second": 87.611,
      "step": 3340
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3345
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3350
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3355
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3360
    },
    {
      "epoch": 0.6,
      "eval_loss": NaN,
      "eval_runtime": 16.2087,
      "eval_samples_per_second": 692.777,
      "eval_steps_per_second": 86.62,
      "step": 3360
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3365
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3370
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3375
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3380
    },
    {
      "epoch": 0.6,
      "eval_loss": NaN,
      "eval_runtime": 16.0227,
      "eval_samples_per_second": 700.819,
      "eval_steps_per_second": 87.626,
      "step": 3380
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3385
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3390
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3395
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3400
    },
    {
      "epoch": 0.61,
      "eval_loss": NaN,
      "eval_runtime": 16.243,
      "eval_samples_per_second": 691.313,
      "eval_steps_per_second": 86.437,
      "step": 3400
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3405
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3410
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3415
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3420
    },
    {
      "epoch": 0.61,
      "eval_loss": NaN,
      "eval_runtime": 16.039,
      "eval_samples_per_second": 700.106,
      "eval_steps_per_second": 87.537,
      "step": 3420
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3425
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3430
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3435
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3440
    },
    {
      "epoch": 0.61,
      "eval_loss": NaN,
      "eval_runtime": 16.2351,
      "eval_samples_per_second": 691.649,
      "eval_steps_per_second": 86.479,
      "step": 3440
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3445
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3450
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3455
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3460
    },
    {
      "epoch": 0.62,
      "eval_loss": NaN,
      "eval_runtime": 16.2344,
      "eval_samples_per_second": 691.678,
      "eval_steps_per_second": 86.483,
      "step": 3460
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3465
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3470
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3475
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3480
    },
    {
      "epoch": 0.62,
      "eval_loss": NaN,
      "eval_runtime": 16.0437,
      "eval_samples_per_second": 699.902,
      "eval_steps_per_second": 87.511,
      "step": 3480
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3485
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3490
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3495
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3500
    },
    {
      "epoch": 0.62,
      "eval_loss": NaN,
      "eval_runtime": 16.2445,
      "eval_samples_per_second": 691.251,
      "eval_steps_per_second": 86.43,
      "step": 3500
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3505
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3510
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3515
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3520
    },
    {
      "epoch": 0.63,
      "eval_loss": NaN,
      "eval_runtime": 16.2224,
      "eval_samples_per_second": 692.19,
      "eval_steps_per_second": 86.547,
      "step": 3520
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3525
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3530
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3535
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3540
    },
    {
      "epoch": 0.63,
      "eval_loss": NaN,
      "eval_runtime": 16.0451,
      "eval_samples_per_second": 699.839,
      "eval_steps_per_second": 87.503,
      "step": 3540
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3545
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3550
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3555
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3560
    },
    {
      "epoch": 0.63,
      "eval_loss": NaN,
      "eval_runtime": 16.2249,
      "eval_samples_per_second": 692.086,
      "eval_steps_per_second": 86.534,
      "step": 3560
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3565
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3570
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3575
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3580
    },
    {
      "epoch": 0.64,
      "eval_loss": NaN,
      "eval_runtime": 16.0399,
      "eval_samples_per_second": 700.067,
      "eval_steps_per_second": 87.532,
      "step": 3580
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3585
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3590
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3595
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3600
    },
    {
      "epoch": 0.64,
      "eval_loss": NaN,
      "eval_runtime": 16.213,
      "eval_samples_per_second": 692.592,
      "eval_steps_per_second": 86.597,
      "step": 3600
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3605
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3610
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3615
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3620
    },
    {
      "epoch": 0.64,
      "eval_loss": NaN,
      "eval_runtime": 16.024,
      "eval_samples_per_second": 700.763,
      "eval_steps_per_second": 87.619,
      "step": 3620
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3625
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3630
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3635
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3640
    },
    {
      "epoch": 0.65,
      "eval_loss": NaN,
      "eval_runtime": 16.1716,
      "eval_samples_per_second": 694.364,
      "eval_steps_per_second": 86.819,
      "step": 3640
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3645
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3650
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3655
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3660
    },
    {
      "epoch": 0.65,
      "eval_loss": NaN,
      "eval_runtime": 16.2026,
      "eval_samples_per_second": 693.037,
      "eval_steps_per_second": 86.653,
      "step": 3660
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3665
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3670
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3675
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3680
    },
    {
      "epoch": 0.66,
      "eval_loss": NaN,
      "eval_runtime": 16.0215,
      "eval_samples_per_second": 700.871,
      "eval_steps_per_second": 87.632,
      "step": 3680
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3685
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3690
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3695
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3700
    },
    {
      "epoch": 0.66,
      "eval_loss": NaN,
      "eval_runtime": 16.2265,
      "eval_samples_per_second": 692.018,
      "eval_steps_per_second": 86.525,
      "step": 3700
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3705
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3710
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3715
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3720
    },
    {
      "epoch": 0.66,
      "eval_loss": NaN,
      "eval_runtime": 16.0397,
      "eval_samples_per_second": 700.075,
      "eval_steps_per_second": 87.533,
      "step": 3720
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3725
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3730
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3735
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3740
    },
    {
      "epoch": 0.67,
      "eval_loss": NaN,
      "eval_runtime": 16.2032,
      "eval_samples_per_second": 693.013,
      "eval_steps_per_second": 86.65,
      "step": 3740
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3745
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3750
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3755
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3760
    },
    {
      "epoch": 0.67,
      "eval_loss": NaN,
      "eval_runtime": 16.0241,
      "eval_samples_per_second": 700.757,
      "eval_steps_per_second": 87.618,
      "step": 3760
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3765
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3770
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3775
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3780
    },
    {
      "epoch": 0.67,
      "eval_loss": NaN,
      "eval_runtime": 16.2732,
      "eval_samples_per_second": 690.029,
      "eval_steps_per_second": 86.277,
      "step": 3780
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3785
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3790
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3795
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3800
    },
    {
      "epoch": 0.68,
      "eval_loss": NaN,
      "eval_runtime": 16.2369,
      "eval_samples_per_second": 691.574,
      "eval_steps_per_second": 86.47,
      "step": 3800
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3805
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3810
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3815
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3820
    },
    {
      "epoch": 0.68,
      "eval_loss": NaN,
      "eval_runtime": 16.0547,
      "eval_samples_per_second": 699.421,
      "eval_steps_per_second": 87.451,
      "step": 3820
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3825
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3830
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3835
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3840
    },
    {
      "epoch": 0.68,
      "eval_loss": NaN,
      "eval_runtime": 16.2346,
      "eval_samples_per_second": 691.669,
      "eval_steps_per_second": 86.482,
      "step": 3840
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3845
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3850
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3855
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3860
    },
    {
      "epoch": 0.69,
      "eval_loss": NaN,
      "eval_runtime": 16.0457,
      "eval_samples_per_second": 699.813,
      "eval_steps_per_second": 87.5,
      "step": 3860
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3865
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3870
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3875
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3880
    },
    {
      "epoch": 0.69,
      "eval_loss": NaN,
      "eval_runtime": 16.219,
      "eval_samples_per_second": 692.334,
      "eval_steps_per_second": 86.565,
      "step": 3880
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3885
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3890
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3895
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3900
    },
    {
      "epoch": 0.69,
      "eval_loss": NaN,
      "eval_runtime": 16.0291,
      "eval_samples_per_second": 700.537,
      "eval_steps_per_second": 87.591,
      "step": 3900
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3905
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3910
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3915
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3920
    },
    {
      "epoch": 0.7,
      "eval_loss": NaN,
      "eval_runtime": 16.0499,
      "eval_samples_per_second": 699.629,
      "eval_steps_per_second": 87.477,
      "step": 3920
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3925
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3930
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3935
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3940
    },
    {
      "epoch": 0.7,
      "eval_loss": NaN,
      "eval_runtime": 16.2243,
      "eval_samples_per_second": 692.11,
      "eval_steps_per_second": 86.537,
      "step": 3940
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3945
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3950
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3955
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3960
    },
    {
      "epoch": 0.71,
      "eval_loss": NaN,
      "eval_runtime": 16.0464,
      "eval_samples_per_second": 699.783,
      "eval_steps_per_second": 87.496,
      "step": 3960
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3965
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3970
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3975
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3980
    },
    {
      "epoch": 0.71,
      "eval_loss": NaN,
      "eval_runtime": 16.2257,
      "eval_samples_per_second": 692.05,
      "eval_steps_per_second": 86.529,
      "step": 3980
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3985
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3990
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 3995
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4000
    },
    {
      "epoch": 0.71,
      "eval_loss": NaN,
      "eval_runtime": 16.0446,
      "eval_samples_per_second": 699.861,
      "eval_steps_per_second": 87.506,
      "step": 4000
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4005
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4010
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4015
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4020
    },
    {
      "epoch": 0.72,
      "eval_loss": NaN,
      "eval_runtime": 16.237,
      "eval_samples_per_second": 691.567,
      "eval_steps_per_second": 86.469,
      "step": 4020
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4025
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4030
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4035
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4040
    },
    {
      "epoch": 0.72,
      "eval_loss": NaN,
      "eval_runtime": 16.06,
      "eval_samples_per_second": 699.191,
      "eval_steps_per_second": 87.422,
      "step": 4040
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4045
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4050
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4055
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4060
    },
    {
      "epoch": 0.72,
      "eval_loss": NaN,
      "eval_runtime": 16.2165,
      "eval_samples_per_second": 692.444,
      "eval_steps_per_second": 86.579,
      "step": 4060
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4065
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4070
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4075
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4080
    },
    {
      "epoch": 0.73,
      "eval_loss": NaN,
      "eval_runtime": 16.2461,
      "eval_samples_per_second": 691.182,
      "eval_steps_per_second": 86.421,
      "step": 4080
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4085
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4090
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4095
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4100
    },
    {
      "epoch": 0.73,
      "eval_loss": NaN,
      "eval_runtime": 16.0545,
      "eval_samples_per_second": 699.43,
      "eval_steps_per_second": 87.452,
      "step": 4100
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4105
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4110
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4115
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4120
    },
    {
      "epoch": 0.73,
      "eval_loss": NaN,
      "eval_runtime": 16.2396,
      "eval_samples_per_second": 691.458,
      "eval_steps_per_second": 86.455,
      "step": 4120
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4125
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4130
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4135
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4140
    },
    {
      "epoch": 0.74,
      "eval_loss": NaN,
      "eval_runtime": 16.0719,
      "eval_samples_per_second": 698.673,
      "eval_steps_per_second": 87.358,
      "step": 4140
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4145
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4150
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4155
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4160
    },
    {
      "epoch": 0.74,
      "eval_loss": NaN,
      "eval_runtime": 16.2286,
      "eval_samples_per_second": 691.928,
      "eval_steps_per_second": 86.514,
      "step": 4160
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4165
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4170
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4175
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4180
    },
    {
      "epoch": 0.74,
      "eval_loss": NaN,
      "eval_runtime": 16.0422,
      "eval_samples_per_second": 699.968,
      "eval_steps_per_second": 87.519,
      "step": 4180
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4185
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4190
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4195
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4200
    },
    {
      "epoch": 0.75,
      "eval_loss": NaN,
      "eval_runtime": 16.2302,
      "eval_samples_per_second": 691.859,
      "eval_steps_per_second": 86.505,
      "step": 4200
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4205
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4210
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4215
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4220
    },
    {
      "epoch": 0.75,
      "eval_loss": NaN,
      "eval_runtime": 16.2332,
      "eval_samples_per_second": 691.729,
      "eval_steps_per_second": 86.489,
      "step": 4220
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4225
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4230
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4235
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4240
    },
    {
      "epoch": 0.76,
      "eval_loss": NaN,
      "eval_runtime": 16.0487,
      "eval_samples_per_second": 699.685,
      "eval_steps_per_second": 87.484,
      "step": 4240
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4245
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4250
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4255
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4260
    },
    {
      "epoch": 0.76,
      "eval_loss": NaN,
      "eval_runtime": 16.2278,
      "eval_samples_per_second": 691.959,
      "eval_steps_per_second": 86.518,
      "step": 4260
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4265
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4270
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4275
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4280
    },
    {
      "epoch": 0.76,
      "eval_loss": NaN,
      "eval_runtime": 16.0539,
      "eval_samples_per_second": 699.457,
      "eval_steps_per_second": 87.456,
      "step": 4280
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4285
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4290
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4295
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4300
    },
    {
      "epoch": 0.77,
      "eval_loss": NaN,
      "eval_runtime": 16.2238,
      "eval_samples_per_second": 692.131,
      "eval_steps_per_second": 86.539,
      "step": 4300
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4305
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4310
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4315
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4320
    },
    {
      "epoch": 0.77,
      "eval_loss": NaN,
      "eval_runtime": 16.2288,
      "eval_samples_per_second": 691.917,
      "eval_steps_per_second": 86.513,
      "step": 4320
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4325
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4330
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4335
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4340
    },
    {
      "epoch": 0.77,
      "eval_loss": NaN,
      "eval_runtime": 16.0182,
      "eval_samples_per_second": 701.016,
      "eval_steps_per_second": 87.65,
      "step": 4340
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4345
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4350
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4355
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4360
    },
    {
      "epoch": 0.78,
      "eval_loss": NaN,
      "eval_runtime": 16.2045,
      "eval_samples_per_second": 692.954,
      "eval_steps_per_second": 86.642,
      "step": 4360
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4365
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4370
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4375
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4380
    },
    {
      "epoch": 0.78,
      "eval_loss": NaN,
      "eval_runtime": 16.0271,
      "eval_samples_per_second": 700.624,
      "eval_steps_per_second": 87.601,
      "step": 4380
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4385
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4390
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4395
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4400
    },
    {
      "epoch": 0.78,
      "eval_loss": NaN,
      "eval_runtime": 16.23,
      "eval_samples_per_second": 691.867,
      "eval_steps_per_second": 86.506,
      "step": 4400
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4405
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4410
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4415
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4420
    },
    {
      "epoch": 0.79,
      "eval_loss": NaN,
      "eval_runtime": 16.0458,
      "eval_samples_per_second": 699.809,
      "eval_steps_per_second": 87.5,
      "step": 4420
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4425
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4430
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4435
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4440
    },
    {
      "epoch": 0.79,
      "eval_loss": NaN,
      "eval_runtime": 16.2118,
      "eval_samples_per_second": 692.643,
      "eval_steps_per_second": 86.604,
      "step": 4440
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4445
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4450
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4455
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4460
    },
    {
      "epoch": 0.79,
      "eval_loss": NaN,
      "eval_runtime": 16.2235,
      "eval_samples_per_second": 692.144,
      "eval_steps_per_second": 86.541,
      "step": 4460
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4465
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4470
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4475
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4480
    },
    {
      "epoch": 0.8,
      "eval_loss": NaN,
      "eval_runtime": 16.0349,
      "eval_samples_per_second": 700.284,
      "eval_steps_per_second": 87.559,
      "step": 4480
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4485
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4490
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4495
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4500
    },
    {
      "epoch": 0.8,
      "eval_loss": NaN,
      "eval_runtime": 16.2202,
      "eval_samples_per_second": 692.283,
      "eval_steps_per_second": 86.559,
      "step": 4500
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4505
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4510
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4515
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4520
    },
    {
      "epoch": 0.81,
      "eval_loss": NaN,
      "eval_runtime": 16.0564,
      "eval_samples_per_second": 699.346,
      "eval_steps_per_second": 87.442,
      "step": 4520
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4525
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4530
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4535
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4540
    },
    {
      "epoch": 0.81,
      "eval_loss": NaN,
      "eval_runtime": 16.2223,
      "eval_samples_per_second": 692.194,
      "eval_steps_per_second": 86.547,
      "step": 4540
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4545
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4550
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4555
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4560
    },
    {
      "epoch": 0.81,
      "eval_loss": NaN,
      "eval_runtime": 16.047,
      "eval_samples_per_second": 699.756,
      "eval_steps_per_second": 87.493,
      "step": 4560
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4565
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4570
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4575
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4580
    },
    {
      "epoch": 0.82,
      "eval_loss": NaN,
      "eval_runtime": 16.222,
      "eval_samples_per_second": 692.209,
      "eval_steps_per_second": 86.549,
      "step": 4580
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4585
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4590
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4595
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4600
    },
    {
      "epoch": 0.82,
      "eval_loss": NaN,
      "eval_runtime": 16.2166,
      "eval_samples_per_second": 692.441,
      "eval_steps_per_second": 86.578,
      "step": 4600
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4605
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4610
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4615
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4620
    },
    {
      "epoch": 0.82,
      "eval_loss": NaN,
      "eval_runtime": 16.0315,
      "eval_samples_per_second": 700.432,
      "eval_steps_per_second": 87.577,
      "step": 4620
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4625
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4630
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4635
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4640
    },
    {
      "epoch": 0.83,
      "eval_loss": NaN,
      "eval_runtime": 16.1928,
      "eval_samples_per_second": 693.456,
      "eval_steps_per_second": 86.705,
      "step": 4640
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4645
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4650
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4655
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4660
    },
    {
      "epoch": 0.83,
      "eval_loss": NaN,
      "eval_runtime": 16.051,
      "eval_samples_per_second": 699.584,
      "eval_steps_per_second": 87.471,
      "step": 4660
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4665
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4670
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4675
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4680
    },
    {
      "epoch": 0.83,
      "eval_loss": NaN,
      "eval_runtime": 16.2287,
      "eval_samples_per_second": 691.924,
      "eval_steps_per_second": 86.514,
      "step": 4680
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4685
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4690
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4695
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4700
    },
    {
      "epoch": 0.84,
      "eval_loss": NaN,
      "eval_runtime": 16.0295,
      "eval_samples_per_second": 700.522,
      "eval_steps_per_second": 87.589,
      "step": 4700
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4705
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 4.5394,
      "step": 4710
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4715
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4720
    },
    {
      "epoch": 0.84,
      "eval_loss": NaN,
      "eval_runtime": 16.2048,
      "eval_samples_per_second": 692.942,
      "eval_steps_per_second": 86.641,
      "step": 4720
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4725
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4730
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4735
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4740
    },
    {
      "epoch": 0.84,
      "eval_loss": NaN,
      "eval_runtime": 16.2222,
      "eval_samples_per_second": 692.2,
      "eval_steps_per_second": 86.548,
      "step": 4740
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4745
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4750
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4755
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4760
    },
    {
      "epoch": 0.85,
      "eval_loss": NaN,
      "eval_runtime": 16.0418,
      "eval_samples_per_second": 699.985,
      "eval_steps_per_second": 87.521,
      "step": 4760
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4765
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4770
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4775
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4780
    },
    {
      "epoch": 0.85,
      "eval_loss": NaN,
      "eval_runtime": 16.2095,
      "eval_samples_per_second": 692.74,
      "eval_steps_per_second": 86.616,
      "step": 4780
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4785
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4790
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4795
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4800
    },
    {
      "epoch": 0.86,
      "eval_loss": NaN,
      "eval_runtime": 16.0422,
      "eval_samples_per_second": 699.967,
      "eval_steps_per_second": 87.519,
      "step": 4800
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4805
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4810
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4815
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4820
    },
    {
      "epoch": 0.86,
      "eval_loss": NaN,
      "eval_runtime": 16.208,
      "eval_samples_per_second": 692.804,
      "eval_steps_per_second": 86.624,
      "step": 4820
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4825
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4830
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4835
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4840
    },
    {
      "epoch": 0.86,
      "eval_loss": NaN,
      "eval_runtime": 16.0149,
      "eval_samples_per_second": 701.158,
      "eval_steps_per_second": 87.668,
      "step": 4840
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4845
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4850
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4855
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4860
    },
    {
      "epoch": 0.87,
      "eval_loss": NaN,
      "eval_runtime": 16.2398,
      "eval_samples_per_second": 691.449,
      "eval_steps_per_second": 86.454,
      "step": 4860
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4865
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4870
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4875
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4880
    },
    {
      "epoch": 0.87,
      "eval_loss": NaN,
      "eval_runtime": 16.2201,
      "eval_samples_per_second": 692.287,
      "eval_steps_per_second": 86.559,
      "step": 4880
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4885
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4890
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4895
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4900
    },
    {
      "epoch": 0.87,
      "eval_loss": NaN,
      "eval_runtime": 16.0619,
      "eval_samples_per_second": 699.108,
      "eval_steps_per_second": 87.412,
      "step": 4900
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4905
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4910
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4915
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4920
    },
    {
      "epoch": 0.88,
      "eval_loss": NaN,
      "eval_runtime": 16.2578,
      "eval_samples_per_second": 690.684,
      "eval_steps_per_second": 86.359,
      "step": 4920
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4925
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4930
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4935
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4940
    },
    {
      "epoch": 0.88,
      "eval_loss": NaN,
      "eval_runtime": 16.0639,
      "eval_samples_per_second": 699.022,
      "eval_steps_per_second": 87.401,
      "step": 4940
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4945
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4950
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4955
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4960
    },
    {
      "epoch": 0.88,
      "eval_loss": NaN,
      "eval_runtime": 16.2248,
      "eval_samples_per_second": 692.088,
      "eval_steps_per_second": 86.534,
      "step": 4960
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4965
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4970
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4975
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4980
    },
    {
      "epoch": 0.89,
      "eval_loss": NaN,
      "eval_runtime": 16.0412,
      "eval_samples_per_second": 700.009,
      "eval_steps_per_second": 87.525,
      "step": 4980
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4985
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4990
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 4995
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5000
    },
    {
      "epoch": 0.89,
      "eval_loss": NaN,
      "eval_runtime": 16.2237,
      "eval_samples_per_second": 692.135,
      "eval_steps_per_second": 86.54,
      "step": 5000
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5005
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5010
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5015
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5020
    },
    {
      "epoch": 0.89,
      "eval_loss": NaN,
      "eval_runtime": 16.2149,
      "eval_samples_per_second": 692.51,
      "eval_steps_per_second": 86.587,
      "step": 5020
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5025
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5030
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5035
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5040
    },
    {
      "epoch": 0.9,
      "eval_loss": NaN,
      "eval_runtime": 16.0549,
      "eval_samples_per_second": 699.413,
      "eval_steps_per_second": 87.45,
      "step": 5040
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5045
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5050
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5055
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5060
    },
    {
      "epoch": 0.9,
      "eval_loss": NaN,
      "eval_runtime": 16.2118,
      "eval_samples_per_second": 692.643,
      "eval_steps_per_second": 86.604,
      "step": 5060
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5065
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5070
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5075
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5080
    },
    {
      "epoch": 0.9,
      "eval_loss": NaN,
      "eval_runtime": 16.2351,
      "eval_samples_per_second": 691.649,
      "eval_steps_per_second": 86.479,
      "step": 5080
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5085
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5090
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5095
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5100
    },
    {
      "epoch": 0.91,
      "eval_loss": NaN,
      "eval_runtime": 16.0484,
      "eval_samples_per_second": 699.695,
      "eval_steps_per_second": 87.485,
      "step": 5100
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5105
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5110
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5115
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5120
    },
    {
      "epoch": 0.91,
      "eval_loss": NaN,
      "eval_runtime": 16.2149,
      "eval_samples_per_second": 692.509,
      "eval_steps_per_second": 86.587,
      "step": 5120
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5125
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5130
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5135
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5140
    },
    {
      "epoch": 0.92,
      "eval_loss": NaN,
      "eval_runtime": 16.0666,
      "eval_samples_per_second": 698.905,
      "eval_steps_per_second": 87.386,
      "step": 5140
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5145
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5150
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5155
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5160
    },
    {
      "epoch": 0.92,
      "eval_loss": NaN,
      "eval_runtime": 16.2188,
      "eval_samples_per_second": 692.345,
      "eval_steps_per_second": 86.566,
      "step": 5160
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5165
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5170
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5175
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5180
    },
    {
      "epoch": 0.92,
      "eval_loss": NaN,
      "eval_runtime": 16.0397,
      "eval_samples_per_second": 700.076,
      "eval_steps_per_second": 87.533,
      "step": 5180
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5185
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5190
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5195
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5200
    },
    {
      "epoch": 0.93,
      "eval_loss": NaN,
      "eval_runtime": 16.2146,
      "eval_samples_per_second": 692.522,
      "eval_steps_per_second": 86.588,
      "step": 5200
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5205
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5210
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5215
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5220
    },
    {
      "epoch": 0.93,
      "eval_loss": NaN,
      "eval_runtime": 16.2211,
      "eval_samples_per_second": 692.245,
      "eval_steps_per_second": 86.554,
      "step": 5220
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5225
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5230
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5235
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5240
    },
    {
      "epoch": 0.93,
      "eval_loss": NaN,
      "eval_runtime": 16.0255,
      "eval_samples_per_second": 700.697,
      "eval_steps_per_second": 87.611,
      "step": 5240
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5245
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5250
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5255
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5260
    },
    {
      "epoch": 0.94,
      "eval_loss": NaN,
      "eval_runtime": 16.2139,
      "eval_samples_per_second": 692.555,
      "eval_steps_per_second": 86.593,
      "step": 5260
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5265
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5270
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5275
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5280
    },
    {
      "epoch": 0.94,
      "eval_loss": NaN,
      "eval_runtime": 16.0283,
      "eval_samples_per_second": 700.572,
      "eval_steps_per_second": 87.595,
      "step": 5280
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5285
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5290
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5295
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5300
    },
    {
      "epoch": 0.94,
      "eval_loss": NaN,
      "eval_runtime": 16.213,
      "eval_samples_per_second": 692.591,
      "eval_steps_per_second": 86.597,
      "step": 5300
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5305
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5310
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5315
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5320
    },
    {
      "epoch": 0.95,
      "eval_loss": NaN,
      "eval_runtime": 16.0339,
      "eval_samples_per_second": 700.33,
      "eval_steps_per_second": 87.565,
      "step": 5320
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5325
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5330
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5335
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5340
    },
    {
      "epoch": 0.95,
      "eval_loss": NaN,
      "eval_runtime": 16.2354,
      "eval_samples_per_second": 691.638,
      "eval_steps_per_second": 86.478,
      "step": 5340
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5345
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5350
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5355
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5360
    },
    {
      "epoch": 0.95,
      "eval_loss": NaN,
      "eval_runtime": 16.2232,
      "eval_samples_per_second": 692.158,
      "eval_steps_per_second": 86.543,
      "step": 5360
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5365
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5370
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5375
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5380
    },
    {
      "epoch": 0.96,
      "eval_loss": NaN,
      "eval_runtime": 16.0655,
      "eval_samples_per_second": 698.951,
      "eval_steps_per_second": 87.392,
      "step": 5380
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5385
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5390
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5395
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5400
    },
    {
      "epoch": 0.96,
      "eval_loss": NaN,
      "eval_runtime": 16.2374,
      "eval_samples_per_second": 691.554,
      "eval_steps_per_second": 86.467,
      "step": 5400
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5405
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5410
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5415
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5420
    },
    {
      "epoch": 0.97,
      "eval_loss": NaN,
      "eval_runtime": 16.0445,
      "eval_samples_per_second": 699.864,
      "eval_steps_per_second": 87.506,
      "step": 5420
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5425
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5430
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5435
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5440
    },
    {
      "epoch": 0.97,
      "eval_loss": NaN,
      "eval_runtime": 16.2238,
      "eval_samples_per_second": 692.132,
      "eval_steps_per_second": 86.54,
      "step": 5440
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5445
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5450
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5455
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5460
    },
    {
      "epoch": 0.97,
      "eval_loss": NaN,
      "eval_runtime": 16.0567,
      "eval_samples_per_second": 699.333,
      "eval_steps_per_second": 87.44,
      "step": 5460
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5465
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 6.6023,
      "step": 5470
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5475
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5480
    },
    {
      "epoch": 0.98,
      "eval_loss": NaN,
      "eval_runtime": 16.2554,
      "eval_samples_per_second": 690.785,
      "eval_steps_per_second": 86.371,
      "step": 5480
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5485
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5490
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5495
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5500
    },
    {
      "epoch": 0.98,
      "eval_loss": NaN,
      "eval_runtime": 16.2286,
      "eval_samples_per_second": 691.928,
      "eval_steps_per_second": 86.514,
      "step": 5500
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5505
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5510
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5515
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5520
    },
    {
      "epoch": 0.98,
      "eval_loss": NaN,
      "eval_runtime": 16.0415,
      "eval_samples_per_second": 699.999,
      "eval_steps_per_second": 87.523,
      "step": 5520
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5525
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5530
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5535
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5540
    },
    {
      "epoch": 0.99,
      "eval_loss": NaN,
      "eval_runtime": 16.2151,
      "eval_samples_per_second": 692.505,
      "eval_steps_per_second": 86.586,
      "step": 5540
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5545
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5550
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5555
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5560
    },
    {
      "epoch": 0.99,
      "eval_loss": NaN,
      "eval_runtime": 16.0155,
      "eval_samples_per_second": 701.132,
      "eval_steps_per_second": 87.665,
      "step": 5560
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5565
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5570
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5575
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5580
    },
    {
      "epoch": 0.99,
      "eval_loss": NaN,
      "eval_runtime": 16.227,
      "eval_samples_per_second": 691.997,
      "eval_steps_per_second": 86.523,
      "step": 5580
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5585
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5590
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5595
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 5600
    },
    {
      "epoch": 1.0,
      "eval_loss": NaN,
      "eval_runtime": 16.0337,
      "eval_samples_per_second": 700.338,
      "eval_steps_per_second": 87.566,
      "step": 5600
    }
  ],
  "logging_steps": 5,
  "max_steps": 5614,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 20,
  "total_flos": 1585617322377216.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}