{
  "best_metric": NaN,
  "best_model_checkpoint": "/scratch/czm5kz/finetuned_pythia70M_nondeduped_cp_1430008_1_0.0003_sequential/checkpoint-20",
  "epoch": 0.9975062344139651,
  "eval_steps": 20,
  "global_step": 5600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.0,
      "eval_loss": NaN,
      "eval_runtime": 16.1213,
      "eval_samples_per_second": 696.533,
      "eval_steps_per_second": 87.09,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.01,
      "eval_loss": NaN,
      "eval_runtime": 16.2032,
      "eval_samples_per_second": 693.009,
      "eval_steps_per_second": 86.649,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.01,
      "eval_loss": NaN,
      "eval_runtime": 15.9724,
      "eval_samples_per_second": 703.027,
      "eval_steps_per_second": 87.902,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.01,
      "eval_loss": NaN,
      "eval_runtime": 16.1815,
      "eval_samples_per_second": 693.941,
      "eval_steps_per_second": 86.766,
      "step": 80
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 85
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 95
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 100
    },
    {
      "epoch": 0.02,
      "eval_loss": NaN,
      "eval_runtime": 15.9526,
      "eval_samples_per_second": 703.897,
      "eval_steps_per_second": 88.011,
      "step": 100
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 105
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 115
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 120
    },
    {
      "epoch": 0.02,
      "eval_loss": NaN,
      "eval_runtime": 16.1821,
      "eval_samples_per_second": 693.914,
      "eval_steps_per_second": 86.762,
      "step": 120
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 125
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 130
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 135
    },
    {
      "epoch": 0.02,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 140
    },
    {
      "epoch": 0.02,
      "eval_loss": NaN,
      "eval_runtime": 16.1278,
      "eval_samples_per_second": 696.251,
      "eval_steps_per_second": 87.055,
      "step": 140
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 145
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 150
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 155
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 160
    },
    {
      "epoch": 0.03,
      "eval_loss": NaN,
      "eval_runtime": 15.9944,
      "eval_samples_per_second": 702.058,
      "eval_steps_per_second": 87.781,
      "step": 160
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 165
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 170
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 175
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 180
    },
    {
      "epoch": 0.03,
      "eval_loss": NaN,
      "eval_runtime": 16.1874,
      "eval_samples_per_second": 693.688,
      "eval_steps_per_second": 86.734,
      "step": 180
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 185
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 190
    },
    {
      "epoch": 0.03,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 195
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 200
    },
    {
      "epoch": 0.04,
      "eval_loss": NaN,
      "eval_runtime": 15.9437,
      "eval_samples_per_second": 704.29,
      "eval_steps_per_second": 88.06,
      "step": 200
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 205
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 210
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 215
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 220
    },
    {
      "epoch": 0.04,
      "eval_loss": NaN,
      "eval_runtime": 16.1324,
      "eval_samples_per_second": 696.055,
      "eval_steps_per_second": 87.03,
      "step": 220
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 225
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 230
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 235
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 240
    },
    {
      "epoch": 0.04,
      "eval_loss": NaN,
      "eval_runtime": 15.931,
      "eval_samples_per_second": 704.853,
      "eval_steps_per_second": 88.13,
      "step": 240
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 245
    },
    {
      "epoch": 0.04,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 250
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 255
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 260
    },
    {
      "epoch": 0.05,
      "eval_loss": NaN,
      "eval_runtime": 16.1411,
      "eval_samples_per_second": 695.676,
      "eval_steps_per_second": 86.983,
      "step": 260
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 265
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 270
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 275
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 280
    },
    {
      "epoch": 0.05,
      "eval_loss": NaN,
      "eval_runtime": 15.9503,
      "eval_samples_per_second": 704.001,
      "eval_steps_per_second": 88.024,
      "step": 280
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 285
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 290
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 295
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 300
    },
    {
      "epoch": 0.05,
      "eval_loss": NaN,
      "eval_runtime": 16.0499,
      "eval_samples_per_second": 699.632,
      "eval_steps_per_second": 87.477,
      "step": 300
    },
    {
      "epoch": 0.05,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 305
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 310
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 315
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 320
    },
    {
      "epoch": 0.06,
      "eval_loss": NaN,
      "eval_runtime": 16.1604,
      "eval_samples_per_second": 694.848,
      "eval_steps_per_second": 86.879,
      "step": 320
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 325
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 330
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 335
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 340
    },
    {
      "epoch": 0.06,
      "eval_loss": NaN,
      "eval_runtime": 15.9695,
      "eval_samples_per_second": 703.154,
      "eval_steps_per_second": 87.918,
      "step": 340
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 345
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 350
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 355
    },
    {
      "epoch": 0.06,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 360
    },
    {
      "epoch": 0.06,
      "eval_loss": NaN,
      "eval_runtime": 16.1796,
      "eval_samples_per_second": 694.024,
      "eval_steps_per_second": 86.776,
      "step": 360
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 365
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 370
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 375
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 380
    },
    {
      "epoch": 0.07,
      "eval_loss": NaN,
      "eval_runtime": 15.9642,
      "eval_samples_per_second": 703.388,
      "eval_steps_per_second": 87.947,
      "step": 380
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 385
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 390
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 395
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 400
    },
    {
      "epoch": 0.07,
      "eval_loss": NaN,
      "eval_runtime": 16.1149,
      "eval_samples_per_second": 696.81,
      "eval_steps_per_second": 87.125,
      "step": 400
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 2.1521,
      "step": 405
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 410
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 415
    },
    {
      "epoch": 0.07,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 420
    },
    {
      "epoch": 0.07,
      "eval_loss": NaN,
      "eval_runtime": 15.9712,
      "eval_samples_per_second": 703.078,
      "eval_steps_per_second": 87.908,
      "step": 420
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 425
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 430
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 435
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 440
    },
    {
      "epoch": 0.08,
      "eval_loss": NaN,
      "eval_runtime": 16.1417,
      "eval_samples_per_second": 695.65,
      "eval_steps_per_second": 86.979,
      "step": 440
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 445
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 450
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 455
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 460
    },
    {
      "epoch": 0.08,
      "eval_loss": NaN,
      "eval_runtime": 16.1617,
      "eval_samples_per_second": 694.791,
      "eval_steps_per_second": 86.872,
      "step": 460
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 465
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 470
    },
    {
      "epoch": 0.08,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 475
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 480
    },
    {
      "epoch": 0.09,
      "eval_loss": NaN,
      "eval_runtime": 15.9324,
      "eval_samples_per_second": 704.79,
      "eval_steps_per_second": 88.122,
      "step": 480
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 485
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 490
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 495
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 500
    },
    {
      "epoch": 0.09,
      "eval_loss": NaN,
      "eval_runtime": 16.1385,
      "eval_samples_per_second": 695.788,
      "eval_steps_per_second": 86.997,
      "step": 500
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 505
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 510
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 515
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 520
    },
    {
      "epoch": 0.09,
      "eval_loss": NaN,
      "eval_runtime": 15.9105,
      "eval_samples_per_second": 705.762,
      "eval_steps_per_second": 88.244,
      "step": 520
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 525
    },
    {
      "epoch": 0.09,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 530
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 535
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 540
    },
    {
      "epoch": 0.1,
      "eval_loss": NaN,
      "eval_runtime": 16.1374,
      "eval_samples_per_second": 695.836,
      "eval_steps_per_second": 87.003,
      "step": 540
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 545
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 550
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 555
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 560
    },
    {
      "epoch": 0.1,
      "eval_loss": NaN,
      "eval_runtime": 15.9367,
      "eval_samples_per_second": 704.599,
      "eval_steps_per_second": 88.098,
      "step": 560
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 565
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 570
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 575
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 580
    },
    {
      "epoch": 0.1,
      "eval_loss": NaN,
      "eval_runtime": 16.1138,
      "eval_samples_per_second": 696.858,
      "eval_steps_per_second": 87.13,
      "step": 580
    },
    {
      "epoch": 0.1,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 585
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 590
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 595
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 600
    },
    {
      "epoch": 0.11,
      "eval_loss": NaN,
      "eval_runtime": 15.9595,
      "eval_samples_per_second": 703.595,
      "eval_steps_per_second": 87.973,
      "step": 600
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 605
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 610
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 615
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 620
    },
    {
      "epoch": 0.11,
      "eval_loss": NaN,
      "eval_runtime": 16.1388,
      "eval_samples_per_second": 695.778,
      "eval_steps_per_second": 86.995,
      "step": 620
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 625
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 630
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 635
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 640
    },
    {
      "epoch": 0.11,
      "eval_loss": NaN,
      "eval_runtime": 16.1851,
      "eval_samples_per_second": 693.786,
      "eval_steps_per_second": 86.746,
      "step": 640
    },
    {
      "epoch": 0.11,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 645
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 650
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 655
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 660
    },
    {
      "epoch": 0.12,
      "eval_loss": NaN,
      "eval_runtime": 15.9559,
      "eval_samples_per_second": 703.752,
      "eval_steps_per_second": 87.993,
      "step": 660
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 665
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 670
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 675
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 680
    },
    {
      "epoch": 0.12,
      "eval_loss": NaN,
      "eval_runtime": 16.1484,
      "eval_samples_per_second": 695.363,
      "eval_steps_per_second": 86.944,
      "step": 680
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 685
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 690
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 695
    },
    {
      "epoch": 0.12,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 700
    },
    {
      "epoch": 0.12,
      "eval_loss": NaN,
      "eval_runtime": 15.951,
      "eval_samples_per_second": 703.967,
      "eval_steps_per_second": 88.019,
      "step": 700
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 705
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 710
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 715
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 720
    },
    {
      "epoch": 0.13,
      "eval_loss": NaN,
      "eval_runtime": 16.1171,
      "eval_samples_per_second": 696.713,
      "eval_steps_per_second": 87.112,
      "step": 720
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 725
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 730
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 735
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 740
    },
    {
      "epoch": 0.13,
      "eval_loss": NaN,
      "eval_runtime": 15.9877,
      "eval_samples_per_second": 702.352,
      "eval_steps_per_second": 87.817,
      "step": 740
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 745
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 750
    },
    {
      "epoch": 0.13,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 755
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 760
    },
    {
      "epoch": 0.14,
      "eval_loss": NaN,
      "eval_runtime": 16.1445,
      "eval_samples_per_second": 695.531,
      "eval_steps_per_second": 86.965,
      "step": 760
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 765
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 770
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 775
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 780
    },
    {
      "epoch": 0.14,
      "eval_loss": NaN,
      "eval_runtime": 16.168,
      "eval_samples_per_second": 694.521,
      "eval_steps_per_second": 86.838,
      "step": 780
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 785
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 790
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 795
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 800
    },
    {
      "epoch": 0.14,
      "eval_loss": NaN,
      "eval_runtime": 15.9883,
      "eval_samples_per_second": 702.328,
      "eval_steps_per_second": 87.814,
      "step": 800
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 805
    },
    {
      "epoch": 0.14,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 810
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 815
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 820
    },
    {
      "epoch": 0.15,
      "eval_loss": NaN,
      "eval_runtime": 16.1729,
      "eval_samples_per_second": 694.309,
      "eval_steps_per_second": 86.812,
      "step": 820
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 825
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 830
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 835
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 840
    },
    {
      "epoch": 0.15,
      "eval_loss": NaN,
      "eval_runtime": 16.0484,
      "eval_samples_per_second": 699.696,
      "eval_steps_per_second": 87.485,
      "step": 840
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 845
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 850
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 855
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 860
    },
    {
      "epoch": 0.15,
      "eval_loss": NaN,
      "eval_runtime": 16.1858,
      "eval_samples_per_second": 693.758,
      "eval_steps_per_second": 86.743,
      "step": 860
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 865
    },
    {
      "epoch": 0.15,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 870
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 875
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 880
    },
    {
      "epoch": 0.16,
      "eval_loss": NaN,
      "eval_runtime": 15.9104,
      "eval_samples_per_second": 705.764,
      "eval_steps_per_second": 88.244,
      "step": 880
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 885
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 890
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 895
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 900
    },
    {
      "epoch": 0.16,
      "eval_loss": NaN,
      "eval_runtime": 16.1492,
      "eval_samples_per_second": 695.329,
      "eval_steps_per_second": 86.939,
      "step": 900
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 905
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 910
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 915
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 920
    },
    {
      "epoch": 0.16,
      "eval_loss": NaN,
      "eval_runtime": 15.977,
      "eval_samples_per_second": 702.821,
      "eval_steps_per_second": 87.876,
      "step": 920
    },
    {
      "epoch": 0.16,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 925
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 930
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 935
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 940
    },
    {
      "epoch": 0.17,
      "eval_loss": NaN,
      "eval_runtime": 16.1405,
      "eval_samples_per_second": 695.705,
      "eval_steps_per_second": 86.986,
      "step": 940
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 945
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 950
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 955
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 960
    },
    {
      "epoch": 0.17,
      "eval_loss": NaN,
      "eval_runtime": 16.1354,
      "eval_samples_per_second": 695.922,
      "eval_steps_per_second": 87.014,
      "step": 960
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 965
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 970
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 975
    },
    {
      "epoch": 0.17,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 980
    },
    {
      "epoch": 0.17,
      "eval_loss": NaN,
      "eval_runtime": 15.9546,
      "eval_samples_per_second": 703.808,
      "eval_steps_per_second": 88.0,
      "step": 980
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 985
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 990
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 995
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1000
    },
    {
      "epoch": 0.18,
      "eval_loss": NaN,
      "eval_runtime": 16.1424,
      "eval_samples_per_second": 695.622,
      "eval_steps_per_second": 86.976,
      "step": 1000
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1005
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1010
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1015
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1020
    },
    {
      "epoch": 0.18,
      "eval_loss": NaN,
      "eval_runtime": 15.9708,
      "eval_samples_per_second": 703.097,
      "eval_steps_per_second": 87.911,
      "step": 1020
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1025
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1030
    },
    {
      "epoch": 0.18,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1035
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1040
    },
    {
      "epoch": 0.19,
      "eval_loss": NaN,
      "eval_runtime": 16.1303,
      "eval_samples_per_second": 696.145,
      "eval_steps_per_second": 87.041,
      "step": 1040
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1045
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1050
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1055
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1060
    },
    {
      "epoch": 0.19,
      "eval_loss": NaN,
      "eval_runtime": 15.9725,
      "eval_samples_per_second": 703.02,
      "eval_steps_per_second": 87.901,
      "step": 1060
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1065
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1070
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1075
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1080
    },
    {
      "epoch": 0.19,
      "eval_loss": NaN,
      "eval_runtime": 16.097,
      "eval_samples_per_second": 697.585,
      "eval_steps_per_second": 87.221,
      "step": 1080
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1085
    },
    {
      "epoch": 0.19,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1090
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1095
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1100
    },
    {
      "epoch": 0.2,
      "eval_loss": NaN,
      "eval_runtime": 16.1475,
      "eval_samples_per_second": 695.401,
      "eval_steps_per_second": 86.948,
      "step": 1100
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1105
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1110
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1115
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1120
    },
    {
      "epoch": 0.2,
      "eval_loss": NaN,
      "eval_runtime": 15.9562,
      "eval_samples_per_second": 703.74,
      "eval_steps_per_second": 87.991,
      "step": 1120
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1125
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1130
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1135
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1140
    },
    {
      "epoch": 0.2,
      "eval_loss": NaN,
      "eval_runtime": 16.1512,
      "eval_samples_per_second": 695.241,
      "eval_steps_per_second": 86.928,
      "step": 1140
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1145
    },
    {
      "epoch": 0.2,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1150
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1155
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1160
    },
    {
      "epoch": 0.21,
      "eval_loss": NaN,
      "eval_runtime": 15.9517,
      "eval_samples_per_second": 703.936,
      "eval_steps_per_second": 88.016,
      "step": 1160
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1165
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1170
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1175
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1180
    },
    {
      "epoch": 0.21,
      "eval_loss": NaN,
      "eval_runtime": 16.1472,
      "eval_samples_per_second": 695.415,
      "eval_steps_per_second": 86.95,
      "step": 1180
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1185
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1190
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1195
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1200
    },
    {
      "epoch": 0.21,
      "eval_loss": NaN,
      "eval_runtime": 15.9482,
      "eval_samples_per_second": 704.09,
      "eval_steps_per_second": 88.035,
      "step": 1200
    },
    {
      "epoch": 0.21,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1205
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1210
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1215
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1220
    },
    {
      "epoch": 0.22,
      "eval_loss": NaN,
      "eval_runtime": 16.1101,
      "eval_samples_per_second": 697.017,
      "eval_steps_per_second": 87.15,
      "step": 1220
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1225
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1230
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1235
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1240
    },
    {
      "epoch": 0.22,
      "eval_loss": NaN,
      "eval_runtime": 15.9277,
      "eval_samples_per_second": 704.998,
      "eval_steps_per_second": 88.148,
      "step": 1240
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1245
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1250
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1255
    },
    {
      "epoch": 0.22,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1260
    },
    {
      "epoch": 0.22,
      "eval_loss": NaN,
      "eval_runtime": 16.1158,
      "eval_samples_per_second": 696.771,
      "eval_steps_per_second": 87.12,
      "step": 1260
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1265
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1270
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1275
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1280
    },
    {
      "epoch": 0.23,
      "eval_loss": NaN,
      "eval_runtime": 16.1452,
      "eval_samples_per_second": 695.499,
      "eval_steps_per_second": 86.961,
      "step": 1280
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1285
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1290
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1295
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1300
    },
    {
      "epoch": 0.23,
      "eval_loss": NaN,
      "eval_runtime": 15.9626,
      "eval_samples_per_second": 703.457,
      "eval_steps_per_second": 87.956,
      "step": 1300
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1305
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1310
    },
    {
      "epoch": 0.23,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1315
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1320
    },
    {
      "epoch": 0.24,
      "eval_loss": NaN,
      "eval_runtime": 16.1517,
      "eval_samples_per_second": 695.221,
      "eval_steps_per_second": 86.926,
      "step": 1320
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1325
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1330
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1335
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1340
    },
    {
      "epoch": 0.24,
      "eval_loss": NaN,
      "eval_runtime": 15.9432,
      "eval_samples_per_second": 704.313,
      "eval_steps_per_second": 88.063,
      "step": 1340
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1345
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1350
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1355
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1360
    },
    {
      "epoch": 0.24,
      "eval_loss": NaN,
      "eval_runtime": 15.9596,
      "eval_samples_per_second": 703.591,
      "eval_steps_per_second": 87.972,
      "step": 1360
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1365
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1370
    },
    {
      "epoch": 0.24,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1375
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1380
    },
    {
      "epoch": 0.25,
      "eval_loss": NaN,
      "eval_runtime": 16.1475,
      "eval_samples_per_second": 695.402,
      "eval_steps_per_second": 86.949,
      "step": 1380
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1385
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1390
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1395
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1400
    },
    {
      "epoch": 0.25,
      "eval_loss": NaN,
      "eval_runtime": 15.9559,
      "eval_samples_per_second": 703.751,
      "eval_steps_per_second": 87.992,
      "step": 1400
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1405
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1410
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1415
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1420
    },
    {
      "epoch": 0.25,
      "eval_loss": NaN,
      "eval_runtime": 16.1414,
      "eval_samples_per_second": 695.665,
      "eval_steps_per_second": 86.981,
      "step": 1420
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1425
    },
    {
      "epoch": 0.25,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1430
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1435
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1440
    },
    {
      "epoch": 0.26,
      "eval_loss": NaN,
      "eval_runtime": 15.9411,
      "eval_samples_per_second": 704.407,
      "eval_steps_per_second": 88.074,
      "step": 1440
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1445
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1450
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1455
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1460
    },
    {
      "epoch": 0.26,
      "eval_loss": NaN,
      "eval_runtime": 16.1392,
      "eval_samples_per_second": 695.761,
      "eval_steps_per_second": 86.993,
      "step": 1460
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1465
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1470
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1475
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1480
    },
    {
      "epoch": 0.26,
      "eval_loss": NaN,
      "eval_runtime": 15.9914,
      "eval_samples_per_second": 702.189,
      "eval_steps_per_second": 87.797,
      "step": 1480
    },
    {
      "epoch": 0.26,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1485
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1490
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1495
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1500
    },
    {
      "epoch": 0.27,
      "eval_loss": NaN,
      "eval_runtime": 16.1774,
      "eval_samples_per_second": 694.117,
      "eval_steps_per_second": 86.788,
      "step": 1500
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1505
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1510
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1515
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1520
    },
    {
      "epoch": 0.27,
      "eval_loss": NaN,
      "eval_runtime": 16.1353,
      "eval_samples_per_second": 695.93,
      "eval_steps_per_second": 87.014,
      "step": 1520
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1525
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1530
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1535
    },
    {
      "epoch": 0.27,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1540
    },
    {
      "epoch": 0.27,
      "eval_loss": NaN,
      "eval_runtime": 15.9706,
      "eval_samples_per_second": 703.104,
      "eval_steps_per_second": 87.912,
      "step": 1540
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1545
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1550
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1555
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1560
    },
    {
      "epoch": 0.28,
      "eval_loss": NaN,
      "eval_runtime": 16.1522,
      "eval_samples_per_second": 695.201,
      "eval_steps_per_second": 86.923,
      "step": 1560
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1565
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1570
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1575
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1580
    },
    {
      "epoch": 0.28,
      "eval_loss": NaN,
      "eval_runtime": 15.9952,
      "eval_samples_per_second": 702.023,
      "eval_steps_per_second": 87.776,
      "step": 1580
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1585
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1590
    },
    {
      "epoch": 0.28,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1595
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1600
    },
    {
      "epoch": 0.29,
      "eval_loss": NaN,
      "eval_runtime": 16.1624,
      "eval_samples_per_second": 694.76,
      "eval_steps_per_second": 86.868,
      "step": 1600
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1605
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1610
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1615
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1620
    },
    {
      "epoch": 0.29,
      "eval_loss": NaN,
      "eval_runtime": 15.973,
      "eval_samples_per_second": 703.0,
      "eval_steps_per_second": 87.898,
      "step": 1620
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 2.1723,
      "step": 1625
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1630
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1635
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1640
    },
    {
      "epoch": 0.29,
      "eval_loss": NaN,
      "eval_runtime": 16.2062,
      "eval_samples_per_second": 692.885,
      "eval_steps_per_second": 86.634,
      "step": 1640
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1645
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1650
    },
    {
      "epoch": 0.29,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1655
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1660
    },
    {
      "epoch": 0.3,
      "eval_loss": NaN,
      "eval_runtime": 16.0656,
      "eval_samples_per_second": 698.949,
      "eval_steps_per_second": 87.392,
      "step": 1660
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1665
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1670
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1675
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1680
    },
    {
      "epoch": 0.3,
      "eval_loss": NaN,
      "eval_runtime": 15.9782,
      "eval_samples_per_second": 702.77,
      "eval_steps_per_second": 87.87,
      "step": 1680
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1685
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1690
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1695
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1700
    },
    {
      "epoch": 0.3,
      "eval_loss": NaN,
      "eval_runtime": 16.1408,
      "eval_samples_per_second": 695.689,
      "eval_steps_per_second": 86.984,
      "step": 1700
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1705
    },
    {
      "epoch": 0.3,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1710
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1715
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1720
    },
    {
      "epoch": 0.31,
      "eval_loss": NaN,
      "eval_runtime": 15.9822,
      "eval_samples_per_second": 702.595,
      "eval_steps_per_second": 87.848,
      "step": 1720
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1725
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1730
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1735
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1740
    },
    {
      "epoch": 0.31,
      "eval_loss": NaN,
      "eval_runtime": 16.1349,
      "eval_samples_per_second": 695.945,
      "eval_steps_per_second": 87.016,
      "step": 1740
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1745
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1750
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1755
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1760
    },
    {
      "epoch": 0.31,
      "eval_loss": NaN,
      "eval_runtime": 15.9459,
      "eval_samples_per_second": 704.193,
      "eval_steps_per_second": 88.048,
      "step": 1760
    },
    {
      "epoch": 0.31,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1765
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1770
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1775
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1780
    },
    {
      "epoch": 0.32,
      "eval_loss": NaN,
      "eval_runtime": 16.1546,
      "eval_samples_per_second": 695.095,
      "eval_steps_per_second": 86.91,
      "step": 1780
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1785
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1790
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1795
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1800
    },
    {
      "epoch": 0.32,
      "eval_loss": NaN,
      "eval_runtime": 15.9486,
      "eval_samples_per_second": 704.073,
      "eval_steps_per_second": 88.033,
      "step": 1800
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1805
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1810
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1815
    },
    {
      "epoch": 0.32,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1820
    },
    {
      "epoch": 0.32,
      "eval_loss": NaN,
      "eval_runtime": 16.1609,
      "eval_samples_per_second": 694.825,
      "eval_steps_per_second": 86.876,
      "step": 1820
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1825
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1830
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1835
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1840
    },
    {
      "epoch": 0.33,
      "eval_loss": NaN,
      "eval_runtime": 16.1314,
      "eval_samples_per_second": 696.097,
      "eval_steps_per_second": 87.035,
      "step": 1840
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1845
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1850
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1855
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1860
    },
    {
      "epoch": 0.33,
      "eval_loss": NaN,
      "eval_runtime": 15.972,
      "eval_samples_per_second": 703.043,
      "eval_steps_per_second": 87.904,
      "step": 1860
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1865
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1870
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1875
    },
    {
      "epoch": 0.33,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1880
    },
    {
      "epoch": 0.33,
      "eval_loss": NaN,
      "eval_runtime": 16.1706,
      "eval_samples_per_second": 694.406,
      "eval_steps_per_second": 86.824,
      "step": 1880
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1885
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1890
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1895
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1900
    },
    {
      "epoch": 0.34,
      "eval_loss": NaN,
      "eval_runtime": 15.9818,
      "eval_samples_per_second": 702.61,
      "eval_steps_per_second": 87.85,
      "step": 1900
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1905
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1910
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1915
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1920
    },
    {
      "epoch": 0.34,
      "eval_loss": NaN,
      "eval_runtime": 16.1408,
      "eval_samples_per_second": 695.692,
      "eval_steps_per_second": 86.985,
      "step": 1920
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1925
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1930
    },
    {
      "epoch": 0.34,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1935
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1940
    },
    {
      "epoch": 0.35,
      "eval_loss": NaN,
      "eval_runtime": 15.9752,
      "eval_samples_per_second": 702.904,
      "eval_steps_per_second": 87.886,
      "step": 1940
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1945
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1950
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1955
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1960
    },
    {
      "epoch": 0.35,
      "eval_loss": NaN,
      "eval_runtime": 16.1593,
      "eval_samples_per_second": 694.895,
      "eval_steps_per_second": 86.885,
      "step": 1960
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1965
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1970
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1975
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1980
    },
    {
      "epoch": 0.35,
      "eval_loss": NaN,
      "eval_runtime": 15.9405,
      "eval_samples_per_second": 704.43,
      "eval_steps_per_second": 88.077,
      "step": 1980
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1985
    },
    {
      "epoch": 0.35,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1990
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 1995
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2000
    },
    {
      "epoch": 0.36,
      "eval_loss": NaN,
      "eval_runtime": 15.9527,
      "eval_samples_per_second": 703.893,
      "eval_steps_per_second": 88.01,
      "step": 2000
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2005
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2010
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2015
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2020
    },
    {
      "epoch": 0.36,
      "eval_loss": NaN,
      "eval_runtime": 16.1531,
      "eval_samples_per_second": 695.162,
      "eval_steps_per_second": 86.918,
      "step": 2020
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2025
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2030
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2035
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2040
    },
    {
      "epoch": 0.36,
      "eval_loss": NaN,
      "eval_runtime": 15.9492,
      "eval_samples_per_second": 704.049,
      "eval_steps_per_second": 88.03,
      "step": 2040
    },
    {
      "epoch": 0.36,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2045
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2050
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2055
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2060
    },
    {
      "epoch": 0.37,
      "eval_loss": NaN,
      "eval_runtime": 16.098,
      "eval_samples_per_second": 697.541,
      "eval_steps_per_second": 87.216,
      "step": 2060
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2065
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2070
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2075
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2080
    },
    {
      "epoch": 0.37,
      "eval_loss": NaN,
      "eval_runtime": 15.8953,
      "eval_samples_per_second": 706.433,
      "eval_steps_per_second": 88.328,
      "step": 2080
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2085
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2090
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2095
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2100
    },
    {
      "epoch": 0.37,
      "eval_loss": NaN,
      "eval_runtime": 16.1327,
      "eval_samples_per_second": 696.041,
      "eval_steps_per_second": 87.028,
      "step": 2100
    },
    {
      "epoch": 0.37,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2105
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2110
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2115
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2120
    },
    {
      "epoch": 0.38,
      "eval_loss": NaN,
      "eval_runtime": 15.9488,
      "eval_samples_per_second": 704.066,
      "eval_steps_per_second": 88.032,
      "step": 2120
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2125
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2130
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2135
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2140
    },
    {
      "epoch": 0.38,
      "eval_loss": NaN,
      "eval_runtime": 16.1251,
      "eval_samples_per_second": 696.367,
      "eval_steps_per_second": 87.069,
      "step": 2140
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2145
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2150
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2155
    },
    {
      "epoch": 0.38,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2160
    },
    {
      "epoch": 0.38,
      "eval_loss": NaN,
      "eval_runtime": 16.1096,
      "eval_samples_per_second": 697.039,
      "eval_steps_per_second": 87.153,
      "step": 2160
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2165
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2170
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2175
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2180
    },
    {
      "epoch": 0.39,
      "eval_loss": NaN,
      "eval_runtime": 15.9698,
      "eval_samples_per_second": 703.139,
      "eval_steps_per_second": 87.916,
      "step": 2180
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2185
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2190
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2195
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2200
    },
    {
      "epoch": 0.39,
      "eval_loss": NaN,
      "eval_runtime": 16.1098,
      "eval_samples_per_second": 697.031,
      "eval_steps_per_second": 87.152,
      "step": 2200
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2205
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2210
    },
    {
      "epoch": 0.39,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2215
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2220
    },
    {
      "epoch": 0.4,
      "eval_loss": NaN,
      "eval_runtime": 15.9499,
      "eval_samples_per_second": 704.016,
      "eval_steps_per_second": 88.026,
      "step": 2220
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2225
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2230
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2235
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2240
    },
    {
      "epoch": 0.4,
      "eval_loss": NaN,
      "eval_runtime": 16.1401,
      "eval_samples_per_second": 695.722,
      "eval_steps_per_second": 86.988,
      "step": 2240
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2245
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2250
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2255
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2260
    },
    {
      "epoch": 0.4,
      "eval_loss": NaN,
      "eval_runtime": 15.8889,
      "eval_samples_per_second": 706.719,
      "eval_steps_per_second": 88.363,
      "step": 2260
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2265
    },
    {
      "epoch": 0.4,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2270
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2275
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2280
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 16.091,
      "eval_samples_per_second": 697.844,
      "eval_steps_per_second": 87.254,
      "step": 2280
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2285
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2290
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2295
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2300
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 16.0861,
      "eval_samples_per_second": 698.058,
      "eval_steps_per_second": 87.281,
      "step": 2300
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2305
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2310
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2315
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2320
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 16.0286,
      "eval_samples_per_second": 700.56,
      "eval_steps_per_second": 87.593,
      "step": 2320
    },
    {
      "epoch": 0.41,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2325
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2330
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2335
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2340
    },
    {
      "epoch": 0.42,
      "eval_loss": NaN,
      "eval_runtime": 16.1841,
      "eval_samples_per_second": 693.828,
      "eval_steps_per_second": 86.752,
      "step": 2340
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2345
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2350
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2355
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2360
    },
    {
      "epoch": 0.42,
      "eval_loss": NaN,
      "eval_runtime": 16.0128,
      "eval_samples_per_second": 701.251,
      "eval_steps_per_second": 87.68,
      "step": 2360
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2365
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2370
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2375
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2380
    },
    {
      "epoch": 0.42,
      "eval_loss": NaN,
      "eval_runtime": 16.1707,
      "eval_samples_per_second": 694.404,
      "eval_steps_per_second": 86.824,
      "step": 2380
    },
    {
      "epoch": 0.42,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2385
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2390
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2395
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2400
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 15.9979,
      "eval_samples_per_second": 701.904,
      "eval_steps_per_second": 87.761,
      "step": 2400
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2405
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2410
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2415
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2420
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 16.1849,
      "eval_samples_per_second": 693.793,
      "eval_steps_per_second": 86.747,
      "step": 2420
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2425
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2430
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2435
    },
    {
      "epoch": 0.43,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2440
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 15.8623,
      "eval_samples_per_second": 707.905,
      "eval_steps_per_second": 88.512,
      "step": 2440
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2445
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2450
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2455
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2460
    },
    {
      "epoch": 0.44,
      "eval_loss": NaN,
      "eval_runtime": 16.0278,
      "eval_samples_per_second": 700.596,
      "eval_steps_per_second": 87.598,
      "step": 2460
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2465
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2470
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2475
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2480
    },
    {
      "epoch": 0.44,
      "eval_loss": NaN,
      "eval_runtime": 15.9938,
      "eval_samples_per_second": 702.083,
      "eval_steps_per_second": 87.784,
      "step": 2480
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2485
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2490
    },
    {
      "epoch": 0.44,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2495
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2500
    },
    {
      "epoch": 0.45,
      "eval_loss": NaN,
      "eval_runtime": 15.8489,
      "eval_samples_per_second": 708.502,
      "eval_steps_per_second": 88.586,
      "step": 2500
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2505
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2510
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2515
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2520
    },
    {
      "epoch": 0.45,
      "eval_loss": NaN,
      "eval_runtime": 16.0457,
      "eval_samples_per_second": 699.812,
      "eval_steps_per_second": 87.5,
      "step": 2520
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2525
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2530
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2535
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2540
    },
    {
      "epoch": 0.45,
      "eval_loss": NaN,
      "eval_runtime": 15.8209,
      "eval_samples_per_second": 709.756,
      "eval_steps_per_second": 88.743,
      "step": 2540
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2545
    },
    {
      "epoch": 0.45,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2550
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2555
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2560
    },
    {
      "epoch": 0.46,
      "eval_loss": NaN,
      "eval_runtime": 16.0286,
      "eval_samples_per_second": 700.559,
      "eval_steps_per_second": 87.593,
      "step": 2560
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2565
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2570
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2575
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2580
    },
    {
      "epoch": 0.46,
      "eval_loss": NaN,
      "eval_runtime": 15.8314,
      "eval_samples_per_second": 709.288,
      "eval_steps_per_second": 88.685,
      "step": 2580
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2585
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2590
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2595
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2600
    },
    {
      "epoch": 0.46,
      "eval_loss": NaN,
      "eval_runtime": 16.0105,
      "eval_samples_per_second": 701.353,
      "eval_steps_per_second": 87.693,
      "step": 2600
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2605
    },
    {
      "epoch": 0.46,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2610
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2615
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2620
    },
    {
      "epoch": 0.47,
      "eval_loss": NaN,
      "eval_runtime": 15.81,
      "eval_samples_per_second": 710.247,
      "eval_steps_per_second": 88.805,
      "step": 2620
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2625
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2630
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2635
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2640
    },
    {
      "epoch": 0.47,
      "eval_loss": NaN,
      "eval_runtime": 15.9246,
      "eval_samples_per_second": 705.136,
      "eval_steps_per_second": 88.166,
      "step": 2640
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2645
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2650
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2655
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2660
    },
    {
      "epoch": 0.47,
      "eval_loss": NaN,
      "eval_runtime": 16.0372,
      "eval_samples_per_second": 700.187,
      "eval_steps_per_second": 87.547,
      "step": 2660
    },
    {
      "epoch": 0.47,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2665
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2670
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 2.1934,
      "step": 2675
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2680
    },
    {
      "epoch": 0.48,
      "eval_loss": NaN,
      "eval_runtime": 15.825,
      "eval_samples_per_second": 709.573,
      "eval_steps_per_second": 88.72,
      "step": 2680
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2685
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2690
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2695
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2700
    },
    {
      "epoch": 0.48,
      "eval_loss": NaN,
      "eval_runtime": 16.0002,
      "eval_samples_per_second": 701.803,
      "eval_steps_per_second": 87.749,
      "step": 2700
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2705
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2710
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2715
    },
    {
      "epoch": 0.48,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2720
    },
    {
      "epoch": 0.48,
      "eval_loss": NaN,
      "eval_runtime": 15.8268,
      "eval_samples_per_second": 709.494,
      "eval_steps_per_second": 88.71,
      "step": 2720
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2725
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2730
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2735
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2740
    },
    {
      "epoch": 0.49,
      "eval_loss": NaN,
      "eval_runtime": 16.0387,
      "eval_samples_per_second": 700.121,
      "eval_steps_per_second": 87.539,
      "step": 2740
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2745
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2750
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2755
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2760
    },
    {
      "epoch": 0.49,
      "eval_loss": NaN,
      "eval_runtime": 15.8413,
      "eval_samples_per_second": 708.845,
      "eval_steps_per_second": 88.629,
      "step": 2760
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2765
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2770
    },
    {
      "epoch": 0.49,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2775
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2780
    },
    {
      "epoch": 0.5,
      "eval_loss": NaN,
      "eval_runtime": 16.0226,
      "eval_samples_per_second": 700.822,
      "eval_steps_per_second": 87.626,
      "step": 2780
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2785
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2790
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2795
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2800
    },
    {
      "epoch": 0.5,
      "eval_loss": NaN,
      "eval_runtime": 15.8258,
      "eval_samples_per_second": 709.537,
      "eval_steps_per_second": 88.716,
      "step": 2800
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2805
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2810
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2815
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2820
    },
    {
      "epoch": 0.5,
      "eval_loss": NaN,
      "eval_runtime": 15.8734,
      "eval_samples_per_second": 707.411,
      "eval_steps_per_second": 88.45,
      "step": 2820
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2825
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2830
    },
    {
      "epoch": 0.5,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2835
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2840
    },
    {
      "epoch": 0.51,
      "eval_loss": NaN,
      "eval_runtime": 16.0185,
      "eval_samples_per_second": 701.004,
      "eval_steps_per_second": 87.649,
      "step": 2840
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2845
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2850
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2855
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2860
    },
    {
      "epoch": 0.51,
      "eval_loss": NaN,
      "eval_runtime": 15.8287,
      "eval_samples_per_second": 709.408,
      "eval_steps_per_second": 88.7,
      "step": 2860
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2865
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2870
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2875
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2880
    },
    {
      "epoch": 0.51,
      "eval_loss": NaN,
      "eval_runtime": 16.0447,
      "eval_samples_per_second": 699.856,
      "eval_steps_per_second": 87.505,
      "step": 2880
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2885
    },
    {
      "epoch": 0.51,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2890
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2895
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2900
    },
    {
      "epoch": 0.52,
      "eval_loss": NaN,
      "eval_runtime": 15.8191,
      "eval_samples_per_second": 709.837,
      "eval_steps_per_second": 88.753,
      "step": 2900
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2905
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2910
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2915
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2920
    },
    {
      "epoch": 0.52,
      "eval_loss": NaN,
      "eval_runtime": 16.0296,
      "eval_samples_per_second": 700.518,
      "eval_steps_per_second": 87.588,
      "step": 2920
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2925
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2930
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2935
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2940
    },
    {
      "epoch": 0.52,
      "eval_loss": NaN,
      "eval_runtime": 15.8404,
      "eval_samples_per_second": 708.883,
      "eval_steps_per_second": 88.634,
      "step": 2940
    },
    {
      "epoch": 0.52,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2945
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2950
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2955
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2960
    },
    {
      "epoch": 0.53,
      "eval_loss": NaN,
      "eval_runtime": 16.0289,
      "eval_samples_per_second": 700.549,
      "eval_steps_per_second": 87.592,
      "step": 2960
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2965
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2970
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2975
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2980
    },
    {
      "epoch": 0.53,
      "eval_loss": NaN,
      "eval_runtime": 15.8976,
      "eval_samples_per_second": 706.334,
      "eval_steps_per_second": 88.315,
      "step": 2980
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2985
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2990
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 2995
    },
    {
      "epoch": 0.53,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3000
    },
    {
      "epoch": 0.53,
      "eval_loss": NaN,
      "eval_runtime": 15.802,
      "eval_samples_per_second": 710.604,
      "eval_steps_per_second": 88.849,
      "step": 3000
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3005
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3010
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3015
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3020
    },
    {
      "epoch": 0.54,
      "eval_loss": NaN,
      "eval_runtime": 16.0122,
      "eval_samples_per_second": 701.278,
      "eval_steps_per_second": 87.683,
      "step": 3020
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3025
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3030
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3035
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3040
    },
    {
      "epoch": 0.54,
      "eval_loss": NaN,
      "eval_runtime": 15.8386,
      "eval_samples_per_second": 708.963,
      "eval_steps_per_second": 88.644,
      "step": 3040
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3045
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3050
    },
    {
      "epoch": 0.54,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3055
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3060
    },
    {
      "epoch": 0.55,
      "eval_loss": NaN,
      "eval_runtime": 16.0179,
      "eval_samples_per_second": 701.028,
      "eval_steps_per_second": 87.652,
      "step": 3060
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3065
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3070
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3075
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3080
    },
    {
      "epoch": 0.55,
      "eval_loss": NaN,
      "eval_runtime": 15.8256,
      "eval_samples_per_second": 709.545,
      "eval_steps_per_second": 88.717,
      "step": 3080
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3085
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3090
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3095
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3100
    },
    {
      "epoch": 0.55,
      "eval_loss": NaN,
      "eval_runtime": 16.0146,
      "eval_samples_per_second": 701.174,
      "eval_steps_per_second": 87.67,
      "step": 3100
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3105
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3110
    },
    {
      "epoch": 0.55,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3115
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3120
    },
    {
      "epoch": 0.56,
      "eval_loss": NaN,
      "eval_runtime": 15.832,
      "eval_samples_per_second": 709.258,
      "eval_steps_per_second": 88.681,
      "step": 3120
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3125
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3130
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3135
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3140
    },
    {
      "epoch": 0.56,
      "eval_loss": NaN,
      "eval_runtime": 16.029,
      "eval_samples_per_second": 700.543,
      "eval_steps_per_second": 87.591,
      "step": 3140
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3145
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3150
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3155
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3160
    },
    {
      "epoch": 0.56,
      "eval_loss": NaN,
      "eval_runtime": 16.0177,
      "eval_samples_per_second": 701.037,
      "eval_steps_per_second": 87.653,
      "step": 3160
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3165
    },
    {
      "epoch": 0.56,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3170
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3175
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3180
    },
    {
      "epoch": 0.57,
      "eval_loss": NaN,
      "eval_runtime": 15.8191,
      "eval_samples_per_second": 709.837,
      "eval_steps_per_second": 88.753,
      "step": 3180
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3185
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3190
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3195
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3200
    },
    {
      "epoch": 0.57,
      "eval_loss": NaN,
      "eval_runtime": 15.9957,
      "eval_samples_per_second": 701.999,
      "eval_steps_per_second": 87.773,
      "step": 3200
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3205
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3210
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3215
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3220
    },
    {
      "epoch": 0.57,
      "eval_loss": NaN,
      "eval_runtime": 15.8067,
      "eval_samples_per_second": 710.395,
      "eval_steps_per_second": 88.823,
      "step": 3220
    },
    {
      "epoch": 0.57,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3225
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3230
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3235
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3240
    },
    {
      "epoch": 0.58,
      "eval_loss": NaN,
      "eval_runtime": 16.0154,
      "eval_samples_per_second": 701.138,
      "eval_steps_per_second": 87.666,
      "step": 3240
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3245
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3250
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3255
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3260
    },
    {
      "epoch": 0.58,
      "eval_loss": NaN,
      "eval_runtime": 15.8473,
      "eval_samples_per_second": 708.574,
      "eval_steps_per_second": 88.595,
      "step": 3260
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3265
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3270
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3275
    },
    {
      "epoch": 0.58,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3280
    },
    {
      "epoch": 0.58,
      "eval_loss": NaN,
      "eval_runtime": 16.0428,
      "eval_samples_per_second": 699.942,
      "eval_steps_per_second": 87.516,
      "step": 3280
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3285
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3290
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3295
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3300
    },
    {
      "epoch": 0.59,
      "eval_loss": NaN,
      "eval_runtime": 15.8335,
      "eval_samples_per_second": 709.194,
      "eval_steps_per_second": 88.673,
      "step": 3300
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3305
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3310
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3315
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3320
    },
    {
      "epoch": 0.59,
      "eval_loss": NaN,
      "eval_runtime": 15.9831,
      "eval_samples_per_second": 702.555,
      "eval_steps_per_second": 87.843,
      "step": 3320
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3325
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3330
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3335
    },
    {
      "epoch": 0.59,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3340
    },
    {
      "epoch": 0.59,
      "eval_loss": NaN,
      "eval_runtime": 15.9969,
      "eval_samples_per_second": 701.946,
      "eval_steps_per_second": 87.767,
      "step": 3340
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3345
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3350
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3355
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3360
    },
    {
      "epoch": 0.6,
      "eval_loss": NaN,
      "eval_runtime": 15.8282,
      "eval_samples_per_second": 709.432,
      "eval_steps_per_second": 88.703,
      "step": 3360
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3365
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3370
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3375
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3380
    },
    {
      "epoch": 0.6,
      "eval_loss": NaN,
      "eval_runtime": 16.0157,
      "eval_samples_per_second": 701.126,
      "eval_steps_per_second": 87.664,
      "step": 3380
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3385
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3390
    },
    {
      "epoch": 0.6,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3395
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3400
    },
    {
      "epoch": 0.61,
      "eval_loss": NaN,
      "eval_runtime": 15.8177,
      "eval_samples_per_second": 709.899,
      "eval_steps_per_second": 88.761,
      "step": 3400
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3405
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3410
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3415
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3420
    },
    {
      "epoch": 0.61,
      "eval_loss": NaN,
      "eval_runtime": 15.9965,
      "eval_samples_per_second": 701.965,
      "eval_steps_per_second": 87.769,
      "step": 3420
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3425
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3430
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3435
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3440
    },
    {
      "epoch": 0.61,
      "eval_loss": NaN,
      "eval_runtime": 15.8446,
      "eval_samples_per_second": 708.695,
      "eval_steps_per_second": 88.611,
      "step": 3440
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3445
    },
    {
      "epoch": 0.61,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3450
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3455
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3460
    },
    {
      "epoch": 0.62,
      "eval_loss": NaN,
      "eval_runtime": 15.9826,
      "eval_samples_per_second": 702.576,
      "eval_steps_per_second": 87.845,
      "step": 3460
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3465
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3470
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3475
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3480
    },
    {
      "epoch": 0.62,
      "eval_loss": NaN,
      "eval_runtime": 15.8362,
      "eval_samples_per_second": 709.073,
      "eval_steps_per_second": 88.658,
      "step": 3480
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3485
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3490
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3495
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3500
    },
    {
      "epoch": 0.62,
      "eval_loss": NaN,
      "eval_runtime": 15.9861,
      "eval_samples_per_second": 702.423,
      "eval_steps_per_second": 87.826,
      "step": 3500
    },
    {
      "epoch": 0.62,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3505
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3510
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3515
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.9397,
      "step": 3520
    },
    {
      "epoch": 0.63,
      "eval_loss": NaN,
      "eval_runtime": 16.0596,
      "eval_samples_per_second": 699.207,
      "eval_steps_per_second": 87.424,
      "step": 3520
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3525
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3530
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3535
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3540
    },
    {
      "epoch": 0.63,
      "eval_loss": NaN,
      "eval_runtime": 15.8496,
      "eval_samples_per_second": 708.471,
      "eval_steps_per_second": 88.583,
      "step": 3540
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3545
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3550
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3555
    },
    {
      "epoch": 0.63,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3560
    },
    {
      "epoch": 0.63,
      "eval_loss": NaN,
      "eval_runtime": 16.0108,
      "eval_samples_per_second": 701.339,
      "eval_steps_per_second": 87.691,
      "step": 3560
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3565
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3570
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3575
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3580
    },
    {
      "epoch": 0.64,
      "eval_loss": NaN,
      "eval_runtime": 15.8222,
      "eval_samples_per_second": 709.7,
      "eval_steps_per_second": 88.736,
      "step": 3580
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3585
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3590
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3595
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3600
    },
    {
      "epoch": 0.64,
      "eval_loss": NaN,
      "eval_runtime": 16.0039,
      "eval_samples_per_second": 701.64,
      "eval_steps_per_second": 87.728,
      "step": 3600
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3605
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3610
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3615
    },
    {
      "epoch": 0.64,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3620
    },
    {
      "epoch": 0.64,
      "eval_loss": NaN,
      "eval_runtime": 15.8247,
      "eval_samples_per_second": 709.587,
      "eval_steps_per_second": 88.722,
      "step": 3620
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3625
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3630
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3635
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3640
    },
    {
      "epoch": 0.65,
      "eval_loss": NaN,
      "eval_runtime": 16.0191,
      "eval_samples_per_second": 700.976,
      "eval_steps_per_second": 87.645,
      "step": 3640
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3645
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3650
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3655
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3660
    },
    {
      "epoch": 0.65,
      "eval_loss": NaN,
      "eval_runtime": 15.8184,
      "eval_samples_per_second": 709.871,
      "eval_steps_per_second": 88.758,
      "step": 3660
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3665
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3670
    },
    {
      "epoch": 0.65,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3675
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3680
    },
    {
      "epoch": 0.66,
      "eval_loss": NaN,
      "eval_runtime": 15.9523,
      "eval_samples_per_second": 703.909,
      "eval_steps_per_second": 88.012,
      "step": 3680
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3685
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3690
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3695
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3700
    },
    {
      "epoch": 0.66,
      "eval_loss": NaN,
      "eval_runtime": 16.004,
      "eval_samples_per_second": 701.635,
      "eval_steps_per_second": 87.728,
      "step": 3700
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3705
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3710
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3715
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3720
    },
    {
      "epoch": 0.66,
      "eval_loss": NaN,
      "eval_runtime": 15.8471,
      "eval_samples_per_second": 708.584,
      "eval_steps_per_second": 88.597,
      "step": 3720
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3725
    },
    {
      "epoch": 0.66,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3730
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3735
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3740
    },
    {
      "epoch": 0.67,
      "eval_loss": NaN,
      "eval_runtime": 15.9993,
      "eval_samples_per_second": 701.843,
      "eval_steps_per_second": 87.754,
      "step": 3740
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3745
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3750
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3755
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3760
    },
    {
      "epoch": 0.67,
      "eval_loss": NaN,
      "eval_runtime": 15.805,
      "eval_samples_per_second": 710.472,
      "eval_steps_per_second": 88.833,
      "step": 3760
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3765
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3770
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3775
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3780
    },
    {
      "epoch": 0.67,
      "eval_loss": NaN,
      "eval_runtime": 16.0166,
      "eval_samples_per_second": 701.087,
      "eval_steps_per_second": 87.659,
      "step": 3780
    },
    {
      "epoch": 0.67,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3785
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3790
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3795
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3800
    },
    {
      "epoch": 0.68,
      "eval_loss": NaN,
      "eval_runtime": 15.8417,
      "eval_samples_per_second": 708.824,
      "eval_steps_per_second": 88.627,
      "step": 3800
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3805
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3810
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3815
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3820
    },
    {
      "epoch": 0.68,
      "eval_loss": NaN,
      "eval_runtime": 16.0055,
      "eval_samples_per_second": 701.573,
      "eval_steps_per_second": 87.72,
      "step": 3820
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3825
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3830
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3835
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3840
    },
    {
      "epoch": 0.68,
      "eval_loss": NaN,
      "eval_runtime": 15.8209,
      "eval_samples_per_second": 709.757,
      "eval_steps_per_second": 88.743,
      "step": 3840
    },
    {
      "epoch": 0.68,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3845
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3850
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3855
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3860
    },
    {
      "epoch": 0.69,
      "eval_loss": NaN,
      "eval_runtime": 15.8238,
      "eval_samples_per_second": 709.629,
      "eval_steps_per_second": 88.727,
      "step": 3860
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3865
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3870
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3875
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3880
    },
    {
      "epoch": 0.69,
      "eval_loss": NaN,
      "eval_runtime": 15.9969,
      "eval_samples_per_second": 701.947,
      "eval_steps_per_second": 87.767,
      "step": 3880
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3885
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3890
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3895
    },
    {
      "epoch": 0.69,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3900
    },
    {
      "epoch": 0.69,
      "eval_loss": NaN,
      "eval_runtime": 15.8249,
      "eval_samples_per_second": 709.578,
      "eval_steps_per_second": 88.721,
      "step": 3900
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3905
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3910
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3915
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3920
    },
    {
      "epoch": 0.7,
      "eval_loss": NaN,
      "eval_runtime": 16.0072,
      "eval_samples_per_second": 701.499,
      "eval_steps_per_second": 87.711,
      "step": 3920
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3925
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3930
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3935
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3940
    },
    {
      "epoch": 0.7,
      "eval_loss": NaN,
      "eval_runtime": 15.8286,
      "eval_samples_per_second": 709.411,
      "eval_steps_per_second": 88.7,
      "step": 3940
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3945
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3950
    },
    {
      "epoch": 0.7,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3955
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3960
    },
    {
      "epoch": 0.71,
      "eval_loss": NaN,
      "eval_runtime": 16.0229,
      "eval_samples_per_second": 700.811,
      "eval_steps_per_second": 87.625,
      "step": 3960
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3965
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 12.7322,
      "step": 3970
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3975
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3980
    },
    {
      "epoch": 0.71,
      "eval_loss": NaN,
      "eval_runtime": 15.8446,
      "eval_samples_per_second": 708.697,
      "eval_steps_per_second": 88.611,
      "step": 3980
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3985
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3990
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 3995
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4000
    },
    {
      "epoch": 0.71,
      "eval_loss": NaN,
      "eval_runtime": 16.014,
      "eval_samples_per_second": 701.2,
      "eval_steps_per_second": 87.673,
      "step": 4000
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4005
    },
    {
      "epoch": 0.71,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4010
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4015
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4020
    },
    {
      "epoch": 0.72,
      "eval_loss": NaN,
      "eval_runtime": 15.8243,
      "eval_samples_per_second": 709.605,
      "eval_steps_per_second": 88.724,
      "step": 4020
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4025
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4030
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4035
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4040
    },
    {
      "epoch": 0.72,
      "eval_loss": NaN,
      "eval_runtime": 15.8232,
      "eval_samples_per_second": 709.655,
      "eval_steps_per_second": 88.731,
      "step": 4040
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4045
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4050
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4055
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4060
    },
    {
      "epoch": 0.72,
      "eval_loss": NaN,
      "eval_runtime": 15.99,
      "eval_samples_per_second": 702.253,
      "eval_steps_per_second": 87.805,
      "step": 4060
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4065
    },
    {
      "epoch": 0.72,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4070
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4075
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4080
    },
    {
      "epoch": 0.73,
      "eval_loss": NaN,
      "eval_runtime": 15.8334,
      "eval_samples_per_second": 709.197,
      "eval_steps_per_second": 88.673,
      "step": 4080
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4085
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4090
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4095
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4100
    },
    {
      "epoch": 0.73,
      "eval_loss": NaN,
      "eval_runtime": 15.9882,
      "eval_samples_per_second": 702.332,
      "eval_steps_per_second": 87.815,
      "step": 4100
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4105
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4110
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4115
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 2.9175,
      "step": 4120
    },
    {
      "epoch": 0.73,
      "eval_loss": NaN,
      "eval_runtime": 15.8995,
      "eval_samples_per_second": 706.247,
      "eval_steps_per_second": 88.304,
      "step": 4120
    },
    {
      "epoch": 0.73,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4125
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4130
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4135
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4140
    },
    {
      "epoch": 0.74,
      "eval_loss": NaN,
      "eval_runtime": 16.1455,
      "eval_samples_per_second": 695.488,
      "eval_steps_per_second": 86.959,
      "step": 4140
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4145
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4150
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4155
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4160
    },
    {
      "epoch": 0.74,
      "eval_loss": NaN,
      "eval_runtime": 15.9474,
      "eval_samples_per_second": 704.126,
      "eval_steps_per_second": 88.039,
      "step": 4160
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4165
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4170
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4175
    },
    {
      "epoch": 0.74,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4180
    },
    {
      "epoch": 0.74,
      "eval_loss": NaN,
      "eval_runtime": 16.1801,
      "eval_samples_per_second": 693.999,
      "eval_steps_per_second": 86.773,
      "step": 4180
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4185
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4190
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4195
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4200
    },
    {
      "epoch": 0.75,
      "eval_loss": NaN,
      "eval_runtime": 16.1049,
      "eval_samples_per_second": 697.243,
      "eval_steps_per_second": 87.179,
      "step": 4200
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4205
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4210
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4215
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4220
    },
    {
      "epoch": 0.75,
      "eval_loss": NaN,
      "eval_runtime": 15.9379,
      "eval_samples_per_second": 704.546,
      "eval_steps_per_second": 88.092,
      "step": 4220
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4225
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4230
    },
    {
      "epoch": 0.75,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4235
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4240
    },
    {
      "epoch": 0.76,
      "eval_loss": NaN,
      "eval_runtime": 16.1125,
      "eval_samples_per_second": 696.911,
      "eval_steps_per_second": 87.137,
      "step": 4240
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4245
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4250
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4255
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4260
    },
    {
      "epoch": 0.76,
      "eval_loss": NaN,
      "eval_runtime": 15.8653,
      "eval_samples_per_second": 707.77,
      "eval_steps_per_second": 88.495,
      "step": 4260
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4265
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4270
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4275
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4280
    },
    {
      "epoch": 0.76,
      "eval_loss": NaN,
      "eval_runtime": 16.0449,
      "eval_samples_per_second": 699.847,
      "eval_steps_per_second": 87.504,
      "step": 4280
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4285
    },
    {
      "epoch": 0.76,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4290
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4295
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4300
    },
    {
      "epoch": 0.77,
      "eval_loss": NaN,
      "eval_runtime": 15.8684,
      "eval_samples_per_second": 707.634,
      "eval_steps_per_second": 88.478,
      "step": 4300
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4305
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4310
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4315
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4320
    },
    {
      "epoch": 0.77,
      "eval_loss": NaN,
      "eval_runtime": 16.0103,
      "eval_samples_per_second": 701.362,
      "eval_steps_per_second": 87.694,
      "step": 4320
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4325
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4330
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4335
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4340
    },
    {
      "epoch": 0.77,
      "eval_loss": NaN,
      "eval_runtime": 15.829,
      "eval_samples_per_second": 709.394,
      "eval_steps_per_second": 88.698,
      "step": 4340
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4345
    },
    {
      "epoch": 0.77,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4350
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4355
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4360
    },
    {
      "epoch": 0.78,
      "eval_loss": NaN,
      "eval_runtime": 16.0061,
      "eval_samples_per_second": 701.547,
      "eval_steps_per_second": 87.717,
      "step": 4360
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4365
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4370
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4375
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4380
    },
    {
      "epoch": 0.78,
      "eval_loss": NaN,
      "eval_runtime": 15.9913,
      "eval_samples_per_second": 702.193,
      "eval_steps_per_second": 87.798,
      "step": 4380
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4385
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4390
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4395
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4400
    },
    {
      "epoch": 0.78,
      "eval_loss": NaN,
      "eval_runtime": 15.8552,
      "eval_samples_per_second": 708.221,
      "eval_steps_per_second": 88.551,
      "step": 4400
    },
    {
      "epoch": 0.78,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4405
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4410
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4415
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4420
    },
    {
      "epoch": 0.79,
      "eval_loss": NaN,
      "eval_runtime": 16.0143,
      "eval_samples_per_second": 701.187,
      "eval_steps_per_second": 87.672,
      "step": 4420
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4425
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4430
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4435
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4440
    },
    {
      "epoch": 0.79,
      "eval_loss": NaN,
      "eval_runtime": 15.8444,
      "eval_samples_per_second": 708.707,
      "eval_steps_per_second": 88.612,
      "step": 4440
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4445
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4450
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4455
    },
    {
      "epoch": 0.79,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4460
    },
    {
      "epoch": 0.79,
      "eval_loss": NaN,
      "eval_runtime": 16.0132,
      "eval_samples_per_second": 701.232,
      "eval_steps_per_second": 87.677,
      "step": 4460
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4465
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4470
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4475
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4480
    },
    {
      "epoch": 0.8,
      "eval_loss": NaN,
      "eval_runtime": 15.8075,
      "eval_samples_per_second": 710.36,
      "eval_steps_per_second": 88.819,
      "step": 4480
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4485
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4490
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4495
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4500
    },
    {
      "epoch": 0.8,
      "eval_loss": NaN,
      "eval_runtime": 16.0215,
      "eval_samples_per_second": 700.869,
      "eval_steps_per_second": 87.632,
      "step": 4500
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4505
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4510
    },
    {
      "epoch": 0.8,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4515
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4520
    },
    {
      "epoch": 0.81,
      "eval_loss": NaN,
      "eval_runtime": 15.813,
      "eval_samples_per_second": 710.114,
      "eval_steps_per_second": 88.788,
      "step": 4520
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4525
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4530
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4535
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4540
    },
    {
      "epoch": 0.81,
      "eval_loss": NaN,
      "eval_runtime": 15.8001,
      "eval_samples_per_second": 710.692,
      "eval_steps_per_second": 88.86,
      "step": 4540
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4545
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4550
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4555
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4560
    },
    {
      "epoch": 0.81,
      "eval_loss": NaN,
      "eval_runtime": 15.9668,
      "eval_samples_per_second": 703.273,
      "eval_steps_per_second": 87.933,
      "step": 4560
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4565
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4570
    },
    {
      "epoch": 0.81,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4575
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4580
    },
    {
      "epoch": 0.82,
      "eval_loss": NaN,
      "eval_runtime": 15.8568,
      "eval_samples_per_second": 708.152,
      "eval_steps_per_second": 88.543,
      "step": 4580
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4585
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4590
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4595
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4600
    },
    {
      "epoch": 0.82,
      "eval_loss": NaN,
      "eval_runtime": 16.0081,
      "eval_samples_per_second": 701.457,
      "eval_steps_per_second": 87.706,
      "step": 4600
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4605
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4610
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4615
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4620
    },
    {
      "epoch": 0.82,
      "eval_loss": NaN,
      "eval_runtime": 15.831,
      "eval_samples_per_second": 709.307,
      "eval_steps_per_second": 88.687,
      "step": 4620
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4625
    },
    {
      "epoch": 0.82,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4630
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4635
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4640
    },
    {
      "epoch": 0.83,
      "eval_loss": NaN,
      "eval_runtime": 16.0151,
      "eval_samples_per_second": 701.151,
      "eval_steps_per_second": 87.667,
      "step": 4640
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4645
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4650
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4655
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4660
    },
    {
      "epoch": 0.83,
      "eval_loss": NaN,
      "eval_runtime": 15.8292,
      "eval_samples_per_second": 709.387,
      "eval_steps_per_second": 88.697,
      "step": 4660
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4665
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4670
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4675
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4680
    },
    {
      "epoch": 0.83,
      "eval_loss": NaN,
      "eval_runtime": 16.0434,
      "eval_samples_per_second": 699.915,
      "eval_steps_per_second": 87.513,
      "step": 4680
    },
    {
      "epoch": 0.83,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4685
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4690
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4695
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4700
    },
    {
      "epoch": 0.84,
      "eval_loss": NaN,
      "eval_runtime": 16.0164,
      "eval_samples_per_second": 701.093,
      "eval_steps_per_second": 87.66,
      "step": 4700
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4705
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4710
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4715
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4720
    },
    {
      "epoch": 0.84,
      "eval_loss": NaN,
      "eval_runtime": 15.8431,
      "eval_samples_per_second": 708.764,
      "eval_steps_per_second": 88.619,
      "step": 4720
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4725
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4730
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4735
    },
    {
      "epoch": 0.84,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4740
    },
    {
      "epoch": 0.84,
      "eval_loss": NaN,
      "eval_runtime": 15.9966,
      "eval_samples_per_second": 701.962,
      "eval_steps_per_second": 87.769,
      "step": 4740
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4745
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4750
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4755
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4760
    },
    {
      "epoch": 0.85,
      "eval_loss": NaN,
      "eval_runtime": 15.8163,
      "eval_samples_per_second": 709.963,
      "eval_steps_per_second": 88.769,
      "step": 4760
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4765
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4770
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4775
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4780
    },
    {
      "epoch": 0.85,
      "eval_loss": NaN,
      "eval_runtime": 16.0313,
      "eval_samples_per_second": 700.442,
      "eval_steps_per_second": 87.579,
      "step": 4780
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4785
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4790
    },
    {
      "epoch": 0.85,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4795
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4800
    },
    {
      "epoch": 0.86,
      "eval_loss": NaN,
      "eval_runtime": 15.855,
      "eval_samples_per_second": 708.23,
      "eval_steps_per_second": 88.552,
      "step": 4800
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4805
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4810
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4815
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4820
    },
    {
      "epoch": 0.86,
      "eval_loss": NaN,
      "eval_runtime": 16.0082,
      "eval_samples_per_second": 701.452,
      "eval_steps_per_second": 87.705,
      "step": 4820
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4825
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4830
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4835
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4840
    },
    {
      "epoch": 0.86,
      "eval_loss": NaN,
      "eval_runtime": 15.8735,
      "eval_samples_per_second": 707.404,
      "eval_steps_per_second": 88.449,
      "step": 4840
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 15.5593,
      "step": 4845
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4850
    },
    {
      "epoch": 0.86,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4855
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4860
    },
    {
      "epoch": 0.87,
      "eval_loss": NaN,
      "eval_runtime": 16.0208,
      "eval_samples_per_second": 700.901,
      "eval_steps_per_second": 87.636,
      "step": 4860
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4865
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4870
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4875
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4880
    },
    {
      "epoch": 0.87,
      "eval_loss": NaN,
      "eval_runtime": 15.9934,
      "eval_samples_per_second": 702.103,
      "eval_steps_per_second": 87.786,
      "step": 4880
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4885
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4890
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4895
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4900
    },
    {
      "epoch": 0.87,
      "eval_loss": NaN,
      "eval_runtime": 15.8402,
      "eval_samples_per_second": 708.892,
      "eval_steps_per_second": 88.635,
      "step": 4900
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4905
    },
    {
      "epoch": 0.87,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4910
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4915
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4920
    },
    {
      "epoch": 0.88,
      "eval_loss": NaN,
      "eval_runtime": 16.0089,
      "eval_samples_per_second": 701.421,
      "eval_steps_per_second": 87.701,
      "step": 4920
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4925
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4930
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4935
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4940
    },
    {
      "epoch": 0.88,
      "eval_loss": NaN,
      "eval_runtime": 15.8306,
      "eval_samples_per_second": 709.325,
      "eval_steps_per_second": 88.689,
      "step": 4940
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4945
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4950
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4955
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4960
    },
    {
      "epoch": 0.88,
      "eval_loss": NaN,
      "eval_runtime": 16.014,
      "eval_samples_per_second": 701.198,
      "eval_steps_per_second": 87.673,
      "step": 4960
    },
    {
      "epoch": 0.88,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4965
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4970
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4975
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4980
    },
    {
      "epoch": 0.89,
      "eval_loss": NaN,
      "eval_runtime": 15.8127,
      "eval_samples_per_second": 710.126,
      "eval_steps_per_second": 88.79,
      "step": 4980
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4985
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4990
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 4995
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5000
    },
    {
      "epoch": 0.89,
      "eval_loss": NaN,
      "eval_runtime": 15.8026,
      "eval_samples_per_second": 710.578,
      "eval_steps_per_second": 88.846,
      "step": 5000
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5005
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5010
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5015
    },
    {
      "epoch": 0.89,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5020
    },
    {
      "epoch": 0.89,
      "eval_loss": NaN,
      "eval_runtime": 16.0199,
      "eval_samples_per_second": 700.942,
      "eval_steps_per_second": 87.641,
      "step": 5020
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5025
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5030
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5035
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5040
    },
    {
      "epoch": 0.9,
      "eval_loss": NaN,
      "eval_runtime": 15.8069,
      "eval_samples_per_second": 710.386,
      "eval_steps_per_second": 88.822,
      "step": 5040
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5045
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5050
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5055
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5060
    },
    {
      "epoch": 0.9,
      "eval_loss": NaN,
      "eval_runtime": 16.0108,
      "eval_samples_per_second": 701.341,
      "eval_steps_per_second": 87.691,
      "step": 5060
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5065
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5070
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5075
    },
    {
      "epoch": 0.9,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5080
    },
    {
      "epoch": 0.9,
      "eval_loss": NaN,
      "eval_runtime": 15.8245,
      "eval_samples_per_second": 709.595,
      "eval_steps_per_second": 88.723,
      "step": 5080
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5085
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5090
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5095
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5100
    },
    {
      "epoch": 0.91,
      "eval_loss": NaN,
      "eval_runtime": 16.0096,
      "eval_samples_per_second": 701.39,
      "eval_steps_per_second": 87.697,
      "step": 5100
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5105
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5110
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5115
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5120
    },
    {
      "epoch": 0.91,
      "eval_loss": NaN,
      "eval_runtime": 15.7993,
      "eval_samples_per_second": 710.727,
      "eval_steps_per_second": 88.865,
      "step": 5120
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5125
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5130
    },
    {
      "epoch": 0.91,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5135
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5140
    },
    {
      "epoch": 0.92,
      "eval_loss": NaN,
      "eval_runtime": 16.0175,
      "eval_samples_per_second": 701.045,
      "eval_steps_per_second": 87.654,
      "step": 5140
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5145
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5150
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5155
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5160
    },
    {
      "epoch": 0.92,
      "eval_loss": NaN,
      "eval_runtime": 15.9876,
      "eval_samples_per_second": 702.358,
      "eval_steps_per_second": 87.818,
      "step": 5160
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5165
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5170
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5175
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5180
    },
    {
      "epoch": 0.92,
      "eval_loss": NaN,
      "eval_runtime": 15.8255,
      "eval_samples_per_second": 709.551,
      "eval_steps_per_second": 88.718,
      "step": 5180
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5185
    },
    {
      "epoch": 0.92,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5190
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5195
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5200
    },
    {
      "epoch": 0.93,
      "eval_loss": NaN,
      "eval_runtime": 16.05,
      "eval_samples_per_second": 699.626,
      "eval_steps_per_second": 87.477,
      "step": 5200
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5205
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5210
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5215
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5220
    },
    {
      "epoch": 0.93,
      "eval_loss": NaN,
      "eval_runtime": 15.8186,
      "eval_samples_per_second": 709.861,
      "eval_steps_per_second": 88.756,
      "step": 5220
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5225
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5230
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5235
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5240
    },
    {
      "epoch": 0.93,
      "eval_loss": NaN,
      "eval_runtime": 15.9941,
      "eval_samples_per_second": 702.072,
      "eval_steps_per_second": 87.782,
      "step": 5240
    },
    {
      "epoch": 0.93,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5245
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5250
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5255
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5260
    },
    {
      "epoch": 0.94,
      "eval_loss": NaN,
      "eval_runtime": 15.8168,
      "eval_samples_per_second": 709.941,
      "eval_steps_per_second": 88.766,
      "step": 5260
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5265
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5270
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5275
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5280
    },
    {
      "epoch": 0.94,
      "eval_loss": NaN,
      "eval_runtime": 16.013,
      "eval_samples_per_second": 701.243,
      "eval_steps_per_second": 87.679,
      "step": 5280
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5285
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5290
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5295
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5300
    },
    {
      "epoch": 0.94,
      "eval_loss": NaN,
      "eval_runtime": 15.8507,
      "eval_samples_per_second": 708.423,
      "eval_steps_per_second": 88.577,
      "step": 5300
    },
    {
      "epoch": 0.94,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5305
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5310
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5315
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5320
    },
    {
      "epoch": 0.95,
      "eval_loss": NaN,
      "eval_runtime": 16.0424,
      "eval_samples_per_second": 699.958,
      "eval_steps_per_second": 87.518,
      "step": 5320
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5325
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5330
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5335
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5340
    },
    {
      "epoch": 0.95,
      "eval_loss": NaN,
      "eval_runtime": 16.0395,
      "eval_samples_per_second": 700.085,
      "eval_steps_per_second": 87.534,
      "step": 5340
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5345
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5350
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5355
    },
    {
      "epoch": 0.95,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5360
    },
    {
      "epoch": 0.95,
      "eval_loss": NaN,
      "eval_runtime": 15.8197,
      "eval_samples_per_second": 709.81,
      "eval_steps_per_second": 88.75,
      "step": 5360
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5365
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5370
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5375
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5380
    },
    {
      "epoch": 0.96,
      "eval_loss": NaN,
      "eval_runtime": 16.0006,
      "eval_samples_per_second": 701.786,
      "eval_steps_per_second": 87.747,
      "step": 5380
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5385
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5390
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5395
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5400
    },
    {
      "epoch": 0.96,
      "eval_loss": NaN,
      "eval_runtime": 15.8249,
      "eval_samples_per_second": 709.579,
      "eval_steps_per_second": 88.721,
      "step": 5400
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5405
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5410
    },
    {
      "epoch": 0.96,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5415
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5420
    },
    {
      "epoch": 0.97,
      "eval_loss": NaN,
      "eval_runtime": 16.039,
      "eval_samples_per_second": 700.105,
      "eval_steps_per_second": 87.537,
      "step": 5420
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5425
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5430
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5435
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5440
    },
    {
      "epoch": 0.97,
      "eval_loss": NaN,
      "eval_runtime": 15.8222,
      "eval_samples_per_second": 709.698,
      "eval_steps_per_second": 88.736,
      "step": 5440
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5445
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5450
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5455
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5460
    },
    {
      "epoch": 0.97,
      "eval_loss": NaN,
      "eval_runtime": 16.0306,
      "eval_samples_per_second": 700.475,
      "eval_steps_per_second": 87.583,
      "step": 5460
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5465
    },
    {
      "epoch": 0.97,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5470
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5475
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5480
    },
    {
      "epoch": 0.98,
      "eval_loss": NaN,
      "eval_runtime": 15.8269,
      "eval_samples_per_second": 709.488,
      "eval_steps_per_second": 88.71,
      "step": 5480
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5485
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5490
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5495
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5500
    },
    {
      "epoch": 0.98,
      "eval_loss": NaN,
      "eval_runtime": 16.0331,
      "eval_samples_per_second": 700.365,
      "eval_steps_per_second": 87.569,
      "step": 5500
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5505
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5510
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5515
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5520
    },
    {
      "epoch": 0.98,
      "eval_loss": NaN,
      "eval_runtime": 16.0218,
      "eval_samples_per_second": 700.859,
      "eval_steps_per_second": 87.631,
      "step": 5520
    },
    {
      "epoch": 0.98,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5525
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5530
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5535
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5540
    },
    {
      "epoch": 0.99,
      "eval_loss": NaN,
      "eval_runtime": 15.8399,
      "eval_samples_per_second": 708.905,
      "eval_steps_per_second": 88.637,
      "step": 5540
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5545
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5550
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5555
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5560
    },
    {
      "epoch": 0.99,
      "eval_loss": NaN,
      "eval_runtime": 16.0312,
      "eval_samples_per_second": 700.447,
      "eval_steps_per_second": 87.579,
      "step": 5560
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5565
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5570
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5575
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5580
    },
    {
      "epoch": 0.99,
      "eval_loss": NaN,
      "eval_runtime": 15.8221,
      "eval_samples_per_second": 709.703,
      "eval_steps_per_second": 88.737,
      "step": 5580
    },
    {
      "epoch": 0.99,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5585
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5590
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5595
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 0.0003,
      "loss": 0.0,
      "step": 5600
    },
    {
      "epoch": 1.0,
      "eval_loss": NaN,
      "eval_runtime": 16.0034,
      "eval_samples_per_second": 701.664,
      "eval_steps_per_second": 87.731,
      "step": 5600
    }
  ],
  "logging_steps": 5,
  "max_steps": 5614,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 20,
  "total_flos": 1586951118913536.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}