{
  "best_metric": 0.5221843123435974,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 0.010703200256876806,
  "eval_steps": 25,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00021406400513753612,
      "grad_norm": 2.1280410289764404,
      "learning_rate": 5e-05,
      "loss": 1.2378,
      "step": 1
    },
    {
      "epoch": 0.00021406400513753612,
      "eval_loss": 2.5477378368377686,
      "eval_runtime": 413.401,
      "eval_samples_per_second": 76.127,
      "eval_steps_per_second": 9.516,
      "step": 1
    },
    {
      "epoch": 0.00042812801027507225,
      "grad_norm": 5.446371078491211,
      "learning_rate": 0.0001,
      "loss": 2.1703,
      "step": 2
    },
    {
      "epoch": 0.0006421920154126083,
      "grad_norm": 5.193450927734375,
      "learning_rate": 9.989294616193017e-05,
      "loss": 2.0541,
      "step": 3
    },
    {
      "epoch": 0.0008562560205501445,
      "grad_norm": 3.0847721099853516,
      "learning_rate": 9.957224306869053e-05,
      "loss": 1.5009,
      "step": 4
    },
    {
      "epoch": 0.0010703200256876805,
      "grad_norm": 2.1277782917022705,
      "learning_rate": 9.903926402016153e-05,
      "loss": 1.308,
      "step": 5
    },
    {
      "epoch": 0.0012843840308252167,
      "grad_norm": 1.6025841236114502,
      "learning_rate": 9.829629131445342e-05,
      "loss": 1.1981,
      "step": 6
    },
    {
      "epoch": 0.0014984480359627528,
      "grad_norm": 1.4696904420852661,
      "learning_rate": 9.73465064747553e-05,
      "loss": 1.1316,
      "step": 7
    },
    {
      "epoch": 0.001712512041100289,
      "grad_norm": 1.7169626951217651,
      "learning_rate": 9.619397662556435e-05,
      "loss": 1.165,
      "step": 8
    },
    {
      "epoch": 0.0019265760462378251,
      "grad_norm": 2.498195171356201,
      "learning_rate": 9.484363707663442e-05,
      "loss": 1.0288,
      "step": 9
    },
    {
      "epoch": 0.002140640051375361,
      "grad_norm": 2.7818024158477783,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.9007,
      "step": 10
    },
    {
      "epoch": 0.0023547040565128972,
      "grad_norm": 2.834784746170044,
      "learning_rate": 9.157348061512727e-05,
      "loss": 0.9707,
      "step": 11
    },
    {
      "epoch": 0.0025687680616504334,
      "grad_norm": 3.190276861190796,
      "learning_rate": 8.966766701456177e-05,
      "loss": 0.9883,
      "step": 12
    },
    {
      "epoch": 0.0027828320667879695,
      "grad_norm": 1.3005812168121338,
      "learning_rate": 8.759199037394887e-05,
      "loss": 0.8241,
      "step": 13
    },
    {
      "epoch": 0.0029968960719255057,
      "grad_norm": 1.3205229043960571,
      "learning_rate": 8.535533905932738e-05,
      "loss": 0.7332,
      "step": 14
    },
    {
      "epoch": 0.003210960077063042,
      "grad_norm": 1.4399586915969849,
      "learning_rate": 8.296729075500344e-05,
      "loss": 0.7103,
      "step": 15
    },
    {
      "epoch": 0.003425024082200578,
      "grad_norm": 1.0888653993606567,
      "learning_rate": 8.043807145043604e-05,
      "loss": 0.5613,
      "step": 16
    },
    {
      "epoch": 0.003639088087338114,
      "grad_norm": 0.8194840550422668,
      "learning_rate": 7.777851165098012e-05,
      "loss": 0.7431,
      "step": 17
    },
    {
      "epoch": 0.0038531520924756503,
      "grad_norm": 0.7711243033409119,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.9554,
      "step": 18
    },
    {
      "epoch": 0.004067216097613186,
      "grad_norm": 0.8394802808761597,
      "learning_rate": 7.211443451095007e-05,
      "loss": 0.9062,
      "step": 19
    },
    {
      "epoch": 0.004281280102750722,
      "grad_norm": 1.0255515575408936,
      "learning_rate": 6.91341716182545e-05,
      "loss": 0.774,
      "step": 20
    },
    {
      "epoch": 0.004495344107888258,
      "grad_norm": 1.1758233308792114,
      "learning_rate": 6.607197326515808e-05,
      "loss": 0.6682,
      "step": 21
    },
    {
      "epoch": 0.0047094081130257944,
      "grad_norm": 1.6106032133102417,
      "learning_rate": 6.294095225512603e-05,
      "loss": 0.5779,
      "step": 22
    },
    {
      "epoch": 0.004923472118163331,
      "grad_norm": 1.3625173568725586,
      "learning_rate": 5.9754516100806423e-05,
      "loss": 0.467,
      "step": 23
    },
    {
      "epoch": 0.005137536123300867,
      "grad_norm": 1.5049083232879639,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 0.529,
      "step": 24
    },
    {
      "epoch": 0.005351600128438403,
      "grad_norm": 3.4724557399749756,
      "learning_rate": 5.327015646150716e-05,
      "loss": 0.6292,
      "step": 25
    },
    {
      "epoch": 0.005351600128438403,
      "eval_loss": 0.5837231874465942,
      "eval_runtime": 413.5777,
      "eval_samples_per_second": 76.095,
      "eval_steps_per_second": 9.512,
      "step": 25
    },
    {
      "epoch": 0.005565664133575939,
      "grad_norm": 0.640296220779419,
      "learning_rate": 5e-05,
      "loss": 0.7466,
      "step": 26
    },
    {
      "epoch": 0.005779728138713475,
      "grad_norm": 0.7037237882614136,
      "learning_rate": 4.6729843538492847e-05,
      "loss": 0.7036,
      "step": 27
    },
    {
      "epoch": 0.005993792143851011,
      "grad_norm": 0.6568624973297119,
      "learning_rate": 4.347369038899744e-05,
      "loss": 0.4916,
      "step": 28
    },
    {
      "epoch": 0.0062078561489885475,
      "grad_norm": 0.7200050354003906,
      "learning_rate": 4.0245483899193595e-05,
      "loss": 0.4905,
      "step": 29
    },
    {
      "epoch": 0.006421920154126084,
      "grad_norm": 0.7330017685890198,
      "learning_rate": 3.705904774487396e-05,
      "loss": 0.7688,
      "step": 30
    },
    {
      "epoch": 0.00663598415926362,
      "grad_norm": 0.7159467935562134,
      "learning_rate": 3.392802673484193e-05,
      "loss": 0.8877,
      "step": 31
    },
    {
      "epoch": 0.006850048164401156,
      "grad_norm": 0.7296081781387329,
      "learning_rate": 3.086582838174551e-05,
      "loss": 0.7366,
      "step": 32
    },
    {
      "epoch": 0.007064112169538692,
      "grad_norm": 0.7816036343574524,
      "learning_rate": 2.7885565489049946e-05,
      "loss": 0.5173,
      "step": 33
    },
    {
      "epoch": 0.007278176174676228,
      "grad_norm": 1.1695483922958374,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.5228,
      "step": 34
    },
    {
      "epoch": 0.007492240179813764,
      "grad_norm": 0.8715795874595642,
      "learning_rate": 2.2221488349019903e-05,
      "loss": 0.3878,
      "step": 35
    },
    {
      "epoch": 0.0077063041849513006,
      "grad_norm": 1.052472472190857,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 0.3641,
      "step": 36
    },
    {
      "epoch": 0.007920368190088836,
      "grad_norm": 1.44721519947052,
      "learning_rate": 1.703270924499656e-05,
      "loss": 0.4555,
      "step": 37
    },
    {
      "epoch": 0.008134432195226372,
      "grad_norm": 0.487374484539032,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 0.6312,
      "step": 38
    },
    {
      "epoch": 0.008348496200363908,
      "grad_norm": 0.5912758111953735,
      "learning_rate": 1.2408009626051137e-05,
      "loss": 0.6912,
      "step": 39
    },
    {
      "epoch": 0.008562560205501444,
      "grad_norm": 0.5722944736480713,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 0.4945,
      "step": 40
    },
    {
      "epoch": 0.00877662421063898,
      "grad_norm": 0.6678009629249573,
      "learning_rate": 8.426519384872733e-06,
      "loss": 0.5147,
      "step": 41
    },
    {
      "epoch": 0.008990688215776517,
      "grad_norm": 0.614799439907074,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.6939,
      "step": 42
    },
    {
      "epoch": 0.009204752220914053,
      "grad_norm": 0.6046878099441528,
      "learning_rate": 5.156362923365588e-06,
      "loss": 0.869,
      "step": 43
    },
    {
      "epoch": 0.009418816226051589,
      "grad_norm": 0.6420084238052368,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 0.8111,
      "step": 44
    },
    {
      "epoch": 0.009632880231189125,
      "grad_norm": 0.6718961596488953,
      "learning_rate": 2.653493525244721e-06,
      "loss": 0.6321,
      "step": 45
    },
    {
      "epoch": 0.009846944236326661,
      "grad_norm": 0.753416121006012,
      "learning_rate": 1.70370868554659e-06,
      "loss": 0.5342,
      "step": 46
    },
    {
      "epoch": 0.010061008241464197,
      "grad_norm": 0.8455974459648132,
      "learning_rate": 9.607359798384785e-07,
      "loss": 0.4483,
      "step": 47
    },
    {
      "epoch": 0.010275072246601734,
      "grad_norm": 0.9669787883758545,
      "learning_rate": 4.277569313094809e-07,
      "loss": 0.2876,
      "step": 48
    },
    {
      "epoch": 0.01048913625173927,
      "grad_norm": 0.9800657629966736,
      "learning_rate": 1.0705383806982606e-07,
      "loss": 0.3691,
      "step": 49
    },
    {
      "epoch": 0.010703200256876806,
      "grad_norm": 1.7702556848526,
      "learning_rate": 0.0,
      "loss": 0.3645,
      "step": 50
    },
    {
      "epoch": 0.010703200256876806,
      "eval_loss": 0.5221843123435974,
      "eval_runtime": 413.6901,
      "eval_samples_per_second": 76.074,
      "eval_steps_per_second": 9.51,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5899604877626573e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}