{
  "best_metric": 2.449342727661133,
  "best_model_checkpoint": "miner_id_24/checkpoint-100",
  "epoch": 0.2513154794628132,
  "eval_steps": 25,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0025131547946281316,
      "grad_norm": 1.0929367542266846,
      "learning_rate": 2e-05,
      "loss": 2.3489,
      "step": 1
    },
    {
      "epoch": 0.0025131547946281316,
      "eval_loss": 3.1249332427978516,
      "eval_runtime": 0.4962,
      "eval_samples_per_second": 100.764,
      "eval_steps_per_second": 26.199,
      "step": 1
    },
    {
      "epoch": 0.005026309589256263,
      "grad_norm": 1.4732129573822021,
      "learning_rate": 4e-05,
      "loss": 2.6343,
      "step": 2
    },
    {
      "epoch": 0.007539464383884395,
      "grad_norm": 1.7356120347976685,
      "learning_rate": 6e-05,
      "loss": 2.7236,
      "step": 3
    },
    {
      "epoch": 0.010052619178512526,
      "grad_norm": 1.3762286901474,
      "learning_rate": 8e-05,
      "loss": 2.5842,
      "step": 4
    },
    {
      "epoch": 0.012565773973140659,
      "grad_norm": 1.2538176774978638,
      "learning_rate": 0.0001,
      "loss": 2.5686,
      "step": 5
    },
    {
      "epoch": 0.01507892876776879,
      "grad_norm": 1.4349110126495361,
      "learning_rate": 9.997539658034168e-05,
      "loss": 2.4879,
      "step": 6
    },
    {
      "epoch": 0.017592083562396922,
      "grad_norm": 1.4155186414718628,
      "learning_rate": 9.990161322484486e-05,
      "loss": 2.4816,
      "step": 7
    },
    {
      "epoch": 0.020105238357025053,
      "grad_norm": 1.4512038230895996,
      "learning_rate": 9.977873061452552e-05,
      "loss": 2.2365,
      "step": 8
    },
    {
      "epoch": 0.022618393151653184,
      "grad_norm": 1.660366177558899,
      "learning_rate": 9.96068831197139e-05,
      "loss": 2.273,
      "step": 9
    },
    {
      "epoch": 0.025131547946281318,
      "grad_norm": 1.8467625379562378,
      "learning_rate": 9.938625865312251e-05,
      "loss": 2.1754,
      "step": 10
    },
    {
      "epoch": 0.02764470274090945,
      "grad_norm": 2.2112269401550293,
      "learning_rate": 9.911709846436641e-05,
      "loss": 2.0615,
      "step": 11
    },
    {
      "epoch": 0.03015785753553758,
      "grad_norm": 3.3605430126190186,
      "learning_rate": 9.879969687616027e-05,
      "loss": 2.4934,
      "step": 12
    },
    {
      "epoch": 0.032671012330165713,
      "grad_norm": 1.4031548500061035,
      "learning_rate": 9.84344009624807e-05,
      "loss": 2.3158,
      "step": 13
    },
    {
      "epoch": 0.035184167124793844,
      "grad_norm": 1.6341323852539062,
      "learning_rate": 9.80216101690461e-05,
      "loss": 2.5176,
      "step": 14
    },
    {
      "epoch": 0.037697321919421975,
      "grad_norm": 1.7876783609390259,
      "learning_rate": 9.756177587652856e-05,
      "loss": 2.7131,
      "step": 15
    },
    {
      "epoch": 0.040210476714050106,
      "grad_norm": 1.3652795553207397,
      "learning_rate": 9.705540090697575e-05,
      "loss": 2.4719,
      "step": 16
    },
    {
      "epoch": 0.042723631508678236,
      "grad_norm": 0.9964555501937866,
      "learning_rate": 9.650303897398232e-05,
      "loss": 2.4092,
      "step": 17
    },
    {
      "epoch": 0.04523678630330637,
      "grad_norm": 0.8907908201217651,
      "learning_rate": 9.590529407721231e-05,
      "loss": 2.3111,
      "step": 18
    },
    {
      "epoch": 0.0477499410979345,
      "grad_norm": 1.037772536277771,
      "learning_rate": 9.526281984193436e-05,
      "loss": 2.3233,
      "step": 19
    },
    {
      "epoch": 0.050263095892562636,
      "grad_norm": 1.3160345554351807,
      "learning_rate": 9.4576318804292e-05,
      "loss": 2.1657,
      "step": 20
    },
    {
      "epoch": 0.052776250687190766,
      "grad_norm": 1.6872073411941528,
      "learning_rate": 9.384654164309083e-05,
      "loss": 2.1899,
      "step": 21
    },
    {
      "epoch": 0.0552894054818189,
      "grad_norm": 2.2331464290618896,
      "learning_rate": 9.30742863589421e-05,
      "loss": 2.0501,
      "step": 22
    },
    {
      "epoch": 0.05780256027644703,
      "grad_norm": 2.404775381088257,
      "learning_rate": 9.226039740166091e-05,
      "loss": 2.2985,
      "step": 23
    },
    {
      "epoch": 0.06031571507107516,
      "grad_norm": 2.7902681827545166,
      "learning_rate": 9.140576474687264e-05,
      "loss": 2.2511,
      "step": 24
    },
    {
      "epoch": 0.0628288698657033,
      "grad_norm": 4.491021156311035,
      "learning_rate": 9.051132292283771e-05,
      "loss": 2.6869,
      "step": 25
    },
    {
      "epoch": 0.0628288698657033,
      "eval_loss": 2.518052816390991,
      "eval_runtime": 0.4953,
      "eval_samples_per_second": 100.953,
      "eval_steps_per_second": 26.248,
      "step": 25
    },
    {
      "epoch": 0.06534202466033143,
      "grad_norm": 0.6433826684951782,
      "learning_rate": 8.957804998855866e-05,
      "loss": 2.2469,
      "step": 26
    },
    {
      "epoch": 0.06785517945495956,
      "grad_norm": 0.9086337089538574,
      "learning_rate": 8.860696646428693e-05,
      "loss": 2.4198,
      "step": 27
    },
    {
      "epoch": 0.07036833424958769,
      "grad_norm": 0.9185450077056885,
      "learning_rate": 8.759913421559902e-05,
      "loss": 2.3398,
      "step": 28
    },
    {
      "epoch": 0.07288148904421582,
      "grad_norm": 1.0238780975341797,
      "learning_rate": 8.655565529226198e-05,
      "loss": 2.4373,
      "step": 29
    },
    {
      "epoch": 0.07539464383884395,
      "grad_norm": 0.9636964797973633,
      "learning_rate": 8.547767072315835e-05,
      "loss": 2.3228,
      "step": 30
    },
    {
      "epoch": 0.07790779863347208,
      "grad_norm": 0.9109904766082764,
      "learning_rate": 8.436635926858759e-05,
      "loss": 2.4109,
      "step": 31
    },
    {
      "epoch": 0.08042095342810021,
      "grad_norm": 0.9586890935897827,
      "learning_rate": 8.322293613130917e-05,
      "loss": 2.3028,
      "step": 32
    },
    {
      "epoch": 0.08293410822272834,
      "grad_norm": 1.157922625541687,
      "learning_rate": 8.204865162773613e-05,
      "loss": 2.0158,
      "step": 33
    },
    {
      "epoch": 0.08544726301735647,
      "grad_norm": 1.5717793703079224,
      "learning_rate": 8.084478982073247e-05,
      "loss": 1.9784,
      "step": 34
    },
    {
      "epoch": 0.0879604178119846,
      "grad_norm": 1.6651760339736938,
      "learning_rate": 7.961266711550922e-05,
      "loss": 2.1219,
      "step": 35
    },
    {
      "epoch": 0.09047357260661273,
      "grad_norm": 1.7813295125961304,
      "learning_rate": 7.835363082015468e-05,
      "loss": 2.0478,
      "step": 36
    },
    {
      "epoch": 0.09298672740124087,
      "grad_norm": 2.7225992679595947,
      "learning_rate": 7.706905767237288e-05,
      "loss": 2.2827,
      "step": 37
    },
    {
      "epoch": 0.095499882195869,
      "grad_norm": 0.5702327489852905,
      "learning_rate": 7.576035233404096e-05,
      "loss": 2.1404,
      "step": 38
    },
    {
      "epoch": 0.09801303699049713,
      "grad_norm": 0.5413011908531189,
      "learning_rate": 7.442894585523218e-05,
      "loss": 2.4454,
      "step": 39
    },
    {
      "epoch": 0.10052619178512527,
      "grad_norm": 0.5633378028869629,
      "learning_rate": 7.307629410938363e-05,
      "loss": 2.3851,
      "step": 40
    },
    {
      "epoch": 0.1030393465797534,
      "grad_norm": 0.5985109806060791,
      "learning_rate": 7.170387620131993e-05,
      "loss": 2.5329,
      "step": 41
    },
    {
      "epoch": 0.10555250137438153,
      "grad_norm": 0.6416625380516052,
      "learning_rate": 7.031319284987394e-05,
      "loss": 2.4414,
      "step": 42
    },
    {
      "epoch": 0.10806565616900966,
      "grad_norm": 0.7013673782348633,
      "learning_rate": 6.890576474687263e-05,
      "loss": 2.3169,
      "step": 43
    },
    {
      "epoch": 0.1105788109636378,
      "grad_norm": 0.8939890265464783,
      "learning_rate": 6.7483130894283e-05,
      "loss": 2.2181,
      "step": 44
    },
    {
      "epoch": 0.11309196575826592,
      "grad_norm": 1.035797119140625,
      "learning_rate": 6.604684692133597e-05,
      "loss": 2.2135,
      "step": 45
    },
    {
      "epoch": 0.11560512055289406,
      "grad_norm": 1.2433217763900757,
      "learning_rate": 6.459848338346861e-05,
      "loss": 2.0049,
      "step": 46
    },
    {
      "epoch": 0.11811827534752219,
      "grad_norm": 1.5708237886428833,
      "learning_rate": 6.313962404494496e-05,
      "loss": 1.9274,
      "step": 47
    },
    {
      "epoch": 0.12063143014215032,
      "grad_norm": 1.825859546661377,
      "learning_rate": 6.167186414703289e-05,
      "loss": 1.9234,
      "step": 48
    },
    {
      "epoch": 0.12314458493677845,
      "grad_norm": 2.2561802864074707,
      "learning_rate": 6.019680866363139e-05,
      "loss": 1.9949,
      "step": 49
    },
    {
      "epoch": 0.1256577397314066,
      "grad_norm": 4.1580634117126465,
      "learning_rate": 5.8716070546254966e-05,
      "loss": 2.2975,
      "step": 50
    },
    {
      "epoch": 0.1256577397314066,
      "eval_loss": 2.4841301441192627,
      "eval_runtime": 0.4938,
      "eval_samples_per_second": 101.252,
      "eval_steps_per_second": 26.326,
      "step": 50
    },
    {
      "epoch": 0.12817089452603472,
      "grad_norm": 0.5594409704208374,
      "learning_rate": 5.7231268960295e-05,
      "loss": 2.3927,
      "step": 51
    },
    {
      "epoch": 0.13068404932066285,
      "grad_norm": 0.6769348382949829,
      "learning_rate": 5.574402751448614e-05,
      "loss": 2.318,
      "step": 52
    },
    {
      "epoch": 0.13319720411529098,
      "grad_norm": 0.7553927302360535,
      "learning_rate": 5.425597248551387e-05,
      "loss": 2.5104,
      "step": 53
    },
    {
      "epoch": 0.13571035890991912,
      "grad_norm": 0.7369813919067383,
      "learning_rate": 5.2768731039705e-05,
      "loss": 2.3913,
      "step": 54
    },
    {
      "epoch": 0.13822351370454725,
      "grad_norm": 0.7428474426269531,
      "learning_rate": 5.128392945374505e-05,
      "loss": 2.4537,
      "step": 55
    },
    {
      "epoch": 0.14073666849917538,
      "grad_norm": 0.7864194512367249,
      "learning_rate": 4.980319133636863e-05,
      "loss": 2.3377,
      "step": 56
    },
    {
      "epoch": 0.1432498232938035,
      "grad_norm": 0.8992936015129089,
      "learning_rate": 4.83281358529671e-05,
      "loss": 2.2554,
      "step": 57
    },
    {
      "epoch": 0.14576297808843164,
      "grad_norm": 1.0288574695587158,
      "learning_rate": 4.686037595505507e-05,
      "loss": 2.1617,
      "step": 58
    },
    {
      "epoch": 0.14827613288305977,
      "grad_norm": 1.2761625051498413,
      "learning_rate": 4.54015166165314e-05,
      "loss": 1.9988,
      "step": 59
    },
    {
      "epoch": 0.1507892876776879,
      "grad_norm": 1.449772596359253,
      "learning_rate": 4.395315307866405e-05,
      "loss": 1.8252,
      "step": 60
    },
    {
      "epoch": 0.15330244247231603,
      "grad_norm": 1.8905854225158691,
      "learning_rate": 4.2516869105717004e-05,
      "loss": 2.0338,
      "step": 61
    },
    {
      "epoch": 0.15581559726694416,
      "grad_norm": 2.4579226970672607,
      "learning_rate": 4.109423525312738e-05,
      "loss": 2.2487,
      "step": 62
    },
    {
      "epoch": 0.1583287520615723,
      "grad_norm": 0.47898533940315247,
      "learning_rate": 3.968680715012606e-05,
      "loss": 2.1087,
      "step": 63
    },
    {
      "epoch": 0.16084190685620042,
      "grad_norm": 0.46107664704322815,
      "learning_rate": 3.829612379868006e-05,
      "loss": 2.3391,
      "step": 64
    },
    {
      "epoch": 0.16335506165082855,
      "grad_norm": 0.513205885887146,
      "learning_rate": 3.692370589061639e-05,
      "loss": 2.4247,
      "step": 65
    },
    {
      "epoch": 0.16586821644545668,
      "grad_norm": 0.5810449123382568,
      "learning_rate": 3.557105414476782e-05,
      "loss": 2.2982,
      "step": 66
    },
    {
      "epoch": 0.16838137124008482,
      "grad_norm": 0.6125463247299194,
      "learning_rate": 3.423964766595906e-05,
      "loss": 2.3738,
      "step": 67
    },
    {
      "epoch": 0.17089452603471295,
      "grad_norm": 0.6801304817199707,
      "learning_rate": 3.293094232762715e-05,
      "loss": 2.3907,
      "step": 68
    },
    {
      "epoch": 0.17340768082934108,
      "grad_norm": 0.8226563334465027,
      "learning_rate": 3.164636917984534e-05,
      "loss": 2.2978,
      "step": 69
    },
    {
      "epoch": 0.1759208356239692,
      "grad_norm": 0.9711491465568542,
      "learning_rate": 3.0387332884490805e-05,
      "loss": 2.0633,
      "step": 70
    },
    {
      "epoch": 0.17843399041859734,
      "grad_norm": 1.1738626956939697,
      "learning_rate": 2.9155210179267546e-05,
      "loss": 1.7545,
      "step": 71
    },
    {
      "epoch": 0.18094714521322547,
      "grad_norm": 1.4384204149246216,
      "learning_rate": 2.7951348372263875e-05,
      "loss": 1.9321,
      "step": 72
    },
    {
      "epoch": 0.1834603000078536,
      "grad_norm": 1.7170965671539307,
      "learning_rate": 2.677706386869083e-05,
      "loss": 1.7755,
      "step": 73
    },
    {
      "epoch": 0.18597345480248173,
      "grad_norm": 2.3672609329223633,
      "learning_rate": 2.5633640731412412e-05,
      "loss": 2.2209,
      "step": 74
    },
    {
      "epoch": 0.18848660959710986,
      "grad_norm": 3.366680145263672,
      "learning_rate": 2.4522329276841663e-05,
      "loss": 2.1121,
      "step": 75
    },
    {
      "epoch": 0.18848660959710986,
      "eval_loss": 2.4556682109832764,
      "eval_runtime": 0.4904,
      "eval_samples_per_second": 101.954,
      "eval_steps_per_second": 26.508,
      "step": 75
    },
    {
      "epoch": 0.190999764391738,
      "grad_norm": 0.4187500774860382,
      "learning_rate": 2.3444344707738015e-05,
      "loss": 2.1718,
      "step": 76
    },
    {
      "epoch": 0.19351291918636612,
      "grad_norm": 0.5181268453598022,
      "learning_rate": 2.2400865784401e-05,
      "loss": 2.3308,
      "step": 77
    },
    {
      "epoch": 0.19602607398099425,
      "grad_norm": 0.5645845532417297,
      "learning_rate": 2.1393033535713093e-05,
      "loss": 2.4217,
      "step": 78
    },
    {
      "epoch": 0.1985392287756224,
      "grad_norm": 0.6099296808242798,
      "learning_rate": 2.0421950011441354e-05,
      "loss": 2.4357,
      "step": 79
    },
    {
      "epoch": 0.20105238357025054,
      "grad_norm": 0.6792852282524109,
      "learning_rate": 1.9488677077162295e-05,
      "loss": 2.4865,
      "step": 80
    },
    {
      "epoch": 0.20356553836487867,
      "grad_norm": 0.8139048218727112,
      "learning_rate": 1.8594235253127375e-05,
      "loss": 2.3316,
      "step": 81
    },
    {
      "epoch": 0.2060786931595068,
      "grad_norm": 0.9266293048858643,
      "learning_rate": 1.77396025983391e-05,
      "loss": 2.1538,
      "step": 82
    },
    {
      "epoch": 0.20859184795413493,
      "grad_norm": 1.1824438571929932,
      "learning_rate": 1.6925713641057904e-05,
      "loss": 1.9654,
      "step": 83
    },
    {
      "epoch": 0.21110500274876307,
      "grad_norm": 1.414060115814209,
      "learning_rate": 1.6153458356909176e-05,
      "loss": 1.8735,
      "step": 84
    },
    {
      "epoch": 0.2136181575433912,
      "grad_norm": 1.4279944896697998,
      "learning_rate": 1.5423681195707997e-05,
      "loss": 2.0119,
      "step": 85
    },
    {
      "epoch": 0.21613131233801933,
      "grad_norm": 1.805587887763977,
      "learning_rate": 1.4737180158065644e-05,
      "loss": 2.0674,
      "step": 86
    },
    {
      "epoch": 0.21864446713264746,
      "grad_norm": 2.5661513805389404,
      "learning_rate": 1.4094705922787687e-05,
      "loss": 1.9789,
      "step": 87
    },
    {
      "epoch": 0.2211576219272756,
      "grad_norm": 0.5212414860725403,
      "learning_rate": 1.3496961026017687e-05,
      "loss": 2.2841,
      "step": 88
    },
    {
      "epoch": 0.22367077672190372,
      "grad_norm": 0.488828182220459,
      "learning_rate": 1.2944599093024267e-05,
      "loss": 2.3429,
      "step": 89
    },
    {
      "epoch": 0.22618393151653185,
      "grad_norm": 0.5501030683517456,
      "learning_rate": 1.2438224123471442e-05,
      "loss": 2.411,
      "step": 90
    },
    {
      "epoch": 0.22869708631115998,
      "grad_norm": 0.583366870880127,
      "learning_rate": 1.1978389830953907e-05,
      "loss": 2.5116,
      "step": 91
    },
    {
      "epoch": 0.2312102411057881,
      "grad_norm": 0.6493121385574341,
      "learning_rate": 1.1565599037519316e-05,
      "loss": 2.4504,
      "step": 92
    },
    {
      "epoch": 0.23372339590041624,
      "grad_norm": 0.6837763786315918,
      "learning_rate": 1.1200303123839742e-05,
      "loss": 2.3319,
      "step": 93
    },
    {
      "epoch": 0.23623655069504437,
      "grad_norm": 0.7774744629859924,
      "learning_rate": 1.088290153563358e-05,
      "loss": 2.2427,
      "step": 94
    },
    {
      "epoch": 0.2387497054896725,
      "grad_norm": 0.9435072541236877,
      "learning_rate": 1.0613741346877497e-05,
      "loss": 2.1552,
      "step": 95
    },
    {
      "epoch": 0.24126286028430063,
      "grad_norm": 1.210602879524231,
      "learning_rate": 1.0393116880286118e-05,
      "loss": 2.0212,
      "step": 96
    },
    {
      "epoch": 0.24377601507892876,
      "grad_norm": 1.3826433420181274,
      "learning_rate": 1.0221269385474488e-05,
      "loss": 1.6965,
      "step": 97
    },
    {
      "epoch": 0.2462891698735569,
      "grad_norm": 1.6164907217025757,
      "learning_rate": 1.0098386775155147e-05,
      "loss": 1.9586,
      "step": 98
    },
    {
      "epoch": 0.24880232466818503,
      "grad_norm": 2.060786485671997,
      "learning_rate": 1.0024603419658329e-05,
      "loss": 2.0491,
      "step": 99
    },
    {
      "epoch": 0.2513154794628132,
      "grad_norm": 3.6126015186309814,
      "learning_rate": 1e-05,
      "loss": 2.223,
      "step": 100
    },
    {
      "epoch": 0.2513154794628132,
      "eval_loss": 2.449342727661133,
      "eval_runtime": 0.4926,
      "eval_samples_per_second": 101.509,
      "eval_steps_per_second": 26.392,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.90601825288192e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}