{
  "best_metric": 0.202864408493042,
  "best_model_checkpoint": "miner_id_24/checkpoint-500",
  "epoch": 0.6169031462060457,
  "eval_steps": 100,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0012338062924120913,
      "grad_norm": 0.06300727277994156,
      "learning_rate": 5e-06,
      "loss": 0.2621,
      "step": 1
    },
    {
      "epoch": 0.0012338062924120913,
      "eval_loss": 0.3990664482116699,
      "eval_runtime": 40.666,
      "eval_samples_per_second": 33.566,
      "eval_steps_per_second": 8.41,
      "step": 1
    },
    {
      "epoch": 0.0024676125848241827,
      "grad_norm": 0.06431697309017181,
      "learning_rate": 1e-05,
      "loss": 0.2649,
      "step": 2
    },
    {
      "epoch": 0.003701418877236274,
      "grad_norm": 0.071476511657238,
      "learning_rate": 1.5e-05,
      "loss": 0.2822,
      "step": 3
    },
    {
      "epoch": 0.004935225169648365,
      "grad_norm": 0.07403897494077682,
      "learning_rate": 2e-05,
      "loss": 0.3137,
      "step": 4
    },
    {
      "epoch": 0.006169031462060457,
      "grad_norm": 0.06954899430274963,
      "learning_rate": 2.5e-05,
      "loss": 0.2783,
      "step": 5
    },
    {
      "epoch": 0.007402837754472548,
      "grad_norm": 0.07863400131464005,
      "learning_rate": 3e-05,
      "loss": 0.2934,
      "step": 6
    },
    {
      "epoch": 0.00863664404688464,
      "grad_norm": 0.08087705075740814,
      "learning_rate": 3.5e-05,
      "loss": 0.315,
      "step": 7
    },
    {
      "epoch": 0.00987045033929673,
      "grad_norm": 0.08419152349233627,
      "learning_rate": 4e-05,
      "loss": 0.314,
      "step": 8
    },
    {
      "epoch": 0.011104256631708822,
      "grad_norm": 0.08694226294755936,
      "learning_rate": 4.5e-05,
      "loss": 0.3253,
      "step": 9
    },
    {
      "epoch": 0.012338062924120914,
      "grad_norm": 0.08587450534105301,
      "learning_rate": 5e-05,
      "loss": 0.3145,
      "step": 10
    },
    {
      "epoch": 0.013571869216533004,
      "grad_norm": 0.08442708104848862,
      "learning_rate": 5.500000000000001e-05,
      "loss": 0.3033,
      "step": 11
    },
    {
      "epoch": 0.014805675508945095,
      "grad_norm": 0.08887922018766403,
      "learning_rate": 6e-05,
      "loss": 0.3291,
      "step": 12
    },
    {
      "epoch": 0.016039481801357187,
      "grad_norm": 0.09014910459518433,
      "learning_rate": 6.500000000000001e-05,
      "loss": 0.3332,
      "step": 13
    },
    {
      "epoch": 0.01727328809376928,
      "grad_norm": 0.08465058356523514,
      "learning_rate": 7e-05,
      "loss": 0.2952,
      "step": 14
    },
    {
      "epoch": 0.01850709438618137,
      "grad_norm": 0.08886046707630157,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.3157,
      "step": 15
    },
    {
      "epoch": 0.01974090067859346,
      "grad_norm": 0.10608627647161484,
      "learning_rate": 8e-05,
      "loss": 0.3153,
      "step": 16
    },
    {
      "epoch": 0.020974706971005553,
      "grad_norm": 0.09496088325977325,
      "learning_rate": 8.5e-05,
      "loss": 0.287,
      "step": 17
    },
    {
      "epoch": 0.022208513263417645,
      "grad_norm": 0.10657252371311188,
      "learning_rate": 9e-05,
      "loss": 0.2771,
      "step": 18
    },
    {
      "epoch": 0.023442319555829736,
      "grad_norm": 0.1129007413983345,
      "learning_rate": 9.5e-05,
      "loss": 0.3212,
      "step": 19
    },
    {
      "epoch": 0.024676125848241828,
      "grad_norm": 0.09054639935493469,
      "learning_rate": 0.0001,
      "loss": 0.2912,
      "step": 20
    },
    {
      "epoch": 0.025909932140653916,
      "grad_norm": 0.09441693127155304,
      "learning_rate": 9.999892908320647e-05,
      "loss": 0.2661,
      "step": 21
    },
    {
      "epoch": 0.027143738433066007,
      "grad_norm": 0.08749635517597198,
      "learning_rate": 9.999571637870036e-05,
      "loss": 0.2388,
      "step": 22
    },
    {
      "epoch": 0.0283775447254781,
      "grad_norm": 0.10474304854869843,
      "learning_rate": 9.999036202410325e-05,
      "loss": 0.2856,
      "step": 23
    },
    {
      "epoch": 0.02961135101789019,
      "grad_norm": 0.10669045895338058,
      "learning_rate": 9.998286624877786e-05,
      "loss": 0.2763,
      "step": 24
    },
    {
      "epoch": 0.030845157310302282,
      "grad_norm": 0.11263665556907654,
      "learning_rate": 9.997322937381829e-05,
      "loss": 0.2852,
      "step": 25
    },
    {
      "epoch": 0.032078963602714373,
      "grad_norm": 0.11915434151887894,
      "learning_rate": 9.996145181203615e-05,
      "loss": 0.2584,
      "step": 26
    },
    {
      "epoch": 0.033312769895126465,
      "grad_norm": 0.11050970107316971,
      "learning_rate": 9.994753406794301e-05,
      "loss": 0.298,
      "step": 27
    },
    {
      "epoch": 0.03454657618753856,
      "grad_norm": 0.10253261029720306,
      "learning_rate": 9.99314767377287e-05,
      "loss": 0.2568,
      "step": 28
    },
    {
      "epoch": 0.03578038247995065,
      "grad_norm": 0.13352280855178833,
      "learning_rate": 9.991328050923581e-05,
      "loss": 0.3247,
      "step": 29
    },
    {
      "epoch": 0.03701418877236274,
      "grad_norm": 0.10626060515642166,
      "learning_rate": 9.989294616193017e-05,
      "loss": 0.2654,
      "step": 30
    },
    {
      "epoch": 0.03824799506477483,
      "grad_norm": 0.1099902018904686,
      "learning_rate": 9.98704745668676e-05,
      "loss": 0.2452,
      "step": 31
    },
    {
      "epoch": 0.03948180135718692,
      "grad_norm": 0.11533883213996887,
      "learning_rate": 9.98458666866564e-05,
      "loss": 0.261,
      "step": 32
    },
    {
      "epoch": 0.040715607649599014,
      "grad_norm": 0.10921170562505722,
      "learning_rate": 9.981912357541627e-05,
      "loss": 0.2573,
      "step": 33
    },
    {
      "epoch": 0.041949413942011106,
      "grad_norm": 0.11088619381189346,
      "learning_rate": 9.97902463787331e-05,
      "loss": 0.2465,
      "step": 34
    },
    {
      "epoch": 0.0431832202344232,
      "grad_norm": 0.117830291390419,
      "learning_rate": 9.975923633360985e-05,
      "loss": 0.2497,
      "step": 35
    },
    {
      "epoch": 0.04441702652683529,
      "grad_norm": 0.11787773668766022,
      "learning_rate": 9.972609476841367e-05,
      "loss": 0.2331,
      "step": 36
    },
    {
      "epoch": 0.04565083281924738,
      "grad_norm": 0.10997622460126877,
      "learning_rate": 9.969082310281891e-05,
      "loss": 0.2106,
      "step": 37
    },
    {
      "epoch": 0.04688463911165947,
      "grad_norm": 0.1242734044790268,
      "learning_rate": 9.965342284774632e-05,
      "loss": 0.2446,
      "step": 38
    },
    {
      "epoch": 0.048118445404071564,
      "grad_norm": 0.11726706475019455,
      "learning_rate": 9.961389560529836e-05,
      "loss": 0.2153,
      "step": 39
    },
    {
      "epoch": 0.049352251696483655,
      "grad_norm": 0.12160900235176086,
      "learning_rate": 9.957224306869053e-05,
      "loss": 0.1961,
      "step": 40
    },
    {
      "epoch": 0.05058605798889575,
      "grad_norm": 0.13728486001491547,
      "learning_rate": 9.952846702217886e-05,
      "loss": 0.2477,
      "step": 41
    },
    {
      "epoch": 0.05181986428130783,
      "grad_norm": 0.13479958474636078,
      "learning_rate": 9.948256934098352e-05,
      "loss": 0.23,
      "step": 42
    },
    {
      "epoch": 0.05305367057371992,
      "grad_norm": 0.1315455138683319,
      "learning_rate": 9.943455199120837e-05,
      "loss": 0.2094,
      "step": 43
    },
    {
      "epoch": 0.054287476866132015,
      "grad_norm": 0.13218016922473907,
      "learning_rate": 9.938441702975689e-05,
      "loss": 0.2123,
      "step": 44
    },
    {
      "epoch": 0.055521283158544106,
      "grad_norm": 0.1385524421930313,
      "learning_rate": 9.933216660424395e-05,
      "loss": 0.2298,
      "step": 45
    },
    {
      "epoch": 0.0567550894509562,
      "grad_norm": 0.14463019371032715,
      "learning_rate": 9.927780295290389e-05,
      "loss": 0.1974,
      "step": 46
    },
    {
      "epoch": 0.05798889574336829,
      "grad_norm": 0.14759379625320435,
      "learning_rate": 9.922132840449459e-05,
      "loss": 0.1848,
      "step": 47
    },
    {
      "epoch": 0.05922270203578038,
      "grad_norm": 0.19483141601085663,
      "learning_rate": 9.916274537819775e-05,
      "loss": 0.2452,
      "step": 48
    },
    {
      "epoch": 0.06045650832819247,
      "grad_norm": 0.1911257952451706,
      "learning_rate": 9.91020563835152e-05,
      "loss": 0.2061,
      "step": 49
    },
    {
      "epoch": 0.061690314620604564,
      "grad_norm": 0.2327841967344284,
      "learning_rate": 9.903926402016153e-05,
      "loss": 0.2754,
      "step": 50
    },
    {
      "epoch": 0.06292412091301666,
      "grad_norm": 0.27924543619155884,
      "learning_rate": 9.897437097795257e-05,
      "loss": 0.2637,
      "step": 51
    },
    {
      "epoch": 0.06415792720542875,
      "grad_norm": 0.23139330744743347,
      "learning_rate": 9.890738003669029e-05,
      "loss": 0.2825,
      "step": 52
    },
    {
      "epoch": 0.06539173349784085,
      "grad_norm": 0.15209117531776428,
      "learning_rate": 9.883829406604363e-05,
      "loss": 0.2511,
      "step": 53
    },
    {
      "epoch": 0.06662553979025293,
      "grad_norm": 0.11233989894390106,
      "learning_rate": 9.876711602542563e-05,
      "loss": 0.2516,
      "step": 54
    },
    {
      "epoch": 0.06785934608266501,
      "grad_norm": 0.08111662417650223,
      "learning_rate": 9.869384896386668e-05,
      "loss": 0.2166,
      "step": 55
    },
    {
      "epoch": 0.06909315237507711,
      "grad_norm": 0.07592300325632095,
      "learning_rate": 9.861849601988383e-05,
      "loss": 0.242,
      "step": 56
    },
    {
      "epoch": 0.0703269586674892,
      "grad_norm": 0.0830015316605568,
      "learning_rate": 9.854106042134641e-05,
      "loss": 0.2521,
      "step": 57
    },
    {
      "epoch": 0.0715607649599013,
      "grad_norm": 0.09162587672472,
      "learning_rate": 9.846154548533773e-05,
      "loss": 0.2482,
      "step": 58
    },
    {
      "epoch": 0.07279457125231338,
      "grad_norm": 0.095840685069561,
      "learning_rate": 9.837995461801299e-05,
      "loss": 0.2521,
      "step": 59
    },
    {
      "epoch": 0.07402837754472548,
      "grad_norm": 0.10919506102800369,
      "learning_rate": 9.829629131445342e-05,
      "loss": 0.2507,
      "step": 60
    },
    {
      "epoch": 0.07526218383713756,
      "grad_norm": 0.10350893437862396,
      "learning_rate": 9.821055915851647e-05,
      "loss": 0.256,
      "step": 61
    },
    {
      "epoch": 0.07649599012954966,
      "grad_norm": 0.09954667091369629,
      "learning_rate": 9.812276182268236e-05,
      "loss": 0.2865,
      "step": 62
    },
    {
      "epoch": 0.07772979642196175,
      "grad_norm": 0.09667718410491943,
      "learning_rate": 9.803290306789676e-05,
      "loss": 0.253,
      "step": 63
    },
    {
      "epoch": 0.07896360271437385,
      "grad_norm": 0.08529680222272873,
      "learning_rate": 9.794098674340965e-05,
      "loss": 0.2423,
      "step": 64
    },
    {
      "epoch": 0.08019740900678593,
      "grad_norm": 0.08404137939214706,
      "learning_rate": 9.784701678661045e-05,
      "loss": 0.2339,
      "step": 65
    },
    {
      "epoch": 0.08143121529919803,
      "grad_norm": 0.08972956985235214,
      "learning_rate": 9.775099722285935e-05,
      "loss": 0.2631,
      "step": 66
    },
    {
      "epoch": 0.08266502159161011,
      "grad_norm": 0.08687611669301987,
      "learning_rate": 9.765293216531486e-05,
      "loss": 0.2957,
      "step": 67
    },
    {
      "epoch": 0.08389882788402221,
      "grad_norm": 0.08225857466459274,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.2516,
      "step": 68
    },
    {
      "epoch": 0.0851326341764343,
      "grad_norm": 0.08920463919639587,
      "learning_rate": 9.74506824594107e-05,
      "loss": 0.2595,
      "step": 69
    },
    {
      "epoch": 0.0863664404688464,
      "grad_norm": 0.07807470858097076,
      "learning_rate": 9.73465064747553e-05,
      "loss": 0.2375,
      "step": 70
    },
    {
      "epoch": 0.08760024676125848,
      "grad_norm": 0.08436538279056549,
      "learning_rate": 9.724030232334391e-05,
      "loss": 0.2494,
      "step": 71
    },
    {
      "epoch": 0.08883405305367058,
      "grad_norm": 0.09405101835727692,
      "learning_rate": 9.713207455460894e-05,
      "loss": 0.2466,
      "step": 72
    },
    {
      "epoch": 0.09006785934608266,
      "grad_norm": 0.08759952336549759,
      "learning_rate": 9.702182780466775e-05,
      "loss": 0.2431,
      "step": 73
    },
    {
      "epoch": 0.09130166563849476,
      "grad_norm": 0.09208838641643524,
      "learning_rate": 9.690956679612421e-05,
      "loss": 0.2592,
      "step": 74
    },
    {
      "epoch": 0.09253547193090685,
      "grad_norm": 0.10020045191049576,
      "learning_rate": 9.67952963378663e-05,
      "loss": 0.2489,
      "step": 75
    },
    {
      "epoch": 0.09376927822331894,
      "grad_norm": 0.08909453451633453,
      "learning_rate": 9.667902132486009e-05,
      "loss": 0.2589,
      "step": 76
    },
    {
      "epoch": 0.09500308451573103,
      "grad_norm": 0.08134782314300537,
      "learning_rate": 9.656074673794018e-05,
      "loss": 0.2174,
      "step": 77
    },
    {
      "epoch": 0.09623689080814313,
      "grad_norm": 0.0956219881772995,
      "learning_rate": 9.644047764359622e-05,
      "loss": 0.2839,
      "step": 78
    },
    {
      "epoch": 0.09747069710055521,
      "grad_norm": 0.0910920649766922,
      "learning_rate": 9.631821919375591e-05,
      "loss": 0.234,
      "step": 79
    },
    {
      "epoch": 0.09870450339296731,
      "grad_norm": 0.09791000187397003,
      "learning_rate": 9.619397662556435e-05,
      "loss": 0.2614,
      "step": 80
    },
    {
      "epoch": 0.0999383096853794,
      "grad_norm": 0.09512025117874146,
      "learning_rate": 9.606775526115963e-05,
      "loss": 0.2263,
      "step": 81
    },
    {
      "epoch": 0.1011721159777915,
      "grad_norm": 0.0945764034986496,
      "learning_rate": 9.593956050744492e-05,
      "loss": 0.2074,
      "step": 82
    },
    {
      "epoch": 0.10240592227020358,
      "grad_norm": 0.10156357288360596,
      "learning_rate": 9.580939785585681e-05,
      "loss": 0.2614,
      "step": 83
    },
    {
      "epoch": 0.10363972856261566,
      "grad_norm": 0.09861398488283157,
      "learning_rate": 9.567727288213005e-05,
      "loss": 0.2249,
      "step": 84
    },
    {
      "epoch": 0.10487353485502776,
      "grad_norm": 0.09628450125455856,
      "learning_rate": 9.554319124605879e-05,
      "loss": 0.204,
      "step": 85
    },
    {
      "epoch": 0.10610734114743985,
      "grad_norm": 0.09835662692785263,
      "learning_rate": 9.540715869125407e-05,
      "loss": 0.2266,
      "step": 86
    },
    {
      "epoch": 0.10734114743985194,
      "grad_norm": 0.09866107255220413,
      "learning_rate": 9.526918104489777e-05,
      "loss": 0.2111,
      "step": 87
    },
    {
      "epoch": 0.10857495373226403,
      "grad_norm": 0.0948159247636795,
      "learning_rate": 9.512926421749304e-05,
      "loss": 0.2073,
      "step": 88
    },
    {
      "epoch": 0.10980876002467613,
      "grad_norm": 0.11491250991821289,
      "learning_rate": 9.498741420261108e-05,
      "loss": 0.2571,
      "step": 89
    },
    {
      "epoch": 0.11104256631708821,
      "grad_norm": 0.1049625352025032,
      "learning_rate": 9.484363707663442e-05,
      "loss": 0.2334,
      "step": 90
    },
    {
      "epoch": 0.11227637260950031,
      "grad_norm": 0.11915648728609085,
      "learning_rate": 9.469793899849661e-05,
      "loss": 0.2075,
      "step": 91
    },
    {
      "epoch": 0.1135101789019124,
      "grad_norm": 0.12147297710180283,
      "learning_rate": 9.45503262094184e-05,
      "loss": 0.2334,
      "step": 92
    },
    {
      "epoch": 0.1147439851943245,
      "grad_norm": 0.1113700270652771,
      "learning_rate": 9.440080503264037e-05,
      "loss": 0.1559,
      "step": 93
    },
    {
      "epoch": 0.11597779148673658,
      "grad_norm": 0.11901186406612396,
      "learning_rate": 9.42493818731521e-05,
      "loss": 0.2252,
      "step": 94
    },
    {
      "epoch": 0.11721159777914868,
      "grad_norm": 0.12371199578046799,
      "learning_rate": 9.409606321741775e-05,
      "loss": 0.1975,
      "step": 95
    },
    {
      "epoch": 0.11844540407156076,
      "grad_norm": 0.12706074118614197,
      "learning_rate": 9.394085563309827e-05,
      "loss": 0.1884,
      "step": 96
    },
    {
      "epoch": 0.11967921036397286,
      "grad_norm": 0.13764916360378265,
      "learning_rate": 9.378376576876999e-05,
      "loss": 0.2029,
      "step": 97
    },
    {
      "epoch": 0.12091301665638494,
      "grad_norm": 0.1428515464067459,
      "learning_rate": 9.362480035363986e-05,
      "loss": 0.1602,
      "step": 98
    },
    {
      "epoch": 0.12214682294879704,
      "grad_norm": 0.17447082698345184,
      "learning_rate": 9.34639661972572e-05,
      "loss": 0.1801,
      "step": 99
    },
    {
      "epoch": 0.12338062924120913,
      "grad_norm": 0.22356116771697998,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.2209,
      "step": 100
    },
    {
      "epoch": 0.12338062924120913,
      "eval_loss": 0.24405111372470856,
      "eval_runtime": 40.6082,
      "eval_samples_per_second": 33.614,
      "eval_steps_per_second": 8.422,
      "step": 100
    },
    {
      "epoch": 0.12461443553362123,
      "grad_norm": 0.10104887932538986,
      "learning_rate": 9.31367192988896e-05,
      "loss": 0.1909,
      "step": 101
    },
    {
      "epoch": 0.12584824182603332,
      "grad_norm": 0.1291944980621338,
      "learning_rate": 9.297032057507264e-05,
      "loss": 0.2239,
      "step": 102
    },
    {
      "epoch": 0.1270820481184454,
      "grad_norm": 0.11538691073656082,
      "learning_rate": 9.280208114573859e-05,
      "loss": 0.2555,
      "step": 103
    },
    {
      "epoch": 0.1283158544108575,
      "grad_norm": 0.1148175373673439,
      "learning_rate": 9.263200821770461e-05,
      "loss": 0.2243,
      "step": 104
    },
    {
      "epoch": 0.1295496607032696,
      "grad_norm": 0.10397789627313614,
      "learning_rate": 9.246010907632895e-05,
      "loss": 0.2034,
      "step": 105
    },
    {
      "epoch": 0.1307834669956817,
      "grad_norm": 0.09633157402276993,
      "learning_rate": 9.228639108519868e-05,
      "loss": 0.2495,
      "step": 106
    },
    {
      "epoch": 0.13201727328809376,
      "grad_norm": 0.07422071695327759,
      "learning_rate": 9.211086168581433e-05,
      "loss": 0.2019,
      "step": 107
    },
    {
      "epoch": 0.13325107958050586,
      "grad_norm": 0.06890950351953506,
      "learning_rate": 9.193352839727121e-05,
      "loss": 0.2274,
      "step": 108
    },
    {
      "epoch": 0.13448488587291796,
      "grad_norm": 0.07013460248708725,
      "learning_rate": 9.175439881593716e-05,
      "loss": 0.2302,
      "step": 109
    },
    {
      "epoch": 0.13571869216533003,
      "grad_norm": 0.0787929967045784,
      "learning_rate": 9.157348061512727e-05,
      "loss": 0.2871,
      "step": 110
    },
    {
      "epoch": 0.13695249845774213,
      "grad_norm": 0.07080467790365219,
      "learning_rate": 9.139078154477512e-05,
      "loss": 0.2079,
      "step": 111
    },
    {
      "epoch": 0.13818630475015423,
      "grad_norm": 0.08125967532396317,
      "learning_rate": 9.120630943110077e-05,
      "loss": 0.2773,
      "step": 112
    },
    {
      "epoch": 0.13942011104256632,
      "grad_norm": 0.08759069442749023,
      "learning_rate": 9.102007217627568e-05,
      "loss": 0.2572,
      "step": 113
    },
    {
      "epoch": 0.1406539173349784,
      "grad_norm": 0.08186271786689758,
      "learning_rate": 9.083207775808396e-05,
      "loss": 0.2554,
      "step": 114
    },
    {
      "epoch": 0.1418877236273905,
      "grad_norm": 0.080168217420578,
      "learning_rate": 9.064233422958077e-05,
      "loss": 0.2498,
      "step": 115
    },
    {
      "epoch": 0.1431215299198026,
      "grad_norm": 0.07803693413734436,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.2411,
      "step": 116
    },
    {
      "epoch": 0.1443553362122147,
      "grad_norm": 0.0818716287612915,
      "learning_rate": 9.025763242814291e-05,
      "loss": 0.234,
      "step": 117
    },
    {
      "epoch": 0.14558914250462676,
      "grad_norm": 0.07877407222986221,
      "learning_rate": 9.006269063455304e-05,
      "loss": 0.2331,
      "step": 118
    },
    {
      "epoch": 0.14682294879703886,
      "grad_norm": 0.07780201733112335,
      "learning_rate": 8.986603268863536e-05,
      "loss": 0.258,
      "step": 119
    },
    {
      "epoch": 0.14805675508945096,
      "grad_norm": 0.07558924704790115,
      "learning_rate": 8.966766701456177e-05,
      "loss": 0.2151,
      "step": 120
    },
    {
      "epoch": 0.14929056138186306,
      "grad_norm": 0.0828242227435112,
      "learning_rate": 8.94676021096575e-05,
      "loss": 0.2623,
      "step": 121
    },
    {
      "epoch": 0.15052436767427513,
      "grad_norm": 0.08339601755142212,
      "learning_rate": 8.926584654403724e-05,
      "loss": 0.2609,
      "step": 122
    },
    {
      "epoch": 0.15175817396668723,
      "grad_norm": 0.07902145385742188,
      "learning_rate": 8.906240896023794e-05,
      "loss": 0.2509,
      "step": 123
    },
    {
      "epoch": 0.15299198025909932,
      "grad_norm": 0.08246655762195587,
      "learning_rate": 8.885729807284856e-05,
      "loss": 0.2584,
      "step": 124
    },
    {
      "epoch": 0.15422578655151142,
      "grad_norm": 0.07794418931007385,
      "learning_rate": 8.865052266813685e-05,
      "loss": 0.2108,
      "step": 125
    },
    {
      "epoch": 0.1554595928439235,
      "grad_norm": 0.08656251430511475,
      "learning_rate": 8.844209160367299e-05,
      "loss": 0.2434,
      "step": 126
    },
    {
      "epoch": 0.1566933991363356,
      "grad_norm": 0.0875035971403122,
      "learning_rate": 8.823201380795001e-05,
      "loss": 0.2347,
      "step": 127
    },
    {
      "epoch": 0.1579272054287477,
      "grad_norm": 0.09324746578931808,
      "learning_rate": 8.802029828000156e-05,
      "loss": 0.2448,
      "step": 128
    },
    {
      "epoch": 0.1591610117211598,
      "grad_norm": 0.08983529359102249,
      "learning_rate": 8.780695408901613e-05,
      "loss": 0.2494,
      "step": 129
    },
    {
      "epoch": 0.16039481801357186,
      "grad_norm": 0.09429362416267395,
      "learning_rate": 8.759199037394887e-05,
      "loss": 0.2362,
      "step": 130
    },
    {
      "epoch": 0.16162862430598396,
      "grad_norm": 0.10402978956699371,
      "learning_rate": 8.737541634312985e-05,
      "loss": 0.2146,
      "step": 131
    },
    {
      "epoch": 0.16286243059839606,
      "grad_norm": 0.09740042686462402,
      "learning_rate": 8.715724127386972e-05,
      "loss": 0.2485,
      "step": 132
    },
    {
      "epoch": 0.16409623689080816,
      "grad_norm": 0.100027896463871,
      "learning_rate": 8.693747451206232e-05,
      "loss": 0.2271,
      "step": 133
    },
    {
      "epoch": 0.16533004318322023,
      "grad_norm": 0.09764295816421509,
      "learning_rate": 8.671612547178428e-05,
      "loss": 0.2264,
      "step": 134
    },
    {
      "epoch": 0.16656384947563233,
      "grad_norm": 0.08861066401004791,
      "learning_rate": 8.649320363489179e-05,
      "loss": 0.1882,
      "step": 135
    },
    {
      "epoch": 0.16779765576804442,
      "grad_norm": 0.096595898270607,
      "learning_rate": 8.626871855061438e-05,
      "loss": 0.2018,
      "step": 136
    },
    {
      "epoch": 0.16903146206045652,
      "grad_norm": 0.11477100849151611,
      "learning_rate": 8.604267983514594e-05,
      "loss": 0.2739,
      "step": 137
    },
    {
      "epoch": 0.1702652683528686,
      "grad_norm": 0.11184252798557281,
      "learning_rate": 8.581509717123273e-05,
      "loss": 0.2472,
      "step": 138
    },
    {
      "epoch": 0.1714990746452807,
      "grad_norm": 0.11266861855983734,
      "learning_rate": 8.558598030775857e-05,
      "loss": 0.2018,
      "step": 139
    },
    {
      "epoch": 0.1727328809376928,
      "grad_norm": 0.11295837163925171,
      "learning_rate": 8.535533905932738e-05,
      "loss": 0.1906,
      "step": 140
    },
    {
      "epoch": 0.17396668723010486,
      "grad_norm": 0.12029936164617538,
      "learning_rate": 8.51231833058426e-05,
      "loss": 0.2288,
      "step": 141
    },
    {
      "epoch": 0.17520049352251696,
      "grad_norm": 0.11150836944580078,
      "learning_rate": 8.488952299208401e-05,
      "loss": 0.1864,
      "step": 142
    },
    {
      "epoch": 0.17643429981492906,
      "grad_norm": 0.11095666885375977,
      "learning_rate": 8.46543681272818e-05,
      "loss": 0.1793,
      "step": 143
    },
    {
      "epoch": 0.17766810610734116,
      "grad_norm": 0.12011062353849411,
      "learning_rate": 8.44177287846877e-05,
      "loss": 0.1932,
      "step": 144
    },
    {
      "epoch": 0.17890191239975323,
      "grad_norm": 0.12237264215946198,
      "learning_rate": 8.417961510114356e-05,
      "loss": 0.192,
      "step": 145
    },
    {
      "epoch": 0.18013571869216533,
      "grad_norm": 0.11491794884204865,
      "learning_rate": 8.39400372766471e-05,
      "loss": 0.1573,
      "step": 146
    },
    {
      "epoch": 0.18136952498457742,
      "grad_norm": 0.13585874438285828,
      "learning_rate": 8.36990055739149e-05,
      "loss": 0.1848,
      "step": 147
    },
    {
      "epoch": 0.18260333127698952,
      "grad_norm": 0.16524048149585724,
      "learning_rate": 8.345653031794292e-05,
      "loss": 0.2383,
      "step": 148
    },
    {
      "epoch": 0.1838371375694016,
      "grad_norm": 0.16393841803073883,
      "learning_rate": 8.321262189556409e-05,
      "loss": 0.188,
      "step": 149
    },
    {
      "epoch": 0.1850709438618137,
      "grad_norm": 0.23397666215896606,
      "learning_rate": 8.296729075500344e-05,
      "loss": 0.2131,
      "step": 150
    },
    {
      "epoch": 0.1863047501542258,
      "grad_norm": 0.07603297382593155,
      "learning_rate": 8.272054740543052e-05,
      "loss": 0.1676,
      "step": 151
    },
    {
      "epoch": 0.1875385564466379,
      "grad_norm": 0.09460081905126572,
      "learning_rate": 8.247240241650918e-05,
      "loss": 0.2098,
      "step": 152
    },
    {
      "epoch": 0.18877236273904996,
      "grad_norm": 0.09659115970134735,
      "learning_rate": 8.222286641794488e-05,
      "loss": 0.2257,
      "step": 153
    },
    {
      "epoch": 0.19000616903146206,
      "grad_norm": 0.09268359839916229,
      "learning_rate": 8.197195009902924e-05,
      "loss": 0.2265,
      "step": 154
    },
    {
      "epoch": 0.19123997532387416,
      "grad_norm": 0.09209493547677994,
      "learning_rate": 8.171966420818228e-05,
      "loss": 0.2395,
      "step": 155
    },
    {
      "epoch": 0.19247378161628625,
      "grad_norm": 0.0834796205163002,
      "learning_rate": 8.146601955249188e-05,
      "loss": 0.231,
      "step": 156
    },
    {
      "epoch": 0.19370758790869833,
      "grad_norm": 0.08188316226005554,
      "learning_rate": 8.121102699725089e-05,
      "loss": 0.2568,
      "step": 157
    },
    {
      "epoch": 0.19494139420111042,
      "grad_norm": 0.06943795084953308,
      "learning_rate": 8.095469746549172e-05,
      "loss": 0.1974,
      "step": 158
    },
    {
      "epoch": 0.19617520049352252,
      "grad_norm": 0.07204888015985489,
      "learning_rate": 8.069704193751832e-05,
      "loss": 0.2617,
      "step": 159
    },
    {
      "epoch": 0.19740900678593462,
      "grad_norm": 0.07721104472875595,
      "learning_rate": 8.043807145043604e-05,
      "loss": 0.2575,
      "step": 160
    },
    {
      "epoch": 0.1986428130783467,
      "grad_norm": 0.0690094456076622,
      "learning_rate": 8.017779709767858e-05,
      "loss": 0.2223,
      "step": 161
    },
    {
      "epoch": 0.1998766193707588,
      "grad_norm": 0.0738162025809288,
      "learning_rate": 7.991623002853296e-05,
      "loss": 0.2406,
      "step": 162
    },
    {
      "epoch": 0.2011104256631709,
      "grad_norm": 0.07995648682117462,
      "learning_rate": 7.965338144766186e-05,
      "loss": 0.2439,
      "step": 163
    },
    {
      "epoch": 0.202344231955583,
      "grad_norm": 0.07489731907844543,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.2021,
      "step": 164
    },
    {
      "epoch": 0.20357803824799506,
      "grad_norm": 0.07836941629648209,
      "learning_rate": 7.912388484339012e-05,
      "loss": 0.2364,
      "step": 165
    },
    {
      "epoch": 0.20481184454040716,
      "grad_norm": 0.08278273046016693,
      "learning_rate": 7.88572595018617e-05,
      "loss": 0.2524,
      "step": 166
    },
    {
      "epoch": 0.20604565083281925,
      "grad_norm": 0.08181089162826538,
      "learning_rate": 7.858939801138061e-05,
      "loss": 0.2401,
      "step": 167
    },
    {
      "epoch": 0.20727945712523133,
      "grad_norm": 0.07936353981494904,
      "learning_rate": 7.832031184624164e-05,
      "loss": 0.2235,
      "step": 168
    },
    {
      "epoch": 0.20851326341764342,
      "grad_norm": 0.08673015236854553,
      "learning_rate": 7.80500125332005e-05,
      "loss": 0.2675,
      "step": 169
    },
    {
      "epoch": 0.20974706971005552,
      "grad_norm": 0.07728148996829987,
      "learning_rate": 7.777851165098012e-05,
      "loss": 0.2244,
      "step": 170
    },
    {
      "epoch": 0.21098087600246762,
      "grad_norm": 0.08394923061132431,
      "learning_rate": 7.750582082977467e-05,
      "loss": 0.2413,
      "step": 171
    },
    {
      "epoch": 0.2122146822948797,
      "grad_norm": 0.07839123159646988,
      "learning_rate": 7.723195175075136e-05,
      "loss": 0.208,
      "step": 172
    },
    {
      "epoch": 0.2134484885872918,
      "grad_norm": 0.08703352510929108,
      "learning_rate": 7.695691614555003e-05,
      "loss": 0.2173,
      "step": 173
    },
    {
      "epoch": 0.2146822948797039,
      "grad_norm": 0.08103667944669724,
      "learning_rate": 7.668072579578058e-05,
      "loss": 0.2173,
      "step": 174
    },
    {
      "epoch": 0.215916101172116,
      "grad_norm": 0.08789656311273575,
      "learning_rate": 7.64033925325184e-05,
      "loss": 0.2572,
      "step": 175
    },
    {
      "epoch": 0.21714990746452806,
      "grad_norm": 0.0919191911816597,
      "learning_rate": 7.612492823579745e-05,
      "loss": 0.2573,
      "step": 176
    },
    {
      "epoch": 0.21838371375694016,
      "grad_norm": 0.09507539868354797,
      "learning_rate": 7.584534483410137e-05,
      "loss": 0.2665,
      "step": 177
    },
    {
      "epoch": 0.21961752004935226,
      "grad_norm": 0.09098230302333832,
      "learning_rate": 7.55646543038526e-05,
      "loss": 0.2382,
      "step": 178
    },
    {
      "epoch": 0.22085132634176435,
      "grad_norm": 0.08969679474830627,
      "learning_rate": 7.528286866889924e-05,
      "loss": 0.2116,
      "step": 179
    },
    {
      "epoch": 0.22208513263417642,
      "grad_norm": 0.10270313918590546,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.2646,
      "step": 180
    },
    {
      "epoch": 0.22331893892658852,
      "grad_norm": 0.09711834788322449,
      "learning_rate": 7.471606041430723e-05,
      "loss": 0.244,
      "step": 181
    },
    {
      "epoch": 0.22455274521900062,
      "grad_norm": 0.10688856244087219,
      "learning_rate": 7.443106207484776e-05,
      "loss": 0.2365,
      "step": 182
    },
    {
      "epoch": 0.22578655151141272,
      "grad_norm": 0.09684920310974121,
      "learning_rate": 7.414501719000187e-05,
      "loss": 0.223,
      "step": 183
    },
    {
      "epoch": 0.2270203578038248,
      "grad_norm": 0.10624783486127853,
      "learning_rate": 7.385793801298042e-05,
      "loss": 0.2444,
      "step": 184
    },
    {
      "epoch": 0.2282541640962369,
      "grad_norm": 0.09552489221096039,
      "learning_rate": 7.35698368412999e-05,
      "loss": 0.2052,
      "step": 185
    },
    {
      "epoch": 0.229487970388649,
      "grad_norm": 0.09683357924222946,
      "learning_rate": 7.328072601625557e-05,
      "loss": 0.21,
      "step": 186
    },
    {
      "epoch": 0.23072177668106109,
      "grad_norm": 0.10157877206802368,
      "learning_rate": 7.2990617922393e-05,
      "loss": 0.2002,
      "step": 187
    },
    {
      "epoch": 0.23195558297347316,
      "grad_norm": 0.10236024111509323,
      "learning_rate": 7.269952498697734e-05,
      "loss": 0.1792,
      "step": 188
    },
    {
      "epoch": 0.23318938926588526,
      "grad_norm": 0.10478819906711578,
      "learning_rate": 7.240745967946113e-05,
      "loss": 0.1815,
      "step": 189
    },
    {
      "epoch": 0.23442319555829735,
      "grad_norm": 0.109072744846344,
      "learning_rate": 7.211443451095007e-05,
      "loss": 0.2253,
      "step": 190
    },
    {
      "epoch": 0.23565700185070945,
      "grad_norm": 0.10884805768728256,
      "learning_rate": 7.18204620336671e-05,
      "loss": 0.1918,
      "step": 191
    },
    {
      "epoch": 0.23689080814312152,
      "grad_norm": 0.10737382620573044,
      "learning_rate": 7.152555484041476e-05,
      "loss": 0.1474,
      "step": 192
    },
    {
      "epoch": 0.23812461443553362,
      "grad_norm": 0.11044416576623917,
      "learning_rate": 7.122972556403567e-05,
      "loss": 0.1424,
      "step": 193
    },
    {
      "epoch": 0.23935842072794572,
      "grad_norm": 0.11613929271697998,
      "learning_rate": 7.09329868768714e-05,
      "loss": 0.1699,
      "step": 194
    },
    {
      "epoch": 0.2405922270203578,
      "grad_norm": 0.12655320763587952,
      "learning_rate": 7.063535149021973e-05,
      "loss": 0.1677,
      "step": 195
    },
    {
      "epoch": 0.2418260333127699,
      "grad_norm": 0.11599668115377426,
      "learning_rate": 7.033683215379002e-05,
      "loss": 0.15,
      "step": 196
    },
    {
      "epoch": 0.243059839605182,
      "grad_norm": 0.14142918586730957,
      "learning_rate": 7.003744165515705e-05,
      "loss": 0.1783,
      "step": 197
    },
    {
      "epoch": 0.24429364589759409,
      "grad_norm": 0.14730653166770935,
      "learning_rate": 6.973719281921335e-05,
      "loss": 0.1657,
      "step": 198
    },
    {
      "epoch": 0.24552745219000616,
      "grad_norm": 0.16807600855827332,
      "learning_rate": 6.943609850761979e-05,
      "loss": 0.18,
      "step": 199
    },
    {
      "epoch": 0.24676125848241826,
      "grad_norm": 0.243330180644989,
      "learning_rate": 6.91341716182545e-05,
      "loss": 0.2195,
      "step": 200
    },
    {
      "epoch": 0.24676125848241826,
      "eval_loss": 0.22364899516105652,
      "eval_runtime": 40.6107,
      "eval_samples_per_second": 33.612,
      "eval_steps_per_second": 8.421,
      "step": 200
    },
    {
      "epoch": 0.24799506477483035,
      "grad_norm": 0.07734564691781998,
      "learning_rate": 6.883142508466054e-05,
      "loss": 0.2025,
      "step": 201
    },
    {
      "epoch": 0.24922887106724245,
      "grad_norm": 0.09307112544775009,
      "learning_rate": 6.852787187549182e-05,
      "loss": 0.2066,
      "step": 202
    },
    {
      "epoch": 0.25046267735965455,
      "grad_norm": 0.09632261097431183,
      "learning_rate": 6.82235249939575e-05,
      "loss": 0.2254,
      "step": 203
    },
    {
      "epoch": 0.25169648365206665,
      "grad_norm": 0.09441491216421127,
      "learning_rate": 6.7918397477265e-05,
      "loss": 0.2309,
      "step": 204
    },
    {
      "epoch": 0.2529302899444787,
      "grad_norm": 0.09539754688739777,
      "learning_rate": 6.761250239606169e-05,
      "loss": 0.2199,
      "step": 205
    },
    {
      "epoch": 0.2541640962368908,
      "grad_norm": 0.08189009130001068,
      "learning_rate": 6.730585285387465e-05,
      "loss": 0.223,
      "step": 206
    },
    {
      "epoch": 0.2553979025293029,
      "grad_norm": 0.08495474606752396,
      "learning_rate": 6.699846198654971e-05,
      "loss": 0.2175,
      "step": 207
    },
    {
      "epoch": 0.256631708821715,
      "grad_norm": 0.08912075310945511,
      "learning_rate": 6.669034296168855e-05,
      "loss": 0.228,
      "step": 208
    },
    {
      "epoch": 0.2578655151141271,
      "grad_norm": 0.07984551787376404,
      "learning_rate": 6.638150897808468e-05,
      "loss": 0.2135,
      "step": 209
    },
    {
      "epoch": 0.2590993214065392,
      "grad_norm": 0.0798722356557846,
      "learning_rate": 6.607197326515808e-05,
      "loss": 0.2249,
      "step": 210
    },
    {
      "epoch": 0.2603331276989513,
      "grad_norm": 0.07387389242649078,
      "learning_rate": 6.57617490823885e-05,
      "loss": 0.2182,
      "step": 211
    },
    {
      "epoch": 0.2615669339913634,
      "grad_norm": 0.07889991253614426,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.25,
      "step": 212
    },
    {
      "epoch": 0.2628007402837754,
      "grad_norm": 0.07268869876861572,
      "learning_rate": 6.513928849212873e-05,
      "loss": 0.2126,
      "step": 213
    },
    {
      "epoch": 0.2640345465761875,
      "grad_norm": 0.07662036269903183,
      "learning_rate": 6.482707874877854e-05,
      "loss": 0.2286,
      "step": 214
    },
    {
      "epoch": 0.2652683528685996,
      "grad_norm": 0.07657402753829956,
      "learning_rate": 6.451423386272312e-05,
      "loss": 0.2225,
      "step": 215
    },
    {
      "epoch": 0.2665021591610117,
      "grad_norm": 0.08081881701946259,
      "learning_rate": 6.420076723519614e-05,
      "loss": 0.2292,
      "step": 216
    },
    {
      "epoch": 0.2677359654534238,
      "grad_norm": 0.07714046537876129,
      "learning_rate": 6.388669229406462e-05,
      "loss": 0.2396,
      "step": 217
    },
    {
      "epoch": 0.2689697717458359,
      "grad_norm": 0.08429673314094543,
      "learning_rate": 6.357202249325371e-05,
      "loss": 0.234,
      "step": 218
    },
    {
      "epoch": 0.270203578038248,
      "grad_norm": 0.08891743421554565,
      "learning_rate": 6.32567713121704e-05,
      "loss": 0.2345,
      "step": 219
    },
    {
      "epoch": 0.27143738433066006,
      "grad_norm": 0.08388818800449371,
      "learning_rate": 6.294095225512603e-05,
      "loss": 0.2397,
      "step": 220
    },
    {
      "epoch": 0.27267119062307216,
      "grad_norm": 0.08189438283443451,
      "learning_rate": 6.26245788507579e-05,
      "loss": 0.2442,
      "step": 221
    },
    {
      "epoch": 0.27390499691548426,
      "grad_norm": 0.09222489595413208,
      "learning_rate": 6.230766465144967e-05,
      "loss": 0.2375,
      "step": 222
    },
    {
      "epoch": 0.27513880320789635,
      "grad_norm": 0.09064195305109024,
      "learning_rate": 6.199022323275083e-05,
      "loss": 0.2583,
      "step": 223
    },
    {
      "epoch": 0.27637260950030845,
      "grad_norm": 0.09065766632556915,
      "learning_rate": 6.167226819279528e-05,
      "loss": 0.2258,
      "step": 224
    },
    {
      "epoch": 0.27760641579272055,
      "grad_norm": 0.09295275807380676,
      "learning_rate": 6.135381315171867e-05,
      "loss": 0.2449,
      "step": 225
    },
    {
      "epoch": 0.27884022208513265,
      "grad_norm": 0.0853598341345787,
      "learning_rate": 6.103487175107507e-05,
      "loss": 0.2292,
      "step": 226
    },
    {
      "epoch": 0.28007402837754475,
      "grad_norm": 0.09035056084394455,
      "learning_rate": 6.071545765325254e-05,
      "loss": 0.2018,
      "step": 227
    },
    {
      "epoch": 0.2813078346699568,
      "grad_norm": 0.08859269320964813,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 0.1981,
      "step": 228
    },
    {
      "epoch": 0.2825416409623689,
      "grad_norm": 0.0988258644938469,
      "learning_rate": 6.007526611628086e-05,
      "loss": 0.2208,
      "step": 229
    },
    {
      "epoch": 0.283775447254781,
      "grad_norm": 0.09383786469697952,
      "learning_rate": 5.9754516100806423e-05,
      "loss": 0.2041,
      "step": 230
    },
    {
      "epoch": 0.2850092535471931,
      "grad_norm": 0.09566136449575424,
      "learning_rate": 5.9433348234327765e-05,
      "loss": 0.2112,
      "step": 231
    },
    {
      "epoch": 0.2862430598396052,
      "grad_norm": 0.1015087142586708,
      "learning_rate": 5.911177627460739e-05,
      "loss": 0.2417,
      "step": 232
    },
    {
      "epoch": 0.2874768661320173,
      "grad_norm": 0.09388791769742966,
      "learning_rate": 5.8789813996717736e-05,
      "loss": 0.1968,
      "step": 233
    },
    {
      "epoch": 0.2887106724244294,
      "grad_norm": 0.10651914030313492,
      "learning_rate": 5.8467475192451226e-05,
      "loss": 0.2269,
      "step": 234
    },
    {
      "epoch": 0.2899444787168415,
      "grad_norm": 0.10543927550315857,
      "learning_rate": 5.814477366972945e-05,
      "loss": 0.224,
      "step": 235
    },
    {
      "epoch": 0.2911782850092535,
      "grad_norm": 0.101859450340271,
      "learning_rate": 5.782172325201155e-05,
      "loss": 0.2461,
      "step": 236
    },
    {
      "epoch": 0.2924120913016656,
      "grad_norm": 0.11637663096189499,
      "learning_rate": 5.749833777770225e-05,
      "loss": 0.2116,
      "step": 237
    },
    {
      "epoch": 0.2936458975940777,
      "grad_norm": 0.1081424131989479,
      "learning_rate": 5.717463109955896e-05,
      "loss": 0.1798,
      "step": 238
    },
    {
      "epoch": 0.2948797038864898,
      "grad_norm": 0.12287820130586624,
      "learning_rate": 5.685061708409841e-05,
      "loss": 0.2709,
      "step": 239
    },
    {
      "epoch": 0.2961135101789019,
      "grad_norm": 0.11239185184240341,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 0.2096,
      "step": 240
    },
    {
      "epoch": 0.297347316471314,
      "grad_norm": 0.10865386575460434,
      "learning_rate": 5.6201722572524275e-05,
      "loss": 0.1858,
      "step": 241
    },
    {
      "epoch": 0.2985811227637261,
      "grad_norm": 0.11773981153964996,
      "learning_rate": 5.587686987289189e-05,
      "loss": 0.1972,
      "step": 242
    },
    {
      "epoch": 0.2998149290561382,
      "grad_norm": 0.12560001015663147,
      "learning_rate": 5.5551765427713884e-05,
      "loss": 0.2045,
      "step": 243
    },
    {
      "epoch": 0.30104873534855026,
      "grad_norm": 0.11561482399702072,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.1711,
      "step": 244
    },
    {
      "epoch": 0.30228254164096235,
      "grad_norm": 0.11753936111927032,
      "learning_rate": 5.490085701647805e-05,
      "loss": 0.1715,
      "step": 245
    },
    {
      "epoch": 0.30351634793337445,
      "grad_norm": 0.12159484624862671,
      "learning_rate": 5.457508093317013e-05,
      "loss": 0.1701,
      "step": 246
    },
    {
      "epoch": 0.30475015422578655,
      "grad_norm": 0.11783815920352936,
      "learning_rate": 5.4249108868622086e-05,
      "loss": 0.1452,
      "step": 247
    },
    {
      "epoch": 0.30598396051819865,
      "grad_norm": 0.14114607870578766,
      "learning_rate": 5.392295478639225e-05,
      "loss": 0.1531,
      "step": 248
    },
    {
      "epoch": 0.30721776681061075,
      "grad_norm": 0.1535264104604721,
      "learning_rate": 5.359663265783598e-05,
      "loss": 0.1522,
      "step": 249
    },
    {
      "epoch": 0.30845157310302285,
      "grad_norm": 0.24398568272590637,
      "learning_rate": 5.327015646150716e-05,
      "loss": 0.2163,
      "step": 250
    },
    {
      "epoch": 0.3096853793954349,
      "grad_norm": 0.07946959882974625,
      "learning_rate": 5.294354018255945e-05,
      "loss": 0.2121,
      "step": 251
    },
    {
      "epoch": 0.310919185687847,
      "grad_norm": 0.07750994712114334,
      "learning_rate": 5.26167978121472e-05,
      "loss": 0.2314,
      "step": 252
    },
    {
      "epoch": 0.3121529919802591,
      "grad_norm": 0.07518362998962402,
      "learning_rate": 5.228994334682604e-05,
      "loss": 0.2044,
      "step": 253
    },
    {
      "epoch": 0.3133867982726712,
      "grad_norm": 0.08228001743555069,
      "learning_rate": 5.196299078795344e-05,
      "loss": 0.1954,
      "step": 254
    },
    {
      "epoch": 0.3146206045650833,
      "grad_norm": 0.08461330831050873,
      "learning_rate": 5.1635954141088813e-05,
      "loss": 0.2378,
      "step": 255
    },
    {
      "epoch": 0.3158544108574954,
      "grad_norm": 0.08751631528139114,
      "learning_rate": 5.1308847415393666e-05,
      "loss": 0.2369,
      "step": 256
    },
    {
      "epoch": 0.3170882171499075,
      "grad_norm": 0.08098191022872925,
      "learning_rate": 5.0981684623031415e-05,
      "loss": 0.2123,
      "step": 257
    },
    {
      "epoch": 0.3183220234423196,
      "grad_norm": 0.07608292996883392,
      "learning_rate": 5.0654479778567223e-05,
      "loss": 0.2028,
      "step": 258
    },
    {
      "epoch": 0.3195558297347316,
      "grad_norm": 0.08295471221208572,
      "learning_rate": 5.0327246898367597e-05,
      "loss": 0.2333,
      "step": 259
    },
    {
      "epoch": 0.3207896360271437,
      "grad_norm": 0.07417421787977219,
      "learning_rate": 5e-05,
      "loss": 0.192,
      "step": 260
    },
    {
      "epoch": 0.3220234423195558,
      "grad_norm": 0.07218808680772781,
      "learning_rate": 4.9672753101632415e-05,
      "loss": 0.2084,
      "step": 261
    },
    {
      "epoch": 0.3232572486119679,
      "grad_norm": 0.08081664890050888,
      "learning_rate": 4.934552022143279e-05,
      "loss": 0.2155,
      "step": 262
    },
    {
      "epoch": 0.32449105490438,
      "grad_norm": 0.08154699206352234,
      "learning_rate": 4.901831537696859e-05,
      "loss": 0.2165,
      "step": 263
    },
    {
      "epoch": 0.3257248611967921,
      "grad_norm": 0.08195295929908752,
      "learning_rate": 4.869115258460635e-05,
      "loss": 0.2263,
      "step": 264
    },
    {
      "epoch": 0.3269586674892042,
      "grad_norm": 0.07184989750385284,
      "learning_rate": 4.83640458589112e-05,
      "loss": 0.1803,
      "step": 265
    },
    {
      "epoch": 0.3281924737816163,
      "grad_norm": 0.07806557416915894,
      "learning_rate": 4.8037009212046586e-05,
      "loss": 0.1992,
      "step": 266
    },
    {
      "epoch": 0.32942628007402835,
      "grad_norm": 0.08036154508590698,
      "learning_rate": 4.7710056653173976e-05,
      "loss": 0.2263,
      "step": 267
    },
    {
      "epoch": 0.33066008636644045,
      "grad_norm": 0.08386509120464325,
      "learning_rate": 4.738320218785281e-05,
      "loss": 0.2108,
      "step": 268
    },
    {
      "epoch": 0.33189389265885255,
      "grad_norm": 0.08472327888011932,
      "learning_rate": 4.7056459817440544e-05,
      "loss": 0.2116,
      "step": 269
    },
    {
      "epoch": 0.33312769895126465,
      "grad_norm": 0.0837475061416626,
      "learning_rate": 4.6729843538492847e-05,
      "loss": 0.1935,
      "step": 270
    },
    {
      "epoch": 0.33436150524367675,
      "grad_norm": 0.08879424631595612,
      "learning_rate": 4.640336734216403e-05,
      "loss": 0.2036,
      "step": 271
    },
    {
      "epoch": 0.33559531153608885,
      "grad_norm": 0.08435409516096115,
      "learning_rate": 4.607704521360776e-05,
      "loss": 0.2082,
      "step": 272
    },
    {
      "epoch": 0.33682911782850095,
      "grad_norm": 0.08487216383218765,
      "learning_rate": 4.575089113137792e-05,
      "loss": 0.1988,
      "step": 273
    },
    {
      "epoch": 0.33806292412091304,
      "grad_norm": 0.0904344990849495,
      "learning_rate": 4.542491906682989e-05,
      "loss": 0.223,
      "step": 274
    },
    {
      "epoch": 0.3392967304133251,
      "grad_norm": 0.0961432009935379,
      "learning_rate": 4.509914298352197e-05,
      "loss": 0.2497,
      "step": 275
    },
    {
      "epoch": 0.3405305367057372,
      "grad_norm": 0.0868205651640892,
      "learning_rate": 4.477357683661734e-05,
      "loss": 0.1936,
      "step": 276
    },
    {
      "epoch": 0.3417643429981493,
      "grad_norm": 0.095066137611866,
      "learning_rate": 4.444823457228612e-05,
      "loss": 0.2218,
      "step": 277
    },
    {
      "epoch": 0.3429981492905614,
      "grad_norm": 0.09955764561891556,
      "learning_rate": 4.412313012710813e-05,
      "loss": 0.2445,
      "step": 278
    },
    {
      "epoch": 0.3442319555829735,
      "grad_norm": 0.09015501290559769,
      "learning_rate": 4.379827742747575e-05,
      "loss": 0.1837,
      "step": 279
    },
    {
      "epoch": 0.3454657618753856,
      "grad_norm": 0.09675808995962143,
      "learning_rate": 4.347369038899744e-05,
      "loss": 0.2168,
      "step": 280
    },
    {
      "epoch": 0.3466995681677977,
      "grad_norm": 0.09619945287704468,
      "learning_rate": 4.3149382915901606e-05,
      "loss": 0.2105,
      "step": 281
    },
    {
      "epoch": 0.3479333744602097,
      "grad_norm": 0.09291794896125793,
      "learning_rate": 4.282536890044104e-05,
      "loss": 0.213,
      "step": 282
    },
    {
      "epoch": 0.3491671807526218,
      "grad_norm": 0.09979665279388428,
      "learning_rate": 4.250166222229774e-05,
      "loss": 0.1871,
      "step": 283
    },
    {
      "epoch": 0.3504009870450339,
      "grad_norm": 0.10551587492227554,
      "learning_rate": 4.2178276747988446e-05,
      "loss": 0.2292,
      "step": 284
    },
    {
      "epoch": 0.351634793337446,
      "grad_norm": 0.10883570462465286,
      "learning_rate": 4.185522633027057e-05,
      "loss": 0.217,
      "step": 285
    },
    {
      "epoch": 0.3528685996298581,
      "grad_norm": 0.10768181830644608,
      "learning_rate": 4.153252480754877e-05,
      "loss": 0.2114,
      "step": 286
    },
    {
      "epoch": 0.3541024059222702,
      "grad_norm": 0.11468326300382614,
      "learning_rate": 4.1210186003282275e-05,
      "loss": 0.2156,
      "step": 287
    },
    {
      "epoch": 0.3553362122146823,
      "grad_norm": 0.1050770953297615,
      "learning_rate": 4.088822372539263e-05,
      "loss": 0.1797,
      "step": 288
    },
    {
      "epoch": 0.3565700185070944,
      "grad_norm": 0.11889739334583282,
      "learning_rate": 4.0566651765672246e-05,
      "loss": 0.2208,
      "step": 289
    },
    {
      "epoch": 0.35780382479950645,
      "grad_norm": 0.10428313165903091,
      "learning_rate": 4.0245483899193595e-05,
      "loss": 0.1692,
      "step": 290
    },
    {
      "epoch": 0.35903763109191855,
      "grad_norm": 0.11104166507720947,
      "learning_rate": 3.992473388371915e-05,
      "loss": 0.1888,
      "step": 291
    },
    {
      "epoch": 0.36027143738433065,
      "grad_norm": 0.11275634169578552,
      "learning_rate": 3.960441545911204e-05,
      "loss": 0.1867,
      "step": 292
    },
    {
      "epoch": 0.36150524367674275,
      "grad_norm": 0.11824481189250946,
      "learning_rate": 3.928454234674747e-05,
      "loss": 0.1759,
      "step": 293
    },
    {
      "epoch": 0.36273904996915485,
      "grad_norm": 0.12473241984844208,
      "learning_rate": 3.896512824892495e-05,
      "loss": 0.1691,
      "step": 294
    },
    {
      "epoch": 0.36397285626156695,
      "grad_norm": 0.12856076657772064,
      "learning_rate": 3.864618684828134e-05,
      "loss": 0.1714,
      "step": 295
    },
    {
      "epoch": 0.36520666255397904,
      "grad_norm": 0.122040756046772,
      "learning_rate": 3.832773180720475e-05,
      "loss": 0.1534,
      "step": 296
    },
    {
      "epoch": 0.36644046884639114,
      "grad_norm": 0.14180490374565125,
      "learning_rate": 3.800977676724919e-05,
      "loss": 0.1587,
      "step": 297
    },
    {
      "epoch": 0.3676742751388032,
      "grad_norm": 0.15682834386825562,
      "learning_rate": 3.769233534855035e-05,
      "loss": 0.1719,
      "step": 298
    },
    {
      "epoch": 0.3689080814312153,
      "grad_norm": 0.1521540880203247,
      "learning_rate": 3.73754211492421e-05,
      "loss": 0.1515,
      "step": 299
    },
    {
      "epoch": 0.3701418877236274,
      "grad_norm": 0.21844252943992615,
      "learning_rate": 3.705904774487396e-05,
      "loss": 0.1637,
      "step": 300
    },
    {
      "epoch": 0.3701418877236274,
      "eval_loss": 0.20899313688278198,
      "eval_runtime": 40.6311,
      "eval_samples_per_second": 33.595,
      "eval_steps_per_second": 8.417,
      "step": 300
    },
    {
      "epoch": 0.3713756940160395,
      "grad_norm": 0.06189503148198128,
      "learning_rate": 3.6743228687829595e-05,
      "loss": 0.2024,
      "step": 301
    },
    {
      "epoch": 0.3726095003084516,
      "grad_norm": 0.07241328060626984,
      "learning_rate": 3.642797750674629e-05,
      "loss": 0.1948,
      "step": 302
    },
    {
      "epoch": 0.3738433066008637,
      "grad_norm": 0.06742454320192337,
      "learning_rate": 3.6113307705935396e-05,
      "loss": 0.1889,
      "step": 303
    },
    {
      "epoch": 0.3750771128932758,
      "grad_norm": 0.08077755570411682,
      "learning_rate": 3.579923276480387e-05,
      "loss": 0.2187,
      "step": 304
    },
    {
      "epoch": 0.3763109191856878,
      "grad_norm": 0.08310754597187042,
      "learning_rate": 3.5485766137276894e-05,
      "loss": 0.233,
      "step": 305
    },
    {
      "epoch": 0.3775447254780999,
      "grad_norm": 0.07585459202528,
      "learning_rate": 3.5172921251221455e-05,
      "loss": 0.208,
      "step": 306
    },
    {
      "epoch": 0.378778531770512,
      "grad_norm": 0.09313520789146423,
      "learning_rate": 3.486071150787128e-05,
      "loss": 0.2662,
      "step": 307
    },
    {
      "epoch": 0.3800123380629241,
      "grad_norm": 0.08183249086141586,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.2339,
      "step": 308
    },
    {
      "epoch": 0.3812461443553362,
      "grad_norm": 0.08511927723884583,
      "learning_rate": 3.423825091761153e-05,
      "loss": 0.239,
      "step": 309
    },
    {
      "epoch": 0.3824799506477483,
      "grad_norm": 0.08212776482105255,
      "learning_rate": 3.392802673484193e-05,
      "loss": 0.2376,
      "step": 310
    },
    {
      "epoch": 0.3837137569401604,
      "grad_norm": 0.07771366834640503,
      "learning_rate": 3.361849102191533e-05,
      "loss": 0.2022,
      "step": 311
    },
    {
      "epoch": 0.3849475632325725,
      "grad_norm": 0.07776102423667908,
      "learning_rate": 3.330965703831146e-05,
      "loss": 0.2095,
      "step": 312
    },
    {
      "epoch": 0.38618136952498455,
      "grad_norm": 0.08846472948789597,
      "learning_rate": 3.300153801345028e-05,
      "loss": 0.2337,
      "step": 313
    },
    {
      "epoch": 0.38741517581739665,
      "grad_norm": 0.08063823729753494,
      "learning_rate": 3.2694147146125345e-05,
      "loss": 0.2035,
      "step": 314
    },
    {
      "epoch": 0.38864898210980875,
      "grad_norm": 0.08297880738973618,
      "learning_rate": 3.2387497603938326e-05,
      "loss": 0.2241,
      "step": 315
    },
    {
      "epoch": 0.38988278840222085,
      "grad_norm": 0.08605928719043732,
      "learning_rate": 3.2081602522734986e-05,
      "loss": 0.2408,
      "step": 316
    },
    {
      "epoch": 0.39111659469463295,
      "grad_norm": 0.0873710960149765,
      "learning_rate": 3.177647500604252e-05,
      "loss": 0.2455,
      "step": 317
    },
    {
      "epoch": 0.39235040098704504,
      "grad_norm": 0.07954966276884079,
      "learning_rate": 3.147212812450819e-05,
      "loss": 0.1995,
      "step": 318
    },
    {
      "epoch": 0.39358420727945714,
      "grad_norm": 0.08836322277784348,
      "learning_rate": 3.116857491533947e-05,
      "loss": 0.2161,
      "step": 319
    },
    {
      "epoch": 0.39481801357186924,
      "grad_norm": 0.08893566578626633,
      "learning_rate": 3.086582838174551e-05,
      "loss": 0.2469,
      "step": 320
    },
    {
      "epoch": 0.3960518198642813,
      "grad_norm": 0.08918251842260361,
      "learning_rate": 3.056390149238022e-05,
      "loss": 0.2053,
      "step": 321
    },
    {
      "epoch": 0.3972856261566934,
      "grad_norm": 0.08786524832248688,
      "learning_rate": 3.0262807180786647e-05,
      "loss": 0.2222,
      "step": 322
    },
    {
      "epoch": 0.3985194324491055,
      "grad_norm": 0.0948166623711586,
      "learning_rate": 2.996255834484296e-05,
      "loss": 0.2481,
      "step": 323
    },
    {
      "epoch": 0.3997532387415176,
      "grad_norm": 0.09448514878749847,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 0.245,
      "step": 324
    },
    {
      "epoch": 0.4009870450339297,
      "grad_norm": 0.09571103006601334,
      "learning_rate": 2.936464850978027e-05,
      "loss": 0.2236,
      "step": 325
    },
    {
      "epoch": 0.4022208513263418,
      "grad_norm": 0.1052003875374794,
      "learning_rate": 2.9067013123128613e-05,
      "loss": 0.2269,
      "step": 326
    },
    {
      "epoch": 0.4034546576187539,
      "grad_norm": 0.09968730062246323,
      "learning_rate": 2.8770274435964355e-05,
      "loss": 0.2104,
      "step": 327
    },
    {
      "epoch": 0.404688463911166,
      "grad_norm": 0.09719698131084442,
      "learning_rate": 2.8474445159585235e-05,
      "loss": 0.2137,
      "step": 328
    },
    {
      "epoch": 0.405922270203578,
      "grad_norm": 0.0904809907078743,
      "learning_rate": 2.8179537966332887e-05,
      "loss": 0.1881,
      "step": 329
    },
    {
      "epoch": 0.4071560764959901,
      "grad_norm": 0.09702154994010925,
      "learning_rate": 2.7885565489049946e-05,
      "loss": 0.2148,
      "step": 330
    },
    {
      "epoch": 0.4083898827884022,
      "grad_norm": 0.0986437201499939,
      "learning_rate": 2.759254032053888e-05,
      "loss": 0.2245,
      "step": 331
    },
    {
      "epoch": 0.4096236890808143,
      "grad_norm": 0.09900819510221481,
      "learning_rate": 2.7300475013022663e-05,
      "loss": 0.1952,
      "step": 332
    },
    {
      "epoch": 0.4108574953732264,
      "grad_norm": 0.10802887380123138,
      "learning_rate": 2.700938207760701e-05,
      "loss": 0.2274,
      "step": 333
    },
    {
      "epoch": 0.4120913016656385,
      "grad_norm": 0.09691739082336426,
      "learning_rate": 2.671927398374443e-05,
      "loss": 0.1749,
      "step": 334
    },
    {
      "epoch": 0.4133251079580506,
      "grad_norm": 0.10448677837848663,
      "learning_rate": 2.6430163158700115e-05,
      "loss": 0.2081,
      "step": 335
    },
    {
      "epoch": 0.41455891425046265,
      "grad_norm": 0.10372328758239746,
      "learning_rate": 2.6142061987019577e-05,
      "loss": 0.1902,
      "step": 336
    },
    {
      "epoch": 0.41579272054287475,
      "grad_norm": 0.10816949605941772,
      "learning_rate": 2.5854982809998153e-05,
      "loss": 0.2036,
      "step": 337
    },
    {
      "epoch": 0.41702652683528685,
      "grad_norm": 0.10882380604743958,
      "learning_rate": 2.556893792515227e-05,
      "loss": 0.1684,
      "step": 338
    },
    {
      "epoch": 0.41826033312769895,
      "grad_norm": 0.11531180143356323,
      "learning_rate": 2.5283939585692783e-05,
      "loss": 0.2016,
      "step": 339
    },
    {
      "epoch": 0.41949413942011105,
      "grad_norm": 0.11347069591283798,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.1531,
      "step": 340
    },
    {
      "epoch": 0.42072794571252314,
      "grad_norm": 0.12205277383327484,
      "learning_rate": 2.471713133110078e-05,
      "loss": 0.1984,
      "step": 341
    },
    {
      "epoch": 0.42196175200493524,
      "grad_norm": 0.1112011969089508,
      "learning_rate": 2.4435345696147403e-05,
      "loss": 0.1662,
      "step": 342
    },
    {
      "epoch": 0.42319555829734734,
      "grad_norm": 0.12069138139486313,
      "learning_rate": 2.4154655165898627e-05,
      "loss": 0.1797,
      "step": 343
    },
    {
      "epoch": 0.4244293645897594,
      "grad_norm": 0.11867133527994156,
      "learning_rate": 2.3875071764202563e-05,
      "loss": 0.1443,
      "step": 344
    },
    {
      "epoch": 0.4256631708821715,
      "grad_norm": 0.1192847490310669,
      "learning_rate": 2.3596607467481603e-05,
      "loss": 0.1601,
      "step": 345
    },
    {
      "epoch": 0.4268969771745836,
      "grad_norm": 0.12155300378799438,
      "learning_rate": 2.3319274204219428e-05,
      "loss": 0.1374,
      "step": 346
    },
    {
      "epoch": 0.4281307834669957,
      "grad_norm": 0.14621785283088684,
      "learning_rate": 2.3043083854449988e-05,
      "loss": 0.1702,
      "step": 347
    },
    {
      "epoch": 0.4293645897594078,
      "grad_norm": 0.14364224672317505,
      "learning_rate": 2.2768048249248648e-05,
      "loss": 0.1184,
      "step": 348
    },
    {
      "epoch": 0.4305983960518199,
      "grad_norm": 0.15279346704483032,
      "learning_rate": 2.2494179170225333e-05,
      "loss": 0.1251,
      "step": 349
    },
    {
      "epoch": 0.431832202344232,
      "grad_norm": 0.22584083676338196,
      "learning_rate": 2.2221488349019903e-05,
      "loss": 0.1781,
      "step": 350
    },
    {
      "epoch": 0.4330660086366441,
      "grad_norm": 0.05609050393104553,
      "learning_rate": 2.194998746679952e-05,
      "loss": 0.1682,
      "step": 351
    },
    {
      "epoch": 0.4342998149290561,
      "grad_norm": 0.06430920213460922,
      "learning_rate": 2.167968815375837e-05,
      "loss": 0.2013,
      "step": 352
    },
    {
      "epoch": 0.4355336212214682,
      "grad_norm": 0.06918568909168243,
      "learning_rate": 2.1410601988619394e-05,
      "loss": 0.2045,
      "step": 353
    },
    {
      "epoch": 0.4367674275138803,
      "grad_norm": 0.06706669926643372,
      "learning_rate": 2.1142740498138324e-05,
      "loss": 0.1898,
      "step": 354
    },
    {
      "epoch": 0.4380012338062924,
      "grad_norm": 0.07146313041448593,
      "learning_rate": 2.08761151566099e-05,
      "loss": 0.2153,
      "step": 355
    },
    {
      "epoch": 0.4392350400987045,
      "grad_norm": 0.06966935843229294,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.1985,
      "step": 356
    },
    {
      "epoch": 0.4404688463911166,
      "grad_norm": 0.07847103476524353,
      "learning_rate": 2.034661855233815e-05,
      "loss": 0.2018,
      "step": 357
    },
    {
      "epoch": 0.4417026526835287,
      "grad_norm": 0.07147523760795593,
      "learning_rate": 2.008376997146705e-05,
      "loss": 0.2007,
      "step": 358
    },
    {
      "epoch": 0.44293645897594075,
      "grad_norm": 0.07741963863372803,
      "learning_rate": 1.982220290232143e-05,
      "loss": 0.2362,
      "step": 359
    },
    {
      "epoch": 0.44417026526835285,
      "grad_norm": 0.08075841516256332,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 0.2231,
      "step": 360
    },
    {
      "epoch": 0.44540407156076495,
      "grad_norm": 0.08504510670900345,
      "learning_rate": 1.9302958062481673e-05,
      "loss": 0.2131,
      "step": 361
    },
    {
      "epoch": 0.44663787785317705,
      "grad_norm": 0.08074001222848892,
      "learning_rate": 1.9045302534508297e-05,
      "loss": 0.2216,
      "step": 362
    },
    {
      "epoch": 0.44787168414558914,
      "grad_norm": 0.07794257998466492,
      "learning_rate": 1.8788973002749112e-05,
      "loss": 0.2128,
      "step": 363
    },
    {
      "epoch": 0.44910549043800124,
      "grad_norm": 0.08979692310094833,
      "learning_rate": 1.8533980447508137e-05,
      "loss": 0.2299,
      "step": 364
    },
    {
      "epoch": 0.45033929673041334,
      "grad_norm": 0.07670247554779053,
      "learning_rate": 1.8280335791817733e-05,
      "loss": 0.1871,
      "step": 365
    },
    {
      "epoch": 0.45157310302282544,
      "grad_norm": 0.07890000939369202,
      "learning_rate": 1.8028049900970767e-05,
      "loss": 0.2007,
      "step": 366
    },
    {
      "epoch": 0.4528069093152375,
      "grad_norm": 0.09042190760374069,
      "learning_rate": 1.777713358205514e-05,
      "loss": 0.2431,
      "step": 367
    },
    {
      "epoch": 0.4540407156076496,
      "grad_norm": 0.08517103642225266,
      "learning_rate": 1.7527597583490822e-05,
      "loss": 0.21,
      "step": 368
    },
    {
      "epoch": 0.4552745219000617,
      "grad_norm": 0.08421489596366882,
      "learning_rate": 1.7279452594569483e-05,
      "loss": 0.2006,
      "step": 369
    },
    {
      "epoch": 0.4565083281924738,
      "grad_norm": 0.08416984975337982,
      "learning_rate": 1.703270924499656e-05,
      "loss": 0.1812,
      "step": 370
    },
    {
      "epoch": 0.4577421344848859,
      "grad_norm": 0.09717515110969543,
      "learning_rate": 1.678737810443593e-05,
      "loss": 0.2298,
      "step": 371
    },
    {
      "epoch": 0.458975940777298,
      "grad_norm": 0.10004489123821259,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 0.259,
      "step": 372
    },
    {
      "epoch": 0.4602097470697101,
      "grad_norm": 0.08940889686346054,
      "learning_rate": 1.6300994426085103e-05,
      "loss": 0.2018,
      "step": 373
    },
    {
      "epoch": 0.46144355336212217,
      "grad_norm": 0.09842688590288162,
      "learning_rate": 1.605996272335291e-05,
      "loss": 0.231,
      "step": 374
    },
    {
      "epoch": 0.4626773596545342,
      "grad_norm": 0.09990588575601578,
      "learning_rate": 1.5820384898856434e-05,
      "loss": 0.2609,
      "step": 375
    },
    {
      "epoch": 0.4639111659469463,
      "grad_norm": 0.09662793576717377,
      "learning_rate": 1.5582271215312294e-05,
      "loss": 0.203,
      "step": 376
    },
    {
      "epoch": 0.4651449722393584,
      "grad_norm": 0.10606589913368225,
      "learning_rate": 1.5345631872718214e-05,
      "loss": 0.2271,
      "step": 377
    },
    {
      "epoch": 0.4663787785317705,
      "grad_norm": 0.09799453616142273,
      "learning_rate": 1.5110477007916001e-05,
      "loss": 0.2038,
      "step": 378
    },
    {
      "epoch": 0.4676125848241826,
      "grad_norm": 0.10859668254852295,
      "learning_rate": 1.4876816694157419e-05,
      "loss": 0.2477,
      "step": 379
    },
    {
      "epoch": 0.4688463911165947,
      "grad_norm": 0.09894972294569016,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 0.2094,
      "step": 380
    },
    {
      "epoch": 0.4700801974090068,
      "grad_norm": 0.09429249912500381,
      "learning_rate": 1.4414019692241437e-05,
      "loss": 0.1823,
      "step": 381
    },
    {
      "epoch": 0.4713140037014189,
      "grad_norm": 0.09697047621011734,
      "learning_rate": 1.4184902828767287e-05,
      "loss": 0.1723,
      "step": 382
    },
    {
      "epoch": 0.47254780999383095,
      "grad_norm": 0.11906833201646805,
      "learning_rate": 1.3957320164854059e-05,
      "loss": 0.2452,
      "step": 383
    },
    {
      "epoch": 0.47378161628624305,
      "grad_norm": 0.11138041317462921,
      "learning_rate": 1.373128144938563e-05,
      "loss": 0.2268,
      "step": 384
    },
    {
      "epoch": 0.47501542257865514,
      "grad_norm": 0.10579191148281097,
      "learning_rate": 1.3506796365108232e-05,
      "loss": 0.1969,
      "step": 385
    },
    {
      "epoch": 0.47624922887106724,
      "grad_norm": 0.11738854646682739,
      "learning_rate": 1.3283874528215733e-05,
      "loss": 0.1984,
      "step": 386
    },
    {
      "epoch": 0.47748303516347934,
      "grad_norm": 0.11798537522554398,
      "learning_rate": 1.3062525487937699e-05,
      "loss": 0.2094,
      "step": 387
    },
    {
      "epoch": 0.47871684145589144,
      "grad_norm": 0.12282668054103851,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 0.206,
      "step": 388
    },
    {
      "epoch": 0.47995064774830354,
      "grad_norm": 0.11594880372285843,
      "learning_rate": 1.2624583656870154e-05,
      "loss": 0.1793,
      "step": 389
    },
    {
      "epoch": 0.4811844540407156,
      "grad_norm": 0.10560763627290726,
      "learning_rate": 1.2408009626051137e-05,
      "loss": 0.1451,
      "step": 390
    },
    {
      "epoch": 0.4824182603331277,
      "grad_norm": 0.11419930309057236,
      "learning_rate": 1.2193045910983863e-05,
      "loss": 0.1476,
      "step": 391
    },
    {
      "epoch": 0.4836520666255398,
      "grad_norm": 0.12298233062028885,
      "learning_rate": 1.1979701719998453e-05,
      "loss": 0.1882,
      "step": 392
    },
    {
      "epoch": 0.4848858729179519,
      "grad_norm": 0.11934439092874527,
      "learning_rate": 1.1767986192049984e-05,
      "loss": 0.1557,
      "step": 393
    },
    {
      "epoch": 0.486119679210364,
      "grad_norm": 0.11773274838924408,
      "learning_rate": 1.1557908396327028e-05,
      "loss": 0.1563,
      "step": 394
    },
    {
      "epoch": 0.4873534855027761,
      "grad_norm": 0.1406329721212387,
      "learning_rate": 1.134947733186315e-05,
      "loss": 0.174,
      "step": 395
    },
    {
      "epoch": 0.48858729179518817,
      "grad_norm": 0.1246836930513382,
      "learning_rate": 1.1142701927151456e-05,
      "loss": 0.1426,
      "step": 396
    },
    {
      "epoch": 0.48982109808760027,
      "grad_norm": 0.14670878648757935,
      "learning_rate": 1.0937591039762085e-05,
      "loss": 0.1683,
      "step": 397
    },
    {
      "epoch": 0.4910549043800123,
      "grad_norm": 0.14331825077533722,
      "learning_rate": 1.0734153455962765e-05,
      "loss": 0.1504,
      "step": 398
    },
    {
      "epoch": 0.4922887106724244,
      "grad_norm": 0.17879055440425873,
      "learning_rate": 1.0532397890342505e-05,
      "loss": 0.1752,
      "step": 399
    },
    {
      "epoch": 0.4935225169648365,
      "grad_norm": 0.23279309272766113,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 0.1629,
      "step": 400
    },
    {
      "epoch": 0.4935225169648365,
      "eval_loss": 0.2035583257675171,
      "eval_runtime": 40.6418,
      "eval_samples_per_second": 33.586,
      "eval_steps_per_second": 8.415,
      "step": 400
    },
    {
      "epoch": 0.4947563232572486,
      "grad_norm": 0.05907496437430382,
      "learning_rate": 1.013396731136465e-05,
      "loss": 0.1831,
      "step": 401
    },
    {
      "epoch": 0.4959901295496607,
      "grad_norm": 0.06178834289312363,
      "learning_rate": 9.937309365446973e-06,
      "loss": 0.2201,
      "step": 402
    },
    {
      "epoch": 0.4972239358420728,
      "grad_norm": 0.06387822329998016,
      "learning_rate": 9.742367571857091e-06,
      "loss": 0.211,
      "step": 403
    },
    {
      "epoch": 0.4984577421344849,
      "grad_norm": 0.06637680530548096,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.2188,
      "step": 404
    },
    {
      "epoch": 0.499691548426897,
      "grad_norm": 0.06916733086109161,
      "learning_rate": 9.357665770419244e-06,
      "loss": 0.204,
      "step": 405
    },
    {
      "epoch": 0.5009253547193091,
      "grad_norm": 0.07083117961883545,
      "learning_rate": 9.167922241916055e-06,
      "loss": 0.1932,
      "step": 406
    },
    {
      "epoch": 0.5021591610117212,
      "grad_norm": 0.07382626831531525,
      "learning_rate": 8.97992782372432e-06,
      "loss": 0.2082,
      "step": 407
    },
    {
      "epoch": 0.5033929673041333,
      "grad_norm": 0.07146268337965012,
      "learning_rate": 8.793690568899216e-06,
      "loss": 0.2003,
      "step": 408
    },
    {
      "epoch": 0.5046267735965454,
      "grad_norm": 0.07611766457557678,
      "learning_rate": 8.609218455224893e-06,
      "loss": 0.2105,
      "step": 409
    },
    {
      "epoch": 0.5058605798889574,
      "grad_norm": 0.07422015815973282,
      "learning_rate": 8.426519384872733e-06,
      "loss": 0.2071,
      "step": 410
    },
    {
      "epoch": 0.5070943861813695,
      "grad_norm": 0.08063660562038422,
      "learning_rate": 8.245601184062852e-06,
      "loss": 0.2515,
      "step": 411
    },
    {
      "epoch": 0.5083281924737816,
      "grad_norm": 0.08446769416332245,
      "learning_rate": 8.066471602728803e-06,
      "loss": 0.2188,
      "step": 412
    },
    {
      "epoch": 0.5095619987661937,
      "grad_norm": 0.07608439773321152,
      "learning_rate": 7.889138314185678e-06,
      "loss": 0.2,
      "step": 413
    },
    {
      "epoch": 0.5107958050586058,
      "grad_norm": 0.07993105798959732,
      "learning_rate": 7.71360891480134e-06,
      "loss": 0.1959,
      "step": 414
    },
    {
      "epoch": 0.5120296113510179,
      "grad_norm": 0.08644864708185196,
      "learning_rate": 7.539890923671062e-06,
      "loss": 0.2345,
      "step": 415
    },
    {
      "epoch": 0.51326341764343,
      "grad_norm": 0.08052248507738113,
      "learning_rate": 7.367991782295391e-06,
      "loss": 0.2161,
      "step": 416
    },
    {
      "epoch": 0.5144972239358421,
      "grad_norm": 0.08327414095401764,
      "learning_rate": 7.197918854261432e-06,
      "loss": 0.2112,
      "step": 417
    },
    {
      "epoch": 0.5157310302282542,
      "grad_norm": 0.08387719094753265,
      "learning_rate": 7.029679424927365e-06,
      "loss": 0.2007,
      "step": 418
    },
    {
      "epoch": 0.5169648365206663,
      "grad_norm": 0.0888223946094513,
      "learning_rate": 6.863280701110408e-06,
      "loss": 0.1982,
      "step": 419
    },
    {
      "epoch": 0.5181986428130784,
      "grad_norm": 0.08903708308935165,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.2146,
      "step": 420
    },
    {
      "epoch": 0.5194324491054905,
      "grad_norm": 0.08610260486602783,
      "learning_rate": 6.536033802742813e-06,
      "loss": 0.211,
      "step": 421
    },
    {
      "epoch": 0.5206662553979026,
      "grad_norm": 0.08642527461051941,
      "learning_rate": 6.375199646360142e-06,
      "loss": 0.2052,
      "step": 422
    },
    {
      "epoch": 0.5219000616903147,
      "grad_norm": 0.0928088054060936,
      "learning_rate": 6.216234231230012e-06,
      "loss": 0.2287,
      "step": 423
    },
    {
      "epoch": 0.5231338679827268,
      "grad_norm": 0.09484510868787766,
      "learning_rate": 6.059144366901736e-06,
      "loss": 0.2354,
      "step": 424
    },
    {
      "epoch": 0.5243676742751388,
      "grad_norm": 0.09639546275138855,
      "learning_rate": 5.903936782582253e-06,
      "loss": 0.2212,
      "step": 425
    },
    {
      "epoch": 0.5256014805675508,
      "grad_norm": 0.10334055125713348,
      "learning_rate": 5.750618126847912e-06,
      "loss": 0.2355,
      "step": 426
    },
    {
      "epoch": 0.526835286859963,
      "grad_norm": 0.09705613553524017,
      "learning_rate": 5.599194967359639e-06,
      "loss": 0.1967,
      "step": 427
    },
    {
      "epoch": 0.528069093152375,
      "grad_norm": 0.09922648966312408,
      "learning_rate": 5.449673790581611e-06,
      "loss": 0.1974,
      "step": 428
    },
    {
      "epoch": 0.5293028994447871,
      "grad_norm": 0.09956184774637222,
      "learning_rate": 5.302061001503394e-06,
      "loss": 0.2025,
      "step": 429
    },
    {
      "epoch": 0.5305367057371992,
      "grad_norm": 0.09994903951883316,
      "learning_rate": 5.156362923365588e-06,
      "loss": 0.1949,
      "step": 430
    },
    {
      "epoch": 0.5317705120296113,
      "grad_norm": 0.10518450289964676,
      "learning_rate": 5.012585797388936e-06,
      "loss": 0.1963,
      "step": 431
    },
    {
      "epoch": 0.5330043183220234,
      "grad_norm": 0.10081298649311066,
      "learning_rate": 4.87073578250698e-06,
      "loss": 0.1845,
      "step": 432
    },
    {
      "epoch": 0.5342381246144355,
      "grad_norm": 0.10413754731416702,
      "learning_rate": 4.730818955102234e-06,
      "loss": 0.1842,
      "step": 433
    },
    {
      "epoch": 0.5354719309068476,
      "grad_norm": 0.11515442281961441,
      "learning_rate": 4.592841308745932e-06,
      "loss": 0.2232,
      "step": 434
    },
    {
      "epoch": 0.5367057371992597,
      "grad_norm": 0.11241389811038971,
      "learning_rate": 4.456808753941205e-06,
      "loss": 0.2102,
      "step": 435
    },
    {
      "epoch": 0.5379395434916718,
      "grad_norm": 0.10997621715068817,
      "learning_rate": 4.322727117869951e-06,
      "loss": 0.1856,
      "step": 436
    },
    {
      "epoch": 0.5391733497840839,
      "grad_norm": 0.1023242324590683,
      "learning_rate": 4.190602144143207e-06,
      "loss": 0.1433,
      "step": 437
    },
    {
      "epoch": 0.540407156076496,
      "grad_norm": 0.11504156142473221,
      "learning_rate": 4.06043949255509e-06,
      "loss": 0.1858,
      "step": 438
    },
    {
      "epoch": 0.5416409623689081,
      "grad_norm": 0.12515626847743988,
      "learning_rate": 3.932244738840379e-06,
      "loss": 0.2033,
      "step": 439
    },
    {
      "epoch": 0.5428747686613201,
      "grad_norm": 0.1275477260351181,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 0.2038,
      "step": 440
    },
    {
      "epoch": 0.5441085749537322,
      "grad_norm": 0.10711859166622162,
      "learning_rate": 3.681780806244095e-06,
      "loss": 0.1577,
      "step": 441
    },
    {
      "epoch": 0.5453423812461443,
      "grad_norm": 0.12425217777490616,
      "learning_rate": 3.5595223564037884e-06,
      "loss": 0.1808,
      "step": 442
    },
    {
      "epoch": 0.5465761875385564,
      "grad_norm": 0.14004234969615936,
      "learning_rate": 3.4392532620598216e-06,
      "loss": 0.2242,
      "step": 443
    },
    {
      "epoch": 0.5478099938309685,
      "grad_norm": 0.14121286571025848,
      "learning_rate": 3.3209786751399187e-06,
      "loss": 0.1991,
      "step": 444
    },
    {
      "epoch": 0.5490438001233806,
      "grad_norm": 0.13710319995880127,
      "learning_rate": 3.2047036621337236e-06,
      "loss": 0.1525,
      "step": 445
    },
    {
      "epoch": 0.5502776064157927,
      "grad_norm": 0.13279403746128082,
      "learning_rate": 3.0904332038757977e-06,
      "loss": 0.1474,
      "step": 446
    },
    {
      "epoch": 0.5515114127082048,
      "grad_norm": 0.14184878766536713,
      "learning_rate": 2.978172195332263e-06,
      "loss": 0.1459,
      "step": 447
    },
    {
      "epoch": 0.5527452190006169,
      "grad_norm": 0.1723329722881317,
      "learning_rate": 2.8679254453910785e-06,
      "loss": 0.1737,
      "step": 448
    },
    {
      "epoch": 0.553979025293029,
      "grad_norm": 0.15881197154521942,
      "learning_rate": 2.759697676656098e-06,
      "loss": 0.1439,
      "step": 449
    },
    {
      "epoch": 0.5552128315854411,
      "grad_norm": 0.2480788379907608,
      "learning_rate": 2.653493525244721e-06,
      "loss": 0.2166,
      "step": 450
    },
    {
      "epoch": 0.5564466378778532,
      "grad_norm": 0.0558369942009449,
      "learning_rate": 2.549317540589308e-06,
      "loss": 0.1755,
      "step": 451
    },
    {
      "epoch": 0.5576804441702653,
      "grad_norm": 0.05746211111545563,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.1823,
      "step": 452
    },
    {
      "epoch": 0.5589142504626774,
      "grad_norm": 0.06545212864875793,
      "learning_rate": 2.3470678346851518e-06,
      "loss": 0.1781,
      "step": 453
    },
    {
      "epoch": 0.5601480567550895,
      "grad_norm": 0.06632015854120255,
      "learning_rate": 2.2490027771406687e-06,
      "loss": 0.1943,
      "step": 454
    },
    {
      "epoch": 0.5613818630475016,
      "grad_norm": 0.06479636579751968,
      "learning_rate": 2.152983213389559e-06,
      "loss": 0.1929,
      "step": 455
    },
    {
      "epoch": 0.5626156693399136,
      "grad_norm": 0.07213082164525986,
      "learning_rate": 2.0590132565903476e-06,
      "loss": 0.2061,
      "step": 456
    },
    {
      "epoch": 0.5638494756323257,
      "grad_norm": 0.07741328328847885,
      "learning_rate": 1.9670969321032407e-06,
      "loss": 0.2087,
      "step": 457
    },
    {
      "epoch": 0.5650832819247378,
      "grad_norm": 0.0772465169429779,
      "learning_rate": 1.8772381773176417e-06,
      "loss": 0.2148,
      "step": 458
    },
    {
      "epoch": 0.5663170882171499,
      "grad_norm": 0.06848488003015518,
      "learning_rate": 1.7894408414835362e-06,
      "loss": 0.175,
      "step": 459
    },
    {
      "epoch": 0.567550894509562,
      "grad_norm": 0.0815482810139656,
      "learning_rate": 1.70370868554659e-06,
      "loss": 0.2286,
      "step": 460
    },
    {
      "epoch": 0.5687847008019741,
      "grad_norm": 0.07838231325149536,
      "learning_rate": 1.620045381987012e-06,
      "loss": 0.2045,
      "step": 461
    },
    {
      "epoch": 0.5700185070943862,
      "grad_norm": 0.08017097413539886,
      "learning_rate": 1.5384545146622852e-06,
      "loss": 0.1936,
      "step": 462
    },
    {
      "epoch": 0.5712523133867983,
      "grad_norm": 0.08059185743331909,
      "learning_rate": 1.4589395786535953e-06,
      "loss": 0.2177,
      "step": 463
    },
    {
      "epoch": 0.5724861196792104,
      "grad_norm": 0.07872222363948822,
      "learning_rate": 1.3815039801161721e-06,
      "loss": 0.22,
      "step": 464
    },
    {
      "epoch": 0.5737199259716225,
      "grad_norm": 0.07812534272670746,
      "learning_rate": 1.3061510361333185e-06,
      "loss": 0.1984,
      "step": 465
    },
    {
      "epoch": 0.5749537322640346,
      "grad_norm": 0.08460269868373871,
      "learning_rate": 1.232883974574367e-06,
      "loss": 0.2253,
      "step": 466
    },
    {
      "epoch": 0.5761875385564467,
      "grad_norm": 0.08924011141061783,
      "learning_rate": 1.1617059339563807e-06,
      "loss": 0.2208,
      "step": 467
    },
    {
      "epoch": 0.5774213448488588,
      "grad_norm": 0.09374957531690598,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 0.2396,
      "step": 468
    },
    {
      "epoch": 0.5786551511412709,
      "grad_norm": 0.0896354466676712,
      "learning_rate": 1.0256290220474307e-06,
      "loss": 0.2397,
      "step": 469
    },
    {
      "epoch": 0.579888957433683,
      "grad_norm": 0.08709780126810074,
      "learning_rate": 9.607359798384785e-07,
      "loss": 0.2182,
      "step": 470
    },
    {
      "epoch": 0.581122763726095,
      "grad_norm": 0.09409823268651962,
      "learning_rate": 8.979436164848088e-07,
      "loss": 0.224,
      "step": 471
    },
    {
      "epoch": 0.582356570018507,
      "grad_norm": 0.09488993883132935,
      "learning_rate": 8.372546218022747e-07,
      "loss": 0.2433,
      "step": 472
    },
    {
      "epoch": 0.5835903763109191,
      "grad_norm": 0.08438821882009506,
      "learning_rate": 7.786715955054203e-07,
      "loss": 0.1911,
      "step": 473
    },
    {
      "epoch": 0.5848241826033312,
      "grad_norm": 0.09722849726676941,
      "learning_rate": 7.221970470961125e-07,
      "loss": 0.232,
      "step": 474
    },
    {
      "epoch": 0.5860579888957433,
      "grad_norm": 0.09462378174066544,
      "learning_rate": 6.678333957560512e-07,
      "loss": 0.213,
      "step": 475
    },
    {
      "epoch": 0.5872917951881554,
      "grad_norm": 0.09622008353471756,
      "learning_rate": 6.15582970243117e-07,
      "loss": 0.2137,
      "step": 476
    },
    {
      "epoch": 0.5885256014805675,
      "grad_norm": 0.10007434338331223,
      "learning_rate": 5.654480087916303e-07,
      "loss": 0.233,
      "step": 477
    },
    {
      "epoch": 0.5897594077729796,
      "grad_norm": 0.10003170371055603,
      "learning_rate": 5.174306590164879e-07,
      "loss": 0.21,
      "step": 478
    },
    {
      "epoch": 0.5909932140653917,
      "grad_norm": 0.11316259205341339,
      "learning_rate": 4.715329778211375e-07,
      "loss": 0.2142,
      "step": 479
    },
    {
      "epoch": 0.5922270203578038,
      "grad_norm": 0.0943218544125557,
      "learning_rate": 4.277569313094809e-07,
      "loss": 0.1922,
      "step": 480
    },
    {
      "epoch": 0.5934608266502159,
      "grad_norm": 0.10454177856445312,
      "learning_rate": 3.8610439470164737e-07,
      "loss": 0.2127,
      "step": 481
    },
    {
      "epoch": 0.594694632942628,
      "grad_norm": 0.10452734678983688,
      "learning_rate": 3.465771522536854e-07,
      "loss": 0.2031,
      "step": 482
    },
    {
      "epoch": 0.5959284392350401,
      "grad_norm": 0.10703020542860031,
      "learning_rate": 3.09176897181096e-07,
      "loss": 0.196,
      "step": 483
    },
    {
      "epoch": 0.5971622455274522,
      "grad_norm": 0.10975900292396545,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 0.2003,
      "step": 484
    },
    {
      "epoch": 0.5983960518198643,
      "grad_norm": 0.10223764181137085,
      "learning_rate": 2.407636663901591e-07,
      "loss": 0.1734,
      "step": 485
    },
    {
      "epoch": 0.5996298581122764,
      "grad_norm": 0.1174619272351265,
      "learning_rate": 2.0975362126691712e-07,
      "loss": 0.2305,
      "step": 486
    },
    {
      "epoch": 0.6008636644046884,
      "grad_norm": 0.1163976863026619,
      "learning_rate": 1.8087642458373134e-07,
      "loss": 0.1913,
      "step": 487
    },
    {
      "epoch": 0.6020974706971005,
      "grad_norm": 0.1165875792503357,
      "learning_rate": 1.5413331334360182e-07,
      "loss": 0.2003,
      "step": 488
    },
    {
      "epoch": 0.6033312769895126,
      "grad_norm": 0.1202339380979538,
      "learning_rate": 1.2952543313240472e-07,
      "loss": 0.2028,
      "step": 489
    },
    {
      "epoch": 0.6045650832819247,
      "grad_norm": 0.12048514187335968,
      "learning_rate": 1.0705383806982606e-07,
      "loss": 0.2013,
      "step": 490
    },
    {
      "epoch": 0.6057988895743368,
      "grad_norm": 0.12421555072069168,
      "learning_rate": 8.671949076420882e-08,
      "loss": 0.1682,
      "step": 491
    },
    {
      "epoch": 0.6070326958667489,
      "grad_norm": 0.12594039738178253,
      "learning_rate": 6.852326227130834e-08,
      "loss": 0.1912,
      "step": 492
    },
    {
      "epoch": 0.608266502159161,
      "grad_norm": 0.11484608799219131,
      "learning_rate": 5.246593205699424e-08,
      "loss": 0.1357,
      "step": 493
    },
    {
      "epoch": 0.6095003084515731,
      "grad_norm": 0.13233353197574615,
      "learning_rate": 3.8548187963854956e-08,
      "loss": 0.1844,
      "step": 494
    },
    {
      "epoch": 0.6107341147439852,
      "grad_norm": 0.12146630138158798,
      "learning_rate": 2.6770626181715773e-08,
      "loss": 0.1303,
      "step": 495
    },
    {
      "epoch": 0.6119679210363973,
      "grad_norm": 0.12468820810317993,
      "learning_rate": 1.7133751222137007e-08,
      "loss": 0.1277,
      "step": 496
    },
    {
      "epoch": 0.6132017273288094,
      "grad_norm": 0.13246463239192963,
      "learning_rate": 9.637975896759077e-09,
      "loss": 0.1453,
      "step": 497
    },
    {
      "epoch": 0.6144355336212215,
      "grad_norm": 0.14409124851226807,
      "learning_rate": 4.2836212996499865e-09,
      "loss": 0.1421,
      "step": 498
    },
    {
      "epoch": 0.6156693399136336,
      "grad_norm": 0.18496178090572357,
      "learning_rate": 1.0709167935385455e-09,
      "loss": 0.189,
      "step": 499
    },
    {
      "epoch": 0.6169031462060457,
      "grad_norm": 0.193314790725708,
      "learning_rate": 0.0,
      "loss": 0.1721,
      "step": 500
    },
    {
      "epoch": 0.6169031462060457,
      "eval_loss": 0.202864408493042,
      "eval_runtime": 40.6205,
      "eval_samples_per_second": 33.604,
      "eval_steps_per_second": 8.419,
      "step": 500
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.6627926527115264e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}