Training in progress, step 200, checkpoint

de66d38 verified 25 days ago

37.7 kB

	{
	"best_metric": 0.9611303806304932,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.10722962218312809,
	"eval_steps": 25,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005361481109156405,
	"grad_norm": 2.792823553085327,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 33.294,
	"step": 1
	},
	{
	"epoch": 0.0005361481109156405,
	"eval_loss": 1.278591275215149,
	"eval_runtime": 6.8803,
	"eval_samples_per_second": 7.267,
	"eval_steps_per_second": 7.267,
	"step": 1
	},
	{
	"epoch": 0.001072296221831281,
	"grad_norm": 2.6599700450897217,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 35.668,
	"step": 2
	},
	{
	"epoch": 0.0016084443327469213,
	"grad_norm": 2.681920051574707,
	"learning_rate": 8.999999999999999e-05,
	"loss": 35.5497,
	"step": 3
	},
	{
	"epoch": 0.002144592443662562,
	"grad_norm": 2.969249725341797,
	"learning_rate": 0.00011999999999999999,
	"loss": 35.8928,
	"step": 4
	},
	{
	"epoch": 0.0026807405545782024,
	"grad_norm": 3.7171504497528076,
	"learning_rate": 0.00015,
	"loss": 37.1297,
	"step": 5
	},
	{
	"epoch": 0.0032168886654938425,
	"grad_norm": 4.583807468414307,
	"learning_rate": 0.00017999999999999998,
	"loss": 38.0923,
	"step": 6
	},
	{
	"epoch": 0.003753036776409483,
	"grad_norm": 5.622003078460693,
	"learning_rate": 0.00020999999999999998,
	"loss": 37.8901,
	"step": 7
	},
	{
	"epoch": 0.004289184887325124,
	"grad_norm": 4.869115352630615,
	"learning_rate": 0.00023999999999999998,
	"loss": 37.1484,
	"step": 8
	},
	{
	"epoch": 0.004825332998240764,
	"grad_norm": 4.734254360198975,
	"learning_rate": 0.00027,
	"loss": 36.4778,
	"step": 9
	},
	{
	"epoch": 0.005361481109156405,
	"grad_norm": 11.934779167175293,
	"learning_rate": 0.0003,
	"loss": 36.416,
	"step": 10
	},
	{
	"epoch": 0.0058976292200720445,
	"grad_norm": 10.776172637939453,
	"learning_rate": 0.0002999794957488703,
	"loss": 34.7884,
	"step": 11
	},
	{
	"epoch": 0.006433777330987685,
	"grad_norm": 9.7468900680542,
	"learning_rate": 0.0002999179886011389,
	"loss": 36.1845,
	"step": 12
	},
	{
	"epoch": 0.006969925441903326,
	"grad_norm": 6.64066219329834,
	"learning_rate": 0.0002998154953722457,
	"loss": 32.117,
	"step": 13
	},
	{
	"epoch": 0.007506073552818966,
	"grad_norm": 5.012538909912109,
	"learning_rate": 0.00029967204408281613,
	"loss": 33.6469,
	"step": 14
	},
	{
	"epoch": 0.008042221663734606,
	"grad_norm": 3.7766289710998535,
	"learning_rate": 0.00029948767395100045,
	"loss": 34.7003,
	"step": 15
	},
	{
	"epoch": 0.008578369774650247,
	"grad_norm": 3.6432321071624756,
	"learning_rate": 0.0002992624353817517,
	"loss": 33.0312,
	"step": 16
	},
	{
	"epoch": 0.009114517885565887,
	"grad_norm": 4.158324241638184,
	"learning_rate": 0.0002989963899530457,
	"loss": 32.2584,
	"step": 17
	},
	{
	"epoch": 0.009650665996481528,
	"grad_norm": 3.888638973236084,
	"learning_rate": 0.00029868961039904624,
	"loss": 34.2098,
	"step": 18
	},
	{
	"epoch": 0.010186814107397168,
	"grad_norm": 4.01094388961792,
	"learning_rate": 0.00029834218059022024,
	"loss": 33.4237,
	"step": 19
	},
	{
	"epoch": 0.01072296221831281,
	"grad_norm": 4.373755931854248,
	"learning_rate": 0.00029795419551040833,
	"loss": 34.2133,
	"step": 20
	},
	{
	"epoch": 0.01125911032922845,
	"grad_norm": 4.608726978302002,
	"learning_rate": 0.00029752576123085736,
	"loss": 33.9538,
	"step": 21
	},
	{
	"epoch": 0.011795258440144089,
	"grad_norm": 5.16507625579834,
	"learning_rate": 0.0002970569948812214,
	"loss": 33.7207,
	"step": 22
	},
	{
	"epoch": 0.01233140655105973,
	"grad_norm": 5.377164840698242,
	"learning_rate": 0.0002965480246175399,
	"loss": 31.0621,
	"step": 23
	},
	{
	"epoch": 0.01286755466197537,
	"grad_norm": 4.942190170288086,
	"learning_rate": 0.0002959989895872009,
	"loss": 32.3631,
	"step": 24
	},
	{
	"epoch": 0.013403702772891012,
	"grad_norm": 5.400623321533203,
	"learning_rate": 0.0002954100398908995,
	"loss": 30.7856,
	"step": 25
	},
	{
	"epoch": 0.013403702772891012,
	"eval_loss": 1.07772958278656,
	"eval_runtime": 7.0053,
	"eval_samples_per_second": 7.137,
	"eval_steps_per_second": 7.137,
	"step": 25
	},
	{
	"epoch": 0.013939850883806651,
	"grad_norm": 4.848288536071777,
	"learning_rate": 0.0002947813365416023,
	"loss": 34.2735,
	"step": 26
	},
	{
	"epoch": 0.014475998994722293,
	"grad_norm": 4.633642196655273,
	"learning_rate": 0.0002941130514205272,
	"loss": 33.778,
	"step": 27
	},
	{
	"epoch": 0.015012147105637932,
	"grad_norm": 4.757195472717285,
	"learning_rate": 0.0002934053672301536,
	"loss": 33.5148,
	"step": 28
	},
	{
	"epoch": 0.015548295216553572,
	"grad_norm": 4.664140224456787,
	"learning_rate": 0.00029265847744427303,
	"loss": 31.7672,
	"step": 29
	},
	{
	"epoch": 0.016084443327469212,
	"grad_norm": 4.638533592224121,
	"learning_rate": 0.00029187258625509513,
	"loss": 32.445,
	"step": 30
	},
	{
	"epoch": 0.016620591438384853,
	"grad_norm": 5.77179479598999,
	"learning_rate": 0.00029104790851742417,
	"loss": 33.1689,
	"step": 31
	},
	{
	"epoch": 0.017156739549300495,
	"grad_norm": 5.126926422119141,
	"learning_rate": 0.0002901846696899191,
	"loss": 33.1114,
	"step": 32
	},
	{
	"epoch": 0.017692887660216136,
	"grad_norm": 5.307356357574463,
	"learning_rate": 0.00028928310577345606,
	"loss": 32.6517,
	"step": 33
	},
	{
	"epoch": 0.018229035771131774,
	"grad_norm": 6.363701820373535,
	"learning_rate": 0.0002883434632466077,
	"loss": 33.6168,
	"step": 34
	},
	{
	"epoch": 0.018765183882047416,
	"grad_norm": 6.03190279006958,
	"learning_rate": 0.00028736599899825856,
	"loss": 32.2326,
	"step": 35
	},
	{
	"epoch": 0.019301331992963057,
	"grad_norm": 6.035442352294922,
	"learning_rate": 0.00028635098025737434,
	"loss": 32.6694,
	"step": 36
	},
	{
	"epoch": 0.019837480103878695,
	"grad_norm": 5.9874467849731445,
	"learning_rate": 0.00028529868451994384,
	"loss": 31.2628,
	"step": 37
	},
	{
	"epoch": 0.020373628214794336,
	"grad_norm": 6.513183116912842,
	"learning_rate": 0.0002842093994731145,
	"loss": 34.0463,
	"step": 38
	},
	{
	"epoch": 0.020909776325709978,
	"grad_norm": 6.865087032318115,
	"learning_rate": 0.00028308342291654174,
	"loss": 36.2589,
	"step": 39
	},
	{
	"epoch": 0.02144592443662562,
	"grad_norm": 6.68407678604126,
	"learning_rate": 0.00028192106268097334,
	"loss": 33.967,
	"step": 40
	},
	{
	"epoch": 0.021982072547541257,
	"grad_norm": 7.59697961807251,
	"learning_rate": 0.00028072263654409154,
	"loss": 33.708,
	"step": 41
	},
	{
	"epoch": 0.0225182206584569,
	"grad_norm": 7.609118461608887,
	"learning_rate": 0.0002794884721436361,
	"loss": 34.0083,
	"step": 42
	},
	{
	"epoch": 0.02305436876937254,
	"grad_norm": 8.011795997619629,
	"learning_rate": 0.00027821890688783083,
	"loss": 35.5668,
	"step": 43
	},
	{
	"epoch": 0.023590516880288178,
	"grad_norm": 9.242958068847656,
	"learning_rate": 0.0002769142878631403,
	"loss": 35.7281,
	"step": 44
	},
	{
	"epoch": 0.02412666499120382,
	"grad_norm": 9.058021545410156,
	"learning_rate": 0.00027557497173937923,
	"loss": 38.0303,
	"step": 45
	},
	{
	"epoch": 0.02466281310211946,
	"grad_norm": 12.166667938232422,
	"learning_rate": 0.000274201324672203,
	"loss": 38.1286,
	"step": 46
	},
	{
	"epoch": 0.025198961213035102,
	"grad_norm": 10.742341041564941,
	"learning_rate": 0.00027279372220300385,
	"loss": 33.2518,
	"step": 47
	},
	{
	"epoch": 0.02573510932395074,
	"grad_norm": 16.458505630493164,
	"learning_rate": 0.0002713525491562421,
	"loss": 38.5736,
	"step": 48
	},
	{
	"epoch": 0.026271257434866382,
	"grad_norm": 28.211767196655273,
	"learning_rate": 0.00026987819953423867,
	"loss": 37.296,
	"step": 49
	},
	{
	"epoch": 0.026807405545782023,
	"grad_norm": 51.30426025390625,
	"learning_rate": 0.00026837107640945905,
	"loss": 33.5111,
	"step": 50
	},
	{
	"epoch": 0.026807405545782023,
	"eval_loss": 1.0827397108078003,
	"eval_runtime": 7.0038,
	"eval_samples_per_second": 7.139,
	"eval_steps_per_second": 7.139,
	"step": 50
	},
	{
	"epoch": 0.02734355365669766,
	"grad_norm": 16.112340927124023,
	"learning_rate": 0.0002668315918143169,
	"loss": 31.1619,
	"step": 51
	},
	{
	"epoch": 0.027879701767613303,
	"grad_norm": 12.760345458984375,
	"learning_rate": 0.00026526016662852886,
	"loss": 29.4258,
	"step": 52
	},
	{
	"epoch": 0.028415849878528944,
	"grad_norm": 11.710972785949707,
	"learning_rate": 0.00026365723046405023,
	"loss": 30.2184,
	"step": 53
	},
	{
	"epoch": 0.028951997989444585,
	"grad_norm": 7.269360065460205,
	"learning_rate": 0.0002620232215476231,
	"loss": 31.87,
	"step": 54
	},
	{
	"epoch": 0.029488146100360223,
	"grad_norm": 5.4253034591674805,
	"learning_rate": 0.0002603585866009697,
	"loss": 33.2204,
	"step": 55
	},
	{
	"epoch": 0.030024294211275865,
	"grad_norm": 4.678703784942627,
	"learning_rate": 0.00025866378071866334,
	"loss": 29.7763,
	"step": 56
	},
	{
	"epoch": 0.030560442322191506,
	"grad_norm": 4.662464618682861,
	"learning_rate": 0.00025693926724370956,
	"loss": 30.3025,
	"step": 57
	},
	{
	"epoch": 0.031096590433107144,
	"grad_norm": 4.8608198165893555,
	"learning_rate": 0.00025518551764087326,
	"loss": 30.4402,
	"step": 58
	},
	{
	"epoch": 0.031632738544022786,
	"grad_norm": 4.3967366218566895,
	"learning_rate": 0.00025340301136778483,
	"loss": 30.7072,
	"step": 59
	},
	{
	"epoch": 0.032168886654938424,
	"grad_norm": 4.5696892738342285,
	"learning_rate": 0.00025159223574386114,
	"loss": 31.4662,
	"step": 60
	},
	{
	"epoch": 0.03270503476585407,
	"grad_norm": 4.4062323570251465,
	"learning_rate": 0.0002497536858170772,
	"loss": 32.4237,
	"step": 61
	},
	{
	"epoch": 0.033241182876769707,
	"grad_norm": 4.4083757400512695,
	"learning_rate": 0.00024788786422862526,
	"loss": 31.296,
	"step": 62
	},
	{
	"epoch": 0.03377733098768535,
	"grad_norm": 4.396991729736328,
	"learning_rate": 0.00024599528107549745,
	"loss": 30.3045,
	"step": 63
	},
	{
	"epoch": 0.03431347909860099,
	"grad_norm": 4.459329605102539,
	"learning_rate": 0.00024407645377103054,
	"loss": 32.7868,
	"step": 64
	},
	{
	"epoch": 0.03484962720951663,
	"grad_norm": 4.469038486480713,
	"learning_rate": 0.00024213190690345018,
	"loss": 32.613,
	"step": 65
	},
	{
	"epoch": 0.03538577532043227,
	"grad_norm": 4.406140327453613,
	"learning_rate": 0.00024016217209245374,
	"loss": 32.0919,
	"step": 66
	},
	{
	"epoch": 0.03592192343134791,
	"grad_norm": 4.390615463256836,
	"learning_rate": 0.00023816778784387094,
	"loss": 30.3288,
	"step": 67
	},
	{
	"epoch": 0.03645807154226355,
	"grad_norm": 4.351038932800293,
	"learning_rate": 0.0002361492994024415,
	"loss": 31.0161,
	"step": 68
	},
	{
	"epoch": 0.03699421965317919,
	"grad_norm": 4.775008201599121,
	"learning_rate": 0.0002341072586027509,
	"loss": 31.068,
	"step": 69
	},
	{
	"epoch": 0.03753036776409483,
	"grad_norm": 5.006083011627197,
	"learning_rate": 0.00023204222371836405,
	"loss": 32.1227,
	"step": 70
	},
	{
	"epoch": 0.03806651587501047,
	"grad_norm": 4.528618335723877,
	"learning_rate": 0.00022995475930919905,
	"loss": 30.1112,
	"step": 71
	},
	{
	"epoch": 0.038602663985926114,
	"grad_norm": 4.488797664642334,
	"learning_rate": 0.00022784543606718227,
	"loss": 31.3176,
	"step": 72
	},
	{
	"epoch": 0.03913881209684175,
	"grad_norm": 5.192445755004883,
	"learning_rate": 0.00022571483066022657,
	"loss": 30.9757,
	"step": 73
	},
	{
	"epoch": 0.03967496020775739,
	"grad_norm": 5.133602619171143,
	"learning_rate": 0.0002235635255745762,
	"loss": 31.7632,
	"step": 74
	},
	{
	"epoch": 0.040211108318673035,
	"grad_norm": 4.8014373779296875,
	"learning_rate": 0.00022139210895556104,
	"loss": 31.0323,
	"step": 75
	},
	{
	"epoch": 0.040211108318673035,
	"eval_loss": 1.000903606414795,
	"eval_runtime": 7.0115,
	"eval_samples_per_second": 7.131,
	"eval_steps_per_second": 7.131,
	"step": 75
	},
	{
	"epoch": 0.04074725642958867,
	"grad_norm": 4.980635166168213,
	"learning_rate": 0.00021920117444680317,
	"loss": 31.2209,
	"step": 76
	},
	{
	"epoch": 0.04128340454050432,
	"grad_norm": 4.976080417633057,
	"learning_rate": 0.00021699132102792097,
	"loss": 31.3572,
	"step": 77
	},
	{
	"epoch": 0.041819552651419956,
	"grad_norm": 5.553629398345947,
	"learning_rate": 0.0002147631528507739,
	"loss": 33.044,
	"step": 78
	},
	{
	"epoch": 0.042355700762335594,
	"grad_norm": 5.107100963592529,
	"learning_rate": 0.00021251727907429355,
	"loss": 30.9737,
	"step": 79
	},
	{
	"epoch": 0.04289184887325124,
	"grad_norm": 6.064231872558594,
	"learning_rate": 0.0002102543136979454,
	"loss": 30.7711,
	"step": 80
	},
	{
	"epoch": 0.043427996984166876,
	"grad_norm": 5.368616104125977,
	"learning_rate": 0.0002079748753938678,
	"loss": 32.0713,
	"step": 81
	},
	{
	"epoch": 0.043964145095082514,
	"grad_norm": 5.044811248779297,
	"learning_rate": 0.0002056795873377331,
	"loss": 32.1515,
	"step": 82
	},
	{
	"epoch": 0.04450029320599816,
	"grad_norm": 5.057069301605225,
	"learning_rate": 0.00020336907703837748,
	"loss": 32.276,
	"step": 83
	},
	{
	"epoch": 0.0450364413169138,
	"grad_norm": 5.206183910369873,
	"learning_rate": 0.00020104397616624645,
	"loss": 33.1993,
	"step": 84
	},
	{
	"epoch": 0.045572589427829435,
	"grad_norm": 5.805713176727295,
	"learning_rate": 0.00019870492038070252,
	"loss": 29.9394,
	"step": 85
	},
	{
	"epoch": 0.04610873753874508,
	"grad_norm": 5.780794620513916,
	"learning_rate": 0.0001963525491562421,
	"loss": 33.6122,
	"step": 86
	},
	{
	"epoch": 0.04664488564966072,
	"grad_norm": 5.779490947723389,
	"learning_rate": 0.0001939875056076697,
	"loss": 32.9998,
	"step": 87
	},
	{
	"epoch": 0.047181033760576356,
	"grad_norm": 5.634477615356445,
	"learning_rate": 0.00019161043631427666,
	"loss": 32.954,
	"step": 88
	},
	{
	"epoch": 0.047717181871492,
	"grad_norm": 5.964652061462402,
	"learning_rate": 0.00018922199114307294,
	"loss": 33.3383,
	"step": 89
	},
	{
	"epoch": 0.04825332998240764,
	"grad_norm": 6.110783100128174,
	"learning_rate": 0.00018682282307111987,
	"loss": 30.9541,
	"step": 90
	},
	{
	"epoch": 0.048789478093323284,
	"grad_norm": 6.400683403015137,
	"learning_rate": 0.00018441358800701273,
	"loss": 34.3879,
	"step": 91
	},
	{
	"epoch": 0.04932562620423892,
	"grad_norm": 8.689764022827148,
	"learning_rate": 0.00018199494461156203,
	"loss": 31.8942,
	"step": 92
	},
	{
	"epoch": 0.04986177431515456,
	"grad_norm": 7.461714744567871,
	"learning_rate": 0.000179567554117722,
	"loss": 30.9819,
	"step": 93
	},
	{
	"epoch": 0.050397922426070205,
	"grad_norm": 7.799310684204102,
	"learning_rate": 0.00017713208014981648,
	"loss": 33.8376,
	"step": 94
	},
	{
	"epoch": 0.05093407053698584,
	"grad_norm": 9.082171440124512,
	"learning_rate": 0.00017468918854211007,
	"loss": 34.8842,
	"step": 95
	},
	{
	"epoch": 0.05147021864790148,
	"grad_norm": 9.59943675994873,
	"learning_rate": 0.00017223954715677627,
	"loss": 35.6568,
	"step": 96
	},
	{
	"epoch": 0.052006366758817126,
	"grad_norm": 10.860755920410156,
	"learning_rate": 0.00016978382570131034,
	"loss": 34.7432,
	"step": 97
	},
	{
	"epoch": 0.052542514869732763,
	"grad_norm": 18.212682723999023,
	"learning_rate": 0.00016732269554543794,
	"loss": 32.6667,
	"step": 98
	},
	{
	"epoch": 0.0530786629806484,
	"grad_norm": 19.332014083862305,
	"learning_rate": 0.00016485682953756942,
	"loss": 30.8138,
	"step": 99
	},
	{
	"epoch": 0.053614811091564046,
	"grad_norm": 65.70189666748047,
	"learning_rate": 0.00016238690182084986,
	"loss": 32.2653,
	"step": 100
	},
	{
	"epoch": 0.053614811091564046,
	"eval_loss": 1.016136646270752,
	"eval_runtime": 7.0094,
	"eval_samples_per_second": 7.133,
	"eval_steps_per_second": 7.133,
	"step": 100
	},
	{
	"epoch": 0.054150959202479684,
	"grad_norm": 9.373055458068848,
	"learning_rate": 0.0001599135876488549,
	"loss": 28.2683,
	"step": 101
	},
	{
	"epoch": 0.05468710731339532,
	"grad_norm": 8.830703735351562,
	"learning_rate": 0.00015743756320098332,
	"loss": 30.2945,
	"step": 102
	},
	{
	"epoch": 0.05522325542431097,
	"grad_norm": 7.033578395843506,
	"learning_rate": 0.0001549595053975962,
	"loss": 30.4363,
	"step": 103
	},
	{
	"epoch": 0.055759403535226605,
	"grad_norm": 6.227023601531982,
	"learning_rate": 0.00015248009171495378,
	"loss": 29.8592,
	"step": 104
	},
	{
	"epoch": 0.05629555164614225,
	"grad_norm": 5.5991339683532715,
	"learning_rate": 0.00015,
	"loss": 28.823,
	"step": 105
	},
	{
	"epoch": 0.05683169975705789,
	"grad_norm": 4.878828525543213,
	"learning_rate": 0.00014751990828504622,
	"loss": 30.4694,
	"step": 106
	},
	{
	"epoch": 0.057367847867973526,
	"grad_norm": 4.614971160888672,
	"learning_rate": 0.00014504049460240375,
	"loss": 28.4186,
	"step": 107
	},
	{
	"epoch": 0.05790399597888917,
	"grad_norm": 4.517513275146484,
	"learning_rate": 0.00014256243679901663,
	"loss": 29.0258,
	"step": 108
	},
	{
	"epoch": 0.05844014408980481,
	"grad_norm": 8.218019485473633,
	"learning_rate": 0.00014008641235114508,
	"loss": 28.0963,
	"step": 109
	},
	{
	"epoch": 0.05897629220072045,
	"grad_norm": 4.709647178649902,
	"learning_rate": 0.00013761309817915014,
	"loss": 30.3963,
	"step": 110
	},
	{
	"epoch": 0.05951244031163609,
	"grad_norm": 4.416621685028076,
	"learning_rate": 0.00013514317046243058,
	"loss": 29.8401,
	"step": 111
	},
	{
	"epoch": 0.06004858842255173,
	"grad_norm": 4.569868564605713,
	"learning_rate": 0.00013267730445456208,
	"loss": 31.1935,
	"step": 112
	},
	{
	"epoch": 0.06058473653346737,
	"grad_norm": 4.648908615112305,
	"learning_rate": 0.00013021617429868963,
	"loss": 30.0785,
	"step": 113
	},
	{
	"epoch": 0.06112088464438301,
	"grad_norm": 4.735060691833496,
	"learning_rate": 0.00012776045284322368,
	"loss": 30.8758,
	"step": 114
	},
	{
	"epoch": 0.06165703275529865,
	"grad_norm": 4.528501510620117,
	"learning_rate": 0.00012531081145788987,
	"loss": 30.1864,
	"step": 115
	},
	{
	"epoch": 0.06219318086621429,
	"grad_norm": 4.81594181060791,
	"learning_rate": 0.00012286791985018355,
	"loss": 31.0008,
	"step": 116
	},
	{
	"epoch": 0.06272932897712993,
	"grad_norm": 4.743056774139404,
	"learning_rate": 0.00012043244588227796,
	"loss": 30.7498,
	"step": 117
	},
	{
	"epoch": 0.06326547708804557,
	"grad_norm": 4.997926712036133,
	"learning_rate": 0.00011800505538843798,
	"loss": 32.3375,
	"step": 118
	},
	{
	"epoch": 0.06380162519896121,
	"grad_norm": 4.894601345062256,
	"learning_rate": 0.00011558641199298727,
	"loss": 30.8206,
	"step": 119
	},
	{
	"epoch": 0.06433777330987685,
	"grad_norm": 4.590635776519775,
	"learning_rate": 0.00011317717692888012,
	"loss": 29.6827,
	"step": 120
	},
	{
	"epoch": 0.0648739214207925,
	"grad_norm": 4.70611572265625,
	"learning_rate": 0.00011077800885692702,
	"loss": 29.7052,
	"step": 121
	},
	{
	"epoch": 0.06541006953170814,
	"grad_norm": 4.513106822967529,
	"learning_rate": 0.00010838956368572334,
	"loss": 29.9822,
	"step": 122
	},
	{
	"epoch": 0.06594621764262378,
	"grad_norm": 4.913265705108643,
	"learning_rate": 0.0001060124943923303,
	"loss": 30.3049,
	"step": 123
	},
	{
	"epoch": 0.06648236575353941,
	"grad_norm": 4.700603485107422,
	"learning_rate": 0.0001036474508437579,
	"loss": 29.5673,
	"step": 124
	},
	{
	"epoch": 0.06701851386445505,
	"grad_norm": 4.874575138092041,
	"learning_rate": 0.00010129507961929748,
	"loss": 30.9478,
	"step": 125
	},
	{
	"epoch": 0.06701851386445505,
	"eval_loss": 0.9712469577789307,
	"eval_runtime": 7.0116,
	"eval_samples_per_second": 7.131,
	"eval_steps_per_second": 7.131,
	"step": 125
	},
	{
	"epoch": 0.0675546619753707,
	"grad_norm": 5.066522598266602,
	"learning_rate": 9.895602383375353e-05,
	"loss": 30.832,
	"step": 126
	},
	{
	"epoch": 0.06809081008628634,
	"grad_norm": 5.205512046813965,
	"learning_rate": 9.663092296162251e-05,
	"loss": 30.9786,
	"step": 127
	},
	{
	"epoch": 0.06862695819720198,
	"grad_norm": 4.869602203369141,
	"learning_rate": 9.432041266226686e-05,
	"loss": 29.142,
	"step": 128
	},
	{
	"epoch": 0.06916310630811762,
	"grad_norm": 4.945410251617432,
	"learning_rate": 9.202512460613219e-05,
	"loss": 30.8244,
	"step": 129
	},
	{
	"epoch": 0.06969925441903325,
	"grad_norm": 5.29721736907959,
	"learning_rate": 8.97456863020546e-05,
	"loss": 32.1392,
	"step": 130
	},
	{
	"epoch": 0.07023540252994889,
	"grad_norm": 6.640650749206543,
	"learning_rate": 8.748272092570646e-05,
	"loss": 32.1368,
	"step": 131
	},
	{
	"epoch": 0.07077155064086454,
	"grad_norm": 5.233391284942627,
	"learning_rate": 8.523684714922608e-05,
	"loss": 31.8081,
	"step": 132
	},
	{
	"epoch": 0.07130769875178018,
	"grad_norm": 5.334178924560547,
	"learning_rate": 8.300867897207903e-05,
	"loss": 32.2981,
	"step": 133
	},
	{
	"epoch": 0.07184384686269582,
	"grad_norm": 5.664828777313232,
	"learning_rate": 8.079882555319684e-05,
	"loss": 30.6256,
	"step": 134
	},
	{
	"epoch": 0.07237999497361146,
	"grad_norm": 5.590938091278076,
	"learning_rate": 7.860789104443896e-05,
	"loss": 31.1287,
	"step": 135
	},
	{
	"epoch": 0.0729161430845271,
	"grad_norm": 5.823013782501221,
	"learning_rate": 7.643647442542382e-05,
	"loss": 31.7947,
	"step": 136
	},
	{
	"epoch": 0.07345229119544273,
	"grad_norm": 5.71795129776001,
	"learning_rate": 7.428516933977347e-05,
	"loss": 31.4032,
	"step": 137
	},
	{
	"epoch": 0.07398843930635839,
	"grad_norm": 6.240416049957275,
	"learning_rate": 7.215456393281776e-05,
	"loss": 31.7812,
	"step": 138
	},
	{
	"epoch": 0.07452458741727402,
	"grad_norm": 5.8073410987854,
	"learning_rate": 7.004524069080096e-05,
	"loss": 31.8186,
	"step": 139
	},
	{
	"epoch": 0.07506073552818966,
	"grad_norm": 6.44705057144165,
	"learning_rate": 6.795777628163599e-05,
	"loss": 33.4398,
	"step": 140
	},
	{
	"epoch": 0.0755968836391053,
	"grad_norm": 6.330421447753906,
	"learning_rate": 6.58927413972491e-05,
	"loss": 31.8283,
	"step": 141
	},
	{
	"epoch": 0.07613303175002094,
	"grad_norm": 6.591586589813232,
	"learning_rate": 6.385070059755846e-05,
	"loss": 33.1672,
	"step": 142
	},
	{
	"epoch": 0.07666917986093659,
	"grad_norm": 8.423770904541016,
	"learning_rate": 6.183221215612904e-05,
	"loss": 33.6284,
	"step": 143
	},
	{
	"epoch": 0.07720532797185223,
	"grad_norm": 9.330811500549316,
	"learning_rate": 5.983782790754623e-05,
	"loss": 35.6624,
	"step": 144
	},
	{
	"epoch": 0.07774147608276787,
	"grad_norm": 9.339548110961914,
	"learning_rate": 5.786809309654982e-05,
	"loss": 34.5517,
	"step": 145
	},
	{
	"epoch": 0.0782776241936835,
	"grad_norm": 12.109213829040527,
	"learning_rate": 5.592354622896944e-05,
	"loss": 35.4903,
	"step": 146
	},
	{
	"epoch": 0.07881377230459914,
	"grad_norm": 11.704776763916016,
	"learning_rate": 5.40047189245025e-05,
	"loss": 36.6097,
	"step": 147
	},
	{
	"epoch": 0.07934992041551478,
	"grad_norm": 16.527082443237305,
	"learning_rate": 5.211213577137469e-05,
	"loss": 33.7769,
	"step": 148
	},
	{
	"epoch": 0.07988606852643043,
	"grad_norm": 16.686304092407227,
	"learning_rate": 5.024631418292274e-05,
	"loss": 31.3678,
	"step": 149
	},
	{
	"epoch": 0.08042221663734607,
	"grad_norm": 35.215946197509766,
	"learning_rate": 4.840776425613886e-05,
	"loss": 29.0595,
	"step": 150
	},
	{
	"epoch": 0.08042221663734607,
	"eval_loss": 0.9701613783836365,
	"eval_runtime": 7.002,
	"eval_samples_per_second": 7.141,
	"eval_steps_per_second": 7.141,
	"step": 150
	},
	{
	"epoch": 0.08095836474826171,
	"grad_norm": 5.198462009429932,
	"learning_rate": 4.659698863221513e-05,
	"loss": 24.5072,
	"step": 151
	},
	{
	"epoch": 0.08149451285917735,
	"grad_norm": 4.549412250518799,
	"learning_rate": 4.481448235912671e-05,
	"loss": 26.2581,
	"step": 152
	},
	{
	"epoch": 0.08203066097009298,
	"grad_norm": 4.362401485443115,
	"learning_rate": 4.306073275629044e-05,
	"loss": 27.6788,
	"step": 153
	},
	{
	"epoch": 0.08256680908100864,
	"grad_norm": 5.346713066101074,
	"learning_rate": 4.133621928133665e-05,
	"loss": 30.5177,
	"step": 154
	},
	{
	"epoch": 0.08310295719192427,
	"grad_norm": 4.8502702713012695,
	"learning_rate": 3.964141339903026e-05,
	"loss": 27.5227,
	"step": 155
	},
	{
	"epoch": 0.08363910530283991,
	"grad_norm": 4.808586120605469,
	"learning_rate": 3.797677845237696e-05,
	"loss": 30.8657,
	"step": 156
	},
	{
	"epoch": 0.08417525341375555,
	"grad_norm": 4.663094997406006,
	"learning_rate": 3.634276953594982e-05,
	"loss": 29.7888,
	"step": 157
	},
	{
	"epoch": 0.08471140152467119,
	"grad_norm": 5.056007385253906,
	"learning_rate": 3.473983337147118e-05,
	"loss": 29.6446,
	"step": 158
	},
	{
	"epoch": 0.08524754963558683,
	"grad_norm": 4.635434150695801,
	"learning_rate": 3.316840818568315e-05,
	"loss": 29.1428,
	"step": 159
	},
	{
	"epoch": 0.08578369774650248,
	"grad_norm": 4.840639591217041,
	"learning_rate": 3.162892359054098e-05,
	"loss": 29.1692,
	"step": 160
	},
	{
	"epoch": 0.08631984585741811,
	"grad_norm": 4.706408977508545,
	"learning_rate": 3.0121800465761293e-05,
	"loss": 30.8735,
	"step": 161
	},
	{
	"epoch": 0.08685599396833375,
	"grad_norm": 4.438312530517578,
	"learning_rate": 2.8647450843757897e-05,
	"loss": 29.7526,
	"step": 162
	},
	{
	"epoch": 0.08739214207924939,
	"grad_norm": 4.957245349884033,
	"learning_rate": 2.7206277796996144e-05,
	"loss": 31.258,
	"step": 163
	},
	{
	"epoch": 0.08792829019016503,
	"grad_norm": 4.573652267456055,
	"learning_rate": 2.5798675327796993e-05,
	"loss": 30.8789,
	"step": 164
	},
	{
	"epoch": 0.08846443830108067,
	"grad_norm": 4.697335243225098,
	"learning_rate": 2.4425028260620715e-05,
	"loss": 30.2755,
	"step": 165
	},
	{
	"epoch": 0.08900058641199632,
	"grad_norm": 4.690494060516357,
	"learning_rate": 2.3085712136859668e-05,
	"loss": 29.9391,
	"step": 166
	},
	{
	"epoch": 0.08953673452291196,
	"grad_norm": 4.9841694831848145,
	"learning_rate": 2.178109311216913e-05,
	"loss": 27.8766,
	"step": 167
	},
	{
	"epoch": 0.0900728826338276,
	"grad_norm": 5.224708557128906,
	"learning_rate": 2.0511527856363912e-05,
	"loss": 29.0932,
	"step": 168
	},
	{
	"epoch": 0.09060903074474323,
	"grad_norm": 4.802592754364014,
	"learning_rate": 1.927736345590839e-05,
	"loss": 30.957,
	"step": 169
	},
	{
	"epoch": 0.09114517885565887,
	"grad_norm": 4.843587398529053,
	"learning_rate": 1.8078937319026654e-05,
	"loss": 30.3239,
	"step": 170
	},
	{
	"epoch": 0.09168132696657452,
	"grad_norm": 4.917239665985107,
	"learning_rate": 1.6916577083458228e-05,
	"loss": 30.4517,
	"step": 171
	},
	{
	"epoch": 0.09221747507749016,
	"grad_norm": 4.622511863708496,
	"learning_rate": 1.579060052688548e-05,
	"loss": 29.1561,
	"step": 172
	},
	{
	"epoch": 0.0927536231884058,
	"grad_norm": 5.174027919769287,
	"learning_rate": 1.4701315480056164e-05,
	"loss": 28.5216,
	"step": 173
	},
	{
	"epoch": 0.09328977129932144,
	"grad_norm": 5.131156921386719,
	"learning_rate": 1.3649019742625623e-05,
	"loss": 30.5295,
	"step": 174
	},
	{
	"epoch": 0.09382591941023707,
	"grad_norm": 5.090980052947998,
	"learning_rate": 1.2634001001741373e-05,
	"loss": 30.1167,
	"step": 175
	},
	{
	"epoch": 0.09382591941023707,
	"eval_loss": 0.961780846118927,
	"eval_runtime": 7.0068,
	"eval_samples_per_second": 7.136,
	"eval_steps_per_second": 7.136,
	"step": 175
	},
	{
	"epoch": 0.09436206752115271,
	"grad_norm": 5.299232006072998,
	"learning_rate": 1.1656536753392287e-05,
	"loss": 29.9242,
	"step": 176
	},
	{
	"epoch": 0.09489821563206836,
	"grad_norm": 5.412871837615967,
	"learning_rate": 1.0716894226543953e-05,
	"loss": 31.6097,
	"step": 177
	},
	{
	"epoch": 0.095434363742984,
	"grad_norm": 5.443716526031494,
	"learning_rate": 9.815330310080887e-06,
	"loss": 32.2806,
	"step": 178
	},
	{
	"epoch": 0.09597051185389964,
	"grad_norm": 5.2226080894470215,
	"learning_rate": 8.952091482575824e-06,
	"loss": 32.0395,
	"step": 179
	},
	{
	"epoch": 0.09650665996481528,
	"grad_norm": 5.585422039031982,
	"learning_rate": 8.127413744904804e-06,
	"loss": 32.5046,
	"step": 180
	},
	{
	"epoch": 0.09704280807573092,
	"grad_norm": 5.256342887878418,
	"learning_rate": 7.34152255572697e-06,
	"loss": 29.7976,
	"step": 181
	},
	{
	"epoch": 0.09757895618664657,
	"grad_norm": 5.678742408752441,
	"learning_rate": 6.594632769846353e-06,
	"loss": 31.166,
	"step": 182
	},
	{
	"epoch": 0.0981151042975622,
	"grad_norm": 5.608844757080078,
	"learning_rate": 5.886948579472778e-06,
	"loss": 31.462,
	"step": 183
	},
	{
	"epoch": 0.09865125240847784,
	"grad_norm": 5.735723495483398,
	"learning_rate": 5.218663458397715e-06,
	"loss": 32.3888,
	"step": 184
	},
	{
	"epoch": 0.09918740051939348,
	"grad_norm": 5.686238765716553,
	"learning_rate": 4.589960109100444e-06,
	"loss": 32.2446,
	"step": 185
	},
	{
	"epoch": 0.09972354863030912,
	"grad_norm": 6.456745147705078,
	"learning_rate": 4.001010412799138e-06,
	"loss": 31.8302,
	"step": 186
	},
	{
	"epoch": 0.10025969674122476,
	"grad_norm": 6.2624192237854,
	"learning_rate": 3.451975382460109e-06,
	"loss": 32.1222,
	"step": 187
	},
	{
	"epoch": 0.10079584485214041,
	"grad_norm": 6.031360149383545,
	"learning_rate": 2.9430051187785962e-06,
	"loss": 30.3575,
	"step": 188
	},
	{
	"epoch": 0.10133199296305605,
	"grad_norm": 6.787166595458984,
	"learning_rate": 2.4742387691426445e-06,
	"loss": 33.5298,
	"step": 189
	},
	{
	"epoch": 0.10186814107397169,
	"grad_norm": 7.786647796630859,
	"learning_rate": 2.0458044895916513e-06,
	"loss": 33.5317,
	"step": 190
	},
	{
	"epoch": 0.10240428918488732,
	"grad_norm": 7.0574631690979,
	"learning_rate": 1.6578194097797258e-06,
	"loss": 30.7742,
	"step": 191
	},
	{
	"epoch": 0.10294043729580296,
	"grad_norm": 7.725040912628174,
	"learning_rate": 1.3103896009537207e-06,
	"loss": 31.2916,
	"step": 192
	},
	{
	"epoch": 0.1034765854067186,
	"grad_norm": 8.722898483276367,
	"learning_rate": 1.0036100469542786e-06,
	"loss": 33.509,
	"step": 193
	},
	{
	"epoch": 0.10401273351763425,
	"grad_norm": 9.124086380004883,
	"learning_rate": 7.375646182482875e-07,
	"loss": 32.766,
	"step": 194
	},
	{
	"epoch": 0.10454888162854989,
	"grad_norm": 12.139370918273926,
	"learning_rate": 5.123260489995229e-07,
	"loss": 35.1079,
	"step": 195
	},
	{
	"epoch": 0.10508502973946553,
	"grad_norm": 13.486305236816406,
	"learning_rate": 3.2795591718381975e-07,
	"loss": 33.708,
	"step": 196
	},
	{
	"epoch": 0.10562117785038116,
	"grad_norm": 15.585397720336914,
	"learning_rate": 1.8450462775428942e-07,
	"loss": 35.6728,
	"step": 197
	},
	{
	"epoch": 0.1061573259612968,
	"grad_norm": 17.088029861450195,
	"learning_rate": 8.201139886109264e-08,
	"loss": 33.6193,
	"step": 198
	},
	{
	"epoch": 0.10669347407221245,
	"grad_norm": 17.898561477661133,
	"learning_rate": 2.0504251129649374e-08,
	"loss": 27.5111,
	"step": 199
	},
	{
	"epoch": 0.10722962218312809,
	"grad_norm": 28.369626998901367,
	"learning_rate": 0.0,
	"loss": 21.8853,
	"step": 200
	},
	{
	"epoch": 0.10722962218312809,
	"eval_loss": 0.9611303806304932,
	"eval_runtime": 7.0035,
	"eval_samples_per_second": 7.139,
	"eval_steps_per_second": 7.139,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.784601741716357e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}