ModernBERT_SquadV1_4k / trainer_state.json

Upload 12 files

a874f72 verified 18 days ago

101 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 250,
	"global_step": 22156,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004513450081242101,
	"grad_norm": 7.729167461395264,
	"learning_rate": 6.768953068592058e-07,
	"loss": 5.9501,
	"step": 50
	},
	{
	"epoch": 0.009026900162484202,
	"grad_norm": 13.082584381103516,
	"learning_rate": 1.3537906137184116e-06,
	"loss": 5.9447,
	"step": 100
	},
	{
	"epoch": 0.013540350243726304,
	"grad_norm": 18.259796142578125,
	"learning_rate": 2.0306859205776177e-06,
	"loss": 5.9165,
	"step": 150
	},
	{
	"epoch": 0.018053800324968405,
	"grad_norm": 22.386247634887695,
	"learning_rate": 2.7075812274368233e-06,
	"loss": 5.8394,
	"step": 200
	},
	{
	"epoch": 0.022567250406210507,
	"grad_norm": 34.2584228515625,
	"learning_rate": 3.384476534296029e-06,
	"loss": 5.6527,
	"step": 250
	},
	{
	"epoch": 0.022567250406210507,
	"eval_exact_match": 2.0056764427625353,
	"eval_f1": 8.992036775611602,
	"eval_runtime": 152.2365,
	"eval_samples_per_second": 70.929,
	"eval_steps_per_second": 17.736,
	"step": 250
	},
	{
	"epoch": 0.02708070048745261,
	"grad_norm": 35.096343994140625,
	"learning_rate": 4.061371841155235e-06,
	"loss": 5.4208,
	"step": 300
	},
	{
	"epoch": 0.03159415056869471,
	"grad_norm": 32.929325103759766,
	"learning_rate": 4.73826714801444e-06,
	"loss": 5.1947,
	"step": 350
	},
	{
	"epoch": 0.03610760064993681,
	"grad_norm": 24.735565185546875,
	"learning_rate": 5.4151624548736465e-06,
	"loss": 4.9405,
	"step": 400
	},
	{
	"epoch": 0.040621050731178915,
	"grad_norm": 22.857040405273438,
	"learning_rate": 6.092057761732852e-06,
	"loss": 4.7322,
	"step": 450
	},
	{
	"epoch": 0.04513450081242101,
	"grad_norm": 24.466981887817383,
	"learning_rate": 6.768953068592058e-06,
	"loss": 4.4225,
	"step": 500
	},
	{
	"epoch": 0.04513450081242101,
	"eval_exact_match": 5.771050141911069,
	"eval_f1": 13.440407627304385,
	"eval_runtime": 143.7394,
	"eval_samples_per_second": 75.122,
	"eval_steps_per_second": 18.784,
	"step": 500
	},
	{
	"epoch": 0.04964795089366312,
	"grad_norm": 21.847347259521484,
	"learning_rate": 7.445848375451264e-06,
	"loss": 4.077,
	"step": 550
	},
	{
	"epoch": 0.05416140097490522,
	"grad_norm": 27.222633361816406,
	"learning_rate": 8.12274368231047e-06,
	"loss": 3.5837,
	"step": 600
	},
	{
	"epoch": 0.058674851056147316,
	"grad_norm": 29.45089340209961,
	"learning_rate": 8.799638989169675e-06,
	"loss": 3.0981,
	"step": 650
	},
	{
	"epoch": 0.06318830113738942,
	"grad_norm": 29.15781593322754,
	"learning_rate": 9.47653429602888e-06,
	"loss": 2.823,
	"step": 700
	},
	{
	"epoch": 0.06770175121863152,
	"grad_norm": 20.824087142944336,
	"learning_rate": 1.0153429602888087e-05,
	"loss": 2.4615,
	"step": 750
	},
	{
	"epoch": 0.06770175121863152,
	"eval_exact_match": 52.82876064333018,
	"eval_f1": 63.363202801168775,
	"eval_runtime": 143.757,
	"eval_samples_per_second": 75.113,
	"eval_steps_per_second": 18.782,
	"step": 750
	},
	{
	"epoch": 0.07221520129987362,
	"grad_norm": 33.184410095214844,
	"learning_rate": 1.0830324909747293e-05,
	"loss": 2.2565,
	"step": 800
	},
	{
	"epoch": 0.07672865138111573,
	"grad_norm": 27.845844268798828,
	"learning_rate": 1.15072202166065e-05,
	"loss": 1.8158,
	"step": 850
	},
	{
	"epoch": 0.08124210146235783,
	"grad_norm": 18.29555320739746,
	"learning_rate": 1.2184115523465704e-05,
	"loss": 1.7871,
	"step": 900
	},
	{
	"epoch": 0.08575555154359993,
	"grad_norm": 23.45345687866211,
	"learning_rate": 1.2861010830324909e-05,
	"loss": 1.6184,
	"step": 950
	},
	{
	"epoch": 0.09026900162484203,
	"grad_norm": 23.513124465942383,
	"learning_rate": 1.3537906137184115e-05,
	"loss": 1.577,
	"step": 1000
	},
	{
	"epoch": 0.09026900162484203,
	"eval_exact_match": 65.42100283822138,
	"eval_f1": 76.31429412241118,
	"eval_runtime": 143.6001,
	"eval_samples_per_second": 75.195,
	"eval_steps_per_second": 18.802,
	"step": 1000
	},
	{
	"epoch": 0.09478245170608413,
	"grad_norm": 13.316262245178223,
	"learning_rate": 1.4214801444043322e-05,
	"loss": 1.5352,
	"step": 1050
	},
	{
	"epoch": 0.09929590178732624,
	"grad_norm": 34.4163932800293,
	"learning_rate": 1.4891696750902528e-05,
	"loss": 1.6355,
	"step": 1100
	},
	{
	"epoch": 0.10380935186856834,
	"grad_norm": 33.572750091552734,
	"learning_rate": 1.5568592057761735e-05,
	"loss": 1.5064,
	"step": 1150
	},
	{
	"epoch": 0.10832280194981043,
	"grad_norm": 13.494843482971191,
	"learning_rate": 1.624548736462094e-05,
	"loss": 1.4047,
	"step": 1200
	},
	{
	"epoch": 0.11283625203105253,
	"grad_norm": 21.778579711914062,
	"learning_rate": 1.6922382671480144e-05,
	"loss": 1.2552,
	"step": 1250
	},
	{
	"epoch": 0.11283625203105253,
	"eval_exact_match": 69.5364238410596,
	"eval_f1": 80.48975233211664,
	"eval_runtime": 143.6325,
	"eval_samples_per_second": 75.178,
	"eval_steps_per_second": 18.798,
	"step": 1250
	},
	{
	"epoch": 0.11734970211229463,
	"grad_norm": 17.293298721313477,
	"learning_rate": 1.759927797833935e-05,
	"loss": 1.2779,
	"step": 1300
	},
	{
	"epoch": 0.12186315219353674,
	"grad_norm": 14.029269218444824,
	"learning_rate": 1.8276173285198557e-05,
	"loss": 1.2871,
	"step": 1350
	},
	{
	"epoch": 0.12637660227477884,
	"grad_norm": 12.971822738647461,
	"learning_rate": 1.895306859205776e-05,
	"loss": 1.1974,
	"step": 1400
	},
	{
	"epoch": 0.13089005235602094,
	"grad_norm": 30.38484001159668,
	"learning_rate": 1.9629963898916967e-05,
	"loss": 1.355,
	"step": 1450
	},
	{
	"epoch": 0.13540350243726304,
	"grad_norm": 29.467548370361328,
	"learning_rate": 2.0306859205776173e-05,
	"loss": 1.1713,
	"step": 1500
	},
	{
	"epoch": 0.13540350243726304,
	"eval_exact_match": 72.57332071901608,
	"eval_f1": 82.65844387552723,
	"eval_runtime": 143.752,
	"eval_samples_per_second": 75.115,
	"eval_steps_per_second": 18.782,
	"step": 1500
	},
	{
	"epoch": 0.13991695251850514,
	"grad_norm": 12.46554183959961,
	"learning_rate": 2.098375451263538e-05,
	"loss": 1.1677,
	"step": 1550
	},
	{
	"epoch": 0.14443040259974724,
	"grad_norm": 25.593875885009766,
	"learning_rate": 2.1660649819494586e-05,
	"loss": 1.3478,
	"step": 1600
	},
	{
	"epoch": 0.14894385268098934,
	"grad_norm": 16.136869430541992,
	"learning_rate": 2.2337545126353793e-05,
	"loss": 1.1676,
	"step": 1650
	},
	{
	"epoch": 0.15345730276223146,
	"grad_norm": 16.83846664428711,
	"learning_rate": 2.3014440433213e-05,
	"loss": 1.1741,
	"step": 1700
	},
	{
	"epoch": 0.15797075284347356,
	"grad_norm": 17.464096069335938,
	"learning_rate": 2.3691335740072202e-05,
	"loss": 1.2104,
	"step": 1750
	},
	{
	"epoch": 0.15797075284347356,
	"eval_exact_match": 74.64522232734153,
	"eval_f1": 84.72687223622708,
	"eval_runtime": 143.5946,
	"eval_samples_per_second": 75.198,
	"eval_steps_per_second": 18.803,
	"step": 1750
	},
	{
	"epoch": 0.16248420292471566,
	"grad_norm": 13.083732604980469,
	"learning_rate": 2.436823104693141e-05,
	"loss": 1.1279,
	"step": 1800
	},
	{
	"epoch": 0.16699765300595776,
	"grad_norm": 15.166335105895996,
	"learning_rate": 2.5045126353790615e-05,
	"loss": 1.1395,
	"step": 1850
	},
	{
	"epoch": 0.17151110308719986,
	"grad_norm": 8.829039573669434,
	"learning_rate": 2.5722021660649818e-05,
	"loss": 1.1374,
	"step": 1900
	},
	{
	"epoch": 0.17602455316844196,
	"grad_norm": 28.089391708374023,
	"learning_rate": 2.6398916967509024e-05,
	"loss": 1.2106,
	"step": 1950
	},
	{
	"epoch": 0.18053800324968405,
	"grad_norm": 13.704926490783691,
	"learning_rate": 2.707581227436823e-05,
	"loss": 1.2369,
	"step": 2000
	},
	{
	"epoch": 0.18053800324968405,
	"eval_exact_match": 77.96594134342479,
	"eval_f1": 86.52116394116426,
	"eval_runtime": 143.6954,
	"eval_samples_per_second": 75.145,
	"eval_steps_per_second": 18.79,
	"step": 2000
	},
	{
	"epoch": 0.18505145333092615,
	"grad_norm": 13.062108993530273,
	"learning_rate": 2.7752707581227437e-05,
	"loss": 1.0064,
	"step": 2050
	},
	{
	"epoch": 0.18956490341216825,
	"grad_norm": 25.21763801574707,
	"learning_rate": 2.8429602888086644e-05,
	"loss": 1.1127,
	"step": 2100
	},
	{
	"epoch": 0.19407835349341035,
	"grad_norm": 7.10919189453125,
	"learning_rate": 2.910649819494585e-05,
	"loss": 1.054,
	"step": 2150
	},
	{
	"epoch": 0.19859180357465248,
	"grad_norm": 14.997174263000488,
	"learning_rate": 2.9783393501805057e-05,
	"loss": 1.1187,
	"step": 2200
	},
	{
	"epoch": 0.20310525365589457,
	"grad_norm": 9.683287620544434,
	"learning_rate": 2.9948846539618856e-05,
	"loss": 0.9916,
	"step": 2250
	},
	{
	"epoch": 0.20310525365589457,
	"eval_exact_match": 77.21854304635761,
	"eval_f1": 85.59348158373206,
	"eval_runtime": 143.7109,
	"eval_samples_per_second": 75.137,
	"eval_steps_per_second": 18.788,
	"step": 2250
	},
	{
	"epoch": 0.20761870373713667,
	"grad_norm": 18.712541580200195,
	"learning_rate": 2.987362086258776e-05,
	"loss": 1.1756,
	"step": 2300
	},
	{
	"epoch": 0.21213215381837877,
	"grad_norm": 8.502235412597656,
	"learning_rate": 2.979839518555667e-05,
	"loss": 1.0872,
	"step": 2350
	},
	{
	"epoch": 0.21664560389962087,
	"grad_norm": 16.61508560180664,
	"learning_rate": 2.9723169508525577e-05,
	"loss": 1.1148,
	"step": 2400
	},
	{
	"epoch": 0.22115905398086297,
	"grad_norm": 9.676267623901367,
	"learning_rate": 2.9647943831494482e-05,
	"loss": 1.0559,
	"step": 2450
	},
	{
	"epoch": 0.22567250406210507,
	"grad_norm": 11.562779426574707,
	"learning_rate": 2.957271815446339e-05,
	"loss": 1.0628,
	"step": 2500
	},
	{
	"epoch": 0.22567250406210507,
	"eval_exact_match": 79.3755912961211,
	"eval_f1": 87.42406194378296,
	"eval_runtime": 143.6631,
	"eval_samples_per_second": 75.162,
	"eval_steps_per_second": 18.794,
	"step": 2500
	},
	{
	"epoch": 0.23018595414334717,
	"grad_norm": 20.24138832092285,
	"learning_rate": 2.9497492477432297e-05,
	"loss": 1.0549,
	"step": 2550
	},
	{
	"epoch": 0.23469940422458926,
	"grad_norm": 24.723041534423828,
	"learning_rate": 2.9422266800401203e-05,
	"loss": 1.137,
	"step": 2600
	},
	{
	"epoch": 0.2392128543058314,
	"grad_norm": 14.101241111755371,
	"learning_rate": 2.9347041123370113e-05,
	"loss": 1.0199,
	"step": 2650
	},
	{
	"epoch": 0.2437263043870735,
	"grad_norm": 7.032845497131348,
	"learning_rate": 2.927181544633902e-05,
	"loss": 1.0601,
	"step": 2700
	},
	{
	"epoch": 0.2482397544683156,
	"grad_norm": 13.543634414672852,
	"learning_rate": 2.9196589769307924e-05,
	"loss": 1.0534,
	"step": 2750
	},
	{
	"epoch": 0.2482397544683156,
	"eval_exact_match": 79.57426679280984,
	"eval_f1": 87.74281924363757,
	"eval_runtime": 143.6905,
	"eval_samples_per_second": 75.148,
	"eval_steps_per_second": 18.79,
	"step": 2750
	},
	{
	"epoch": 0.2527532045495577,
	"grad_norm": 7.890726566314697,
	"learning_rate": 2.9121364092276833e-05,
	"loss": 1.0196,
	"step": 2800
	},
	{
	"epoch": 0.2572666546307998,
	"grad_norm": 12.943625450134277,
	"learning_rate": 2.904613841524574e-05,
	"loss": 1.0178,
	"step": 2850
	},
	{
	"epoch": 0.2617801047120419,
	"grad_norm": 9.828871726989746,
	"learning_rate": 2.897091273821464e-05,
	"loss": 1.0482,
	"step": 2900
	},
	{
	"epoch": 0.266293554793284,
	"grad_norm": 28.693660736083984,
	"learning_rate": 2.889568706118355e-05,
	"loss": 0.9897,
	"step": 2950
	},
	{
	"epoch": 0.2708070048745261,
	"grad_norm": 10.408865928649902,
	"learning_rate": 2.8820461384152457e-05,
	"loss": 0.9407,
	"step": 3000
	},
	{
	"epoch": 0.2708070048745261,
	"eval_exact_match": 80.37842951750237,
	"eval_f1": 88.60122498039404,
	"eval_runtime": 143.7217,
	"eval_samples_per_second": 75.131,
	"eval_steps_per_second": 18.786,
	"step": 3000
	},
	{
	"epoch": 0.2753204549557682,
	"grad_norm": 11.135859489440918,
	"learning_rate": 2.8745235707121363e-05,
	"loss": 0.9192,
	"step": 3050
	},
	{
	"epoch": 0.2798339050370103,
	"grad_norm": 10.159820556640625,
	"learning_rate": 2.8670010030090272e-05,
	"loss": 0.9232,
	"step": 3100
	},
	{
	"epoch": 0.2843473551182524,
	"grad_norm": 6.99199914932251,
	"learning_rate": 2.8594784353059178e-05,
	"loss": 0.9188,
	"step": 3150
	},
	{
	"epoch": 0.2888608051994945,
	"grad_norm": 11.692395210266113,
	"learning_rate": 2.8519558676028083e-05,
	"loss": 0.979,
	"step": 3200
	},
	{
	"epoch": 0.2933742552807366,
	"grad_norm": 12.289103507995605,
	"learning_rate": 2.8444332998996993e-05,
	"loss": 0.8573,
	"step": 3250
	},
	{
	"epoch": 0.2933742552807366,
	"eval_exact_match": 81.44749290444655,
	"eval_f1": 88.89880962072144,
	"eval_runtime": 143.7737,
	"eval_samples_per_second": 75.104,
	"eval_steps_per_second": 18.78,
	"step": 3250
	},
	{
	"epoch": 0.29788770536197867,
	"grad_norm": 23.986677169799805,
	"learning_rate": 2.83691073219659e-05,
	"loss": 0.879,
	"step": 3300
	},
	{
	"epoch": 0.30240115544322077,
	"grad_norm": 10.214922904968262,
	"learning_rate": 2.8293881644934804e-05,
	"loss": 0.9526,
	"step": 3350
	},
	{
	"epoch": 0.3069146055244629,
	"grad_norm": 11.930830955505371,
	"learning_rate": 2.8218655967903714e-05,
	"loss": 1.0308,
	"step": 3400
	},
	{
	"epoch": 0.311428055605705,
	"grad_norm": 7.23566198348999,
	"learning_rate": 2.814343029087262e-05,
	"loss": 0.9849,
	"step": 3450
	},
	{
	"epoch": 0.3159415056869471,
	"grad_norm": 10.037336349487305,
	"learning_rate": 2.8068204613841525e-05,
	"loss": 0.8577,
	"step": 3500
	},
	{
	"epoch": 0.3159415056869471,
	"eval_exact_match": 82.28949858088932,
	"eval_f1": 89.36851469763961,
	"eval_runtime": 143.8541,
	"eval_samples_per_second": 75.062,
	"eval_steps_per_second": 18.769,
	"step": 3500
	},
	{
	"epoch": 0.3204549557681892,
	"grad_norm": 19.438182830810547,
	"learning_rate": 2.799297893681043e-05,
	"loss": 0.9586,
	"step": 3550
	},
	{
	"epoch": 0.3249684058494313,
	"grad_norm": 11.259856224060059,
	"learning_rate": 2.7917753259779337e-05,
	"loss": 0.923,
	"step": 3600
	},
	{
	"epoch": 0.3294818559306734,
	"grad_norm": 16.151851654052734,
	"learning_rate": 2.7842527582748243e-05,
	"loss": 0.9551,
	"step": 3650
	},
	{
	"epoch": 0.3339953060119155,
	"grad_norm": 12.570643424987793,
	"learning_rate": 2.7767301905717152e-05,
	"loss": 0.9377,
	"step": 3700
	},
	{
	"epoch": 0.3385087560931576,
	"grad_norm": 13.616052627563477,
	"learning_rate": 2.7692076228686058e-05,
	"loss": 0.7839,
	"step": 3750
	},
	{
	"epoch": 0.3385087560931576,
	"eval_exact_match": 81.69347209082308,
	"eval_f1": 89.48678563794635,
	"eval_runtime": 143.7031,
	"eval_samples_per_second": 75.141,
	"eval_steps_per_second": 18.789,
	"step": 3750
	},
	{
	"epoch": 0.3430222061743997,
	"grad_norm": 20.124753952026367,
	"learning_rate": 2.7616850551654964e-05,
	"loss": 0.9229,
	"step": 3800
	},
	{
	"epoch": 0.3475356562556418,
	"grad_norm": 7.816183090209961,
	"learning_rate": 2.7541624874623873e-05,
	"loss": 1.0717,
	"step": 3850
	},
	{
	"epoch": 0.3520491063368839,
	"grad_norm": 5.988482475280762,
	"learning_rate": 2.746639919759278e-05,
	"loss": 0.9611,
	"step": 3900
	},
	{
	"epoch": 0.356562556418126,
	"grad_norm": 13.177979469299316,
	"learning_rate": 2.7391173520561685e-05,
	"loss": 0.9207,
	"step": 3950
	},
	{
	"epoch": 0.3610760064993681,
	"grad_norm": 11.034092903137207,
	"learning_rate": 2.7315947843530594e-05,
	"loss": 0.9395,
	"step": 4000
	},
	{
	"epoch": 0.3610760064993681,
	"eval_exact_match": 82.74361400189214,
	"eval_f1": 90.06638594360132,
	"eval_runtime": 143.7901,
	"eval_samples_per_second": 75.096,
	"eval_steps_per_second": 18.777,
	"step": 4000
	},
	{
	"epoch": 0.3655894565806102,
	"grad_norm": 5.799317359924316,
	"learning_rate": 2.72407221664995e-05,
	"loss": 0.9385,
	"step": 4050
	},
	{
	"epoch": 0.3701029066618523,
	"grad_norm": 13.385774612426758,
	"learning_rate": 2.7165496489468405e-05,
	"loss": 0.9356,
	"step": 4100
	},
	{
	"epoch": 0.3746163567430944,
	"grad_norm": 22.11754608154297,
	"learning_rate": 2.7090270812437315e-05,
	"loss": 0.8532,
	"step": 4150
	},
	{
	"epoch": 0.3791298068243365,
	"grad_norm": 4.648535251617432,
	"learning_rate": 2.701504513540622e-05,
	"loss": 1.0032,
	"step": 4200
	},
	{
	"epoch": 0.3836432569055786,
	"grad_norm": 24.29154396057129,
	"learning_rate": 2.6939819458375123e-05,
	"loss": 0.8606,
	"step": 4250
	},
	{
	"epoch": 0.3836432569055786,
	"eval_exact_match": 82.58278145695364,
	"eval_f1": 89.65557078580815,
	"eval_runtime": 143.6035,
	"eval_samples_per_second": 75.193,
	"eval_steps_per_second": 18.802,
	"step": 4250
	},
	{
	"epoch": 0.3881567069868207,
	"grad_norm": 21.021242141723633,
	"learning_rate": 2.6864593781344032e-05,
	"loss": 0.9006,
	"step": 4300
	},
	{
	"epoch": 0.39267015706806285,
	"grad_norm": 26.466794967651367,
	"learning_rate": 2.6789368104312938e-05,
	"loss": 0.9426,
	"step": 4350
	},
	{
	"epoch": 0.39718360714930495,
	"grad_norm": 6.325038433074951,
	"learning_rate": 2.6714142427281844e-05,
	"loss": 0.8097,
	"step": 4400
	},
	{
	"epoch": 0.40169705723054705,
	"grad_norm": 8.038667678833008,
	"learning_rate": 2.6638916750250753e-05,
	"loss": 0.9053,
	"step": 4450
	},
	{
	"epoch": 0.40621050731178915,
	"grad_norm": 10.573040008544922,
	"learning_rate": 2.656369107321966e-05,
	"loss": 0.8459,
	"step": 4500
	},
	{
	"epoch": 0.40621050731178915,
	"eval_exact_match": 82.60170293282876,
	"eval_f1": 89.80136126079411,
	"eval_runtime": 143.5994,
	"eval_samples_per_second": 75.195,
	"eval_steps_per_second": 18.802,
	"step": 4500
	},
	{
	"epoch": 0.41072395739303125,
	"grad_norm": 7.336009979248047,
	"learning_rate": 2.6488465396188565e-05,
	"loss": 0.8691,
	"step": 4550
	},
	{
	"epoch": 0.41523740747427335,
	"grad_norm": 13.7125825881958,
	"learning_rate": 2.6413239719157474e-05,
	"loss": 0.8486,
	"step": 4600
	},
	{
	"epoch": 0.41975085755551544,
	"grad_norm": 12.19320011138916,
	"learning_rate": 2.633801404212638e-05,
	"loss": 0.9189,
	"step": 4650
	},
	{
	"epoch": 0.42426430763675754,
	"grad_norm": 11.599879264831543,
	"learning_rate": 2.6262788365095286e-05,
	"loss": 0.942,
	"step": 4700
	},
	{
	"epoch": 0.42877775771799964,
	"grad_norm": 9.139724731445312,
	"learning_rate": 2.6187562688064195e-05,
	"loss": 0.9565,
	"step": 4750
	},
	{
	"epoch": 0.42877775771799964,
	"eval_exact_match": 83.66130558183538,
	"eval_f1": 90.80495165338898,
	"eval_runtime": 143.5723,
	"eval_samples_per_second": 75.209,
	"eval_steps_per_second": 18.806,
	"step": 4750
	},
	{
	"epoch": 0.43329120779924174,
	"grad_norm": 10.977174758911133,
	"learning_rate": 2.61123370110331e-05,
	"loss": 0.8751,
	"step": 4800
	},
	{
	"epoch": 0.43780465788048384,
	"grad_norm": 13.7095947265625,
	"learning_rate": 2.6037111334002007e-05,
	"loss": 0.7547,
	"step": 4850
	},
	{
	"epoch": 0.44231810796172594,
	"grad_norm": 26.184358596801758,
	"learning_rate": 2.5961885656970912e-05,
	"loss": 0.9376,
	"step": 4900
	},
	{
	"epoch": 0.44683155804296804,
	"grad_norm": 21.620555877685547,
	"learning_rate": 2.5886659979939818e-05,
	"loss": 0.8013,
	"step": 4950
	},
	{
	"epoch": 0.45134500812421013,
	"grad_norm": 12.163994789123535,
	"learning_rate": 2.5811434302908724e-05,
	"loss": 0.8731,
	"step": 5000
	},
	{
	"epoch": 0.45134500812421013,
	"eval_exact_match": 82.37464522232735,
	"eval_f1": 89.97068346136126,
	"eval_runtime": 143.7072,
	"eval_samples_per_second": 75.139,
	"eval_steps_per_second": 18.788,
	"step": 5000
	},
	{
	"epoch": 0.45585845820545223,
	"grad_norm": 5.3110175132751465,
	"learning_rate": 2.5736208625877633e-05,
	"loss": 0.9062,
	"step": 5050
	},
	{
	"epoch": 0.46037190828669433,
	"grad_norm": 17.91867446899414,
	"learning_rate": 2.566098294884654e-05,
	"loss": 0.8749,
	"step": 5100
	},
	{
	"epoch": 0.46488535836793643,
	"grad_norm": 34.21914291381836,
	"learning_rate": 2.5585757271815445e-05,
	"loss": 0.8915,
	"step": 5150
	},
	{
	"epoch": 0.46939880844917853,
	"grad_norm": 8.76441478729248,
	"learning_rate": 2.5510531594784354e-05,
	"loss": 0.8023,
	"step": 5200
	},
	{
	"epoch": 0.4739122585304206,
	"grad_norm": 20.71419334411621,
	"learning_rate": 2.543530591775326e-05,
	"loss": 0.8114,
	"step": 5250
	},
	{
	"epoch": 0.4739122585304206,
	"eval_exact_match": 82.36518448438979,
	"eval_f1": 90.09893335252144,
	"eval_runtime": 143.9381,
	"eval_samples_per_second": 75.018,
	"eval_steps_per_second": 18.758,
	"step": 5250
	},
	{
	"epoch": 0.4784257086116628,
	"grad_norm": 14.544415473937988,
	"learning_rate": 2.536008024072217e-05,
	"loss": 0.8045,
	"step": 5300
	},
	{
	"epoch": 0.4829391586929049,
	"grad_norm": 40.066375732421875,
	"learning_rate": 2.5284854563691075e-05,
	"loss": 0.8651,
	"step": 5350
	},
	{
	"epoch": 0.487452608774147,
	"grad_norm": 16.154937744140625,
	"learning_rate": 2.520962888665998e-05,
	"loss": 0.9995,
	"step": 5400
	},
	{
	"epoch": 0.4919660588553891,
	"grad_norm": 6.674190044403076,
	"learning_rate": 2.513440320962889e-05,
	"loss": 0.8231,
	"step": 5450
	},
	{
	"epoch": 0.4964795089366312,
	"grad_norm": 6.037493705749512,
	"learning_rate": 2.5059177532597796e-05,
	"loss": 0.8369,
	"step": 5500
	},
	{
	"epoch": 0.4964795089366312,
	"eval_exact_match": 83.20719016083254,
	"eval_f1": 90.18831406264282,
	"eval_runtime": 143.9261,
	"eval_samples_per_second": 75.025,
	"eval_steps_per_second": 18.76,
	"step": 5500
	},
	{
	"epoch": 0.5009929590178732,
	"grad_norm": 8.621197700500488,
	"learning_rate": 2.4983951855566702e-05,
	"loss": 0.8002,
	"step": 5550
	},
	{
	"epoch": 0.5055064090991154,
	"grad_norm": 19.25075340270996,
	"learning_rate": 2.4908726178535608e-05,
	"loss": 0.8039,
	"step": 5600
	},
	{
	"epoch": 0.5100198591803574,
	"grad_norm": 14.201600074768066,
	"learning_rate": 2.4833500501504514e-05,
	"loss": 0.7525,
	"step": 5650
	},
	{
	"epoch": 0.5145333092615996,
	"grad_norm": 30.636154174804688,
	"learning_rate": 2.475827482447342e-05,
	"loss": 0.7711,
	"step": 5700
	},
	{
	"epoch": 0.5190467593428417,
	"grad_norm": 8.79736042022705,
	"learning_rate": 2.468304914744233e-05,
	"loss": 0.8997,
	"step": 5750
	},
	{
	"epoch": 0.5190467593428417,
	"eval_exact_match": 83.66130558183538,
	"eval_f1": 90.84316221305555,
	"eval_runtime": 143.8756,
	"eval_samples_per_second": 75.051,
	"eval_steps_per_second": 18.766,
	"step": 5750
	},
	{
	"epoch": 0.5235602094240838,
	"grad_norm": 14.871445655822754,
	"learning_rate": 2.4607823470411234e-05,
	"loss": 0.7639,
	"step": 5800
	},
	{
	"epoch": 0.5280736595053259,
	"grad_norm": 6.112968444824219,
	"learning_rate": 2.453259779338014e-05,
	"loss": 0.8643,
	"step": 5850
	},
	{
	"epoch": 0.532587109586568,
	"grad_norm": 6.213535785675049,
	"learning_rate": 2.445737211634905e-05,
	"loss": 1.0582,
	"step": 5900
	},
	{
	"epoch": 0.5371005596678101,
	"grad_norm": 4.76146936416626,
	"learning_rate": 2.4382146439317955e-05,
	"loss": 0.818,
	"step": 5950
	},
	{
	"epoch": 0.5416140097490522,
	"grad_norm": 8.690106391906738,
	"learning_rate": 2.430692076228686e-05,
	"loss": 0.8871,
	"step": 6000
	},
	{
	"epoch": 0.5416140097490522,
	"eval_exact_match": 84.03027436140019,
	"eval_f1": 90.88429950527104,
	"eval_runtime": 143.8461,
	"eval_samples_per_second": 75.066,
	"eval_steps_per_second": 18.77,
	"step": 6000
	},
	{
	"epoch": 0.5461274598302943,
	"grad_norm": 18.575305938720703,
	"learning_rate": 2.423169508525577e-05,
	"loss": 0.9143,
	"step": 6050
	},
	{
	"epoch": 0.5506409099115364,
	"grad_norm": 2.229325294494629,
	"learning_rate": 2.4156469408224676e-05,
	"loss": 0.9387,
	"step": 6100
	},
	{
	"epoch": 0.5551543599927785,
	"grad_norm": 9.413180351257324,
	"learning_rate": 2.4081243731193582e-05,
	"loss": 0.8657,
	"step": 6150
	},
	{
	"epoch": 0.5596678100740206,
	"grad_norm": 5.644939422607422,
	"learning_rate": 2.400601805416249e-05,
	"loss": 0.8445,
	"step": 6200
	},
	{
	"epoch": 0.5641812601552627,
	"grad_norm": 23.247257232666016,
	"learning_rate": 2.3930792377131394e-05,
	"loss": 0.8342,
	"step": 6250
	},
	{
	"epoch": 0.5641812601552627,
	"eval_exact_match": 84.12488174077578,
	"eval_f1": 91.10403462345704,
	"eval_runtime": 144.0358,
	"eval_samples_per_second": 74.967,
	"eval_steps_per_second": 18.745,
	"step": 6250
	},
	{
	"epoch": 0.5686947102365048,
	"grad_norm": 19.933300018310547,
	"learning_rate": 2.38555667001003e-05,
	"loss": 0.8348,
	"step": 6300
	},
	{
	"epoch": 0.5732081603177469,
	"grad_norm": 7.6812872886657715,
	"learning_rate": 2.378034102306921e-05,
	"loss": 0.7582,
	"step": 6350
	},
	{
	"epoch": 0.577721610398989,
	"grad_norm": 13.01408863067627,
	"learning_rate": 2.3705115346038115e-05,
	"loss": 0.7245,
	"step": 6400
	},
	{
	"epoch": 0.5822350604802311,
	"grad_norm": 23.909793853759766,
	"learning_rate": 2.362988966900702e-05,
	"loss": 0.7503,
	"step": 6450
	},
	{
	"epoch": 0.5867485105614731,
	"grad_norm": 5.6074323654174805,
	"learning_rate": 2.355466399197593e-05,
	"loss": 0.8251,
	"step": 6500
	},
	{
	"epoch": 0.5867485105614731,
	"eval_exact_match": 84.31409649952697,
	"eval_f1": 91.10669916586389,
	"eval_runtime": 143.8718,
	"eval_samples_per_second": 75.053,
	"eval_steps_per_second": 18.767,
	"step": 6500
	},
	{
	"epoch": 0.5912619606427153,
	"grad_norm": 13.117137908935547,
	"learning_rate": 2.3479438314944836e-05,
	"loss": 0.7903,
	"step": 6550
	},
	{
	"epoch": 0.5957754107239573,
	"grad_norm": 4.99781608581543,
	"learning_rate": 2.340421263791374e-05,
	"loss": 0.8538,
	"step": 6600
	},
	{
	"epoch": 0.6002888608051995,
	"grad_norm": 7.639380931854248,
	"learning_rate": 2.332898696088265e-05,
	"loss": 0.8154,
	"step": 6650
	},
	{
	"epoch": 0.6048023108864415,
	"grad_norm": 30.98665428161621,
	"learning_rate": 2.3253761283851556e-05,
	"loss": 0.723,
	"step": 6700
	},
	{
	"epoch": 0.6093157609676837,
	"grad_norm": 30.613746643066406,
	"learning_rate": 2.3178535606820462e-05,
	"loss": 0.8682,
	"step": 6750
	},
	{
	"epoch": 0.6093157609676837,
	"eval_exact_match": 83.72753074739829,
	"eval_f1": 90.83640909549077,
	"eval_runtime": 143.634,
	"eval_samples_per_second": 75.177,
	"eval_steps_per_second": 18.798,
	"step": 6750
	},
	{
	"epoch": 0.6138292110489258,
	"grad_norm": 8.440532684326172,
	"learning_rate": 2.310330992978937e-05,
	"loss": 0.8729,
	"step": 6800
	},
	{
	"epoch": 0.6183426611301679,
	"grad_norm": 5.947940826416016,
	"learning_rate": 2.3028084252758277e-05,
	"loss": 0.747,
	"step": 6850
	},
	{
	"epoch": 0.62285611121141,
	"grad_norm": 16.59714698791504,
	"learning_rate": 2.295285857572718e-05,
	"loss": 0.8015,
	"step": 6900
	},
	{
	"epoch": 0.6273695612926521,
	"grad_norm": 5.211153507232666,
	"learning_rate": 2.287763289869609e-05,
	"loss": 0.8957,
	"step": 6950
	},
	{
	"epoch": 0.6318830113738942,
	"grad_norm": 4.547276496887207,
	"learning_rate": 2.2802407221664995e-05,
	"loss": 0.9019,
	"step": 7000
	},
	{
	"epoch": 0.6318830113738942,
	"eval_exact_match": 84.82497634815516,
	"eval_f1": 91.52669904904272,
	"eval_runtime": 145.3332,
	"eval_samples_per_second": 74.298,
	"eval_steps_per_second": 18.578,
	"step": 7000
	},
	{
	"epoch": 0.6363964614551363,
	"grad_norm": 11.642155647277832,
	"learning_rate": 2.27271815446339e-05,
	"loss": 0.7963,
	"step": 7050
	},
	{
	"epoch": 0.6409099115363784,
	"grad_norm": 7.39171028137207,
	"learning_rate": 2.265195586760281e-05,
	"loss": 0.7953,
	"step": 7100
	},
	{
	"epoch": 0.6454233616176205,
	"grad_norm": 13.905296325683594,
	"learning_rate": 2.2576730190571716e-05,
	"loss": 0.7865,
	"step": 7150
	},
	{
	"epoch": 0.6499368116988626,
	"grad_norm": 5.167139530181885,
	"learning_rate": 2.250150451354062e-05,
	"loss": 0.8087,
	"step": 7200
	},
	{
	"epoch": 0.6544502617801047,
	"grad_norm": 27.534217834472656,
	"learning_rate": 2.242627883650953e-05,
	"loss": 0.9436,
	"step": 7250
	},
	{
	"epoch": 0.6544502617801047,
	"eval_exact_match": 84.06811731315042,
	"eval_f1": 91.07524033930977,
	"eval_runtime": 143.7651,
	"eval_samples_per_second": 75.109,
	"eval_steps_per_second": 18.781,
	"step": 7250
	},
	{
	"epoch": 0.6589637118613468,
	"grad_norm": 15.742715835571289,
	"learning_rate": 2.2351053159478437e-05,
	"loss": 0.8499,
	"step": 7300
	},
	{
	"epoch": 0.6634771619425889,
	"grad_norm": 16.15327262878418,
	"learning_rate": 2.2275827482447342e-05,
	"loss": 0.846,
	"step": 7350
	},
	{
	"epoch": 0.667990612023831,
	"grad_norm": 17.383888244628906,
	"learning_rate": 2.220060180541625e-05,
	"loss": 0.7903,
	"step": 7400
	},
	{
	"epoch": 0.6725040621050731,
	"grad_norm": 7.484638214111328,
	"learning_rate": 2.2125376128385157e-05,
	"loss": 0.7664,
	"step": 7450
	},
	{
	"epoch": 0.6770175121863152,
	"grad_norm": 10.082265853881836,
	"learning_rate": 2.2050150451354063e-05,
	"loss": 0.9177,
	"step": 7500
	},
	{
	"epoch": 0.6770175121863152,
	"eval_exact_match": 84.49385052034059,
	"eval_f1": 91.10452090726004,
	"eval_runtime": 143.5023,
	"eval_samples_per_second": 75.246,
	"eval_steps_per_second": 18.815,
	"step": 7500
	},
	{
	"epoch": 0.6815309622675573,
	"grad_norm": 10.778836250305176,
	"learning_rate": 2.1974924774322973e-05,
	"loss": 0.7529,
	"step": 7550
	},
	{
	"epoch": 0.6860444123487994,
	"grad_norm": 12.894726753234863,
	"learning_rate": 2.1899699097291875e-05,
	"loss": 0.8783,
	"step": 7600
	},
	{
	"epoch": 0.6905578624300415,
	"grad_norm": 7.819123268127441,
	"learning_rate": 2.182447342026078e-05,
	"loss": 0.9095,
	"step": 7650
	},
	{
	"epoch": 0.6950713125112836,
	"grad_norm": 24.68296241760254,
	"learning_rate": 2.174924774322969e-05,
	"loss": 0.8804,
	"step": 7700
	},
	{
	"epoch": 0.6995847625925258,
	"grad_norm": 9.52649974822998,
	"learning_rate": 2.1674022066198596e-05,
	"loss": 0.8028,
	"step": 7750
	},
	{
	"epoch": 0.6995847625925258,
	"eval_exact_match": 85.59129612109744,
	"eval_f1": 91.93623152881347,
	"eval_runtime": 143.4073,
	"eval_samples_per_second": 75.296,
	"eval_steps_per_second": 18.827,
	"step": 7750
	},
	{
	"epoch": 0.7040982126737678,
	"grad_norm": 10.898487091064453,
	"learning_rate": 2.1598796389167502e-05,
	"loss": 0.8282,
	"step": 7800
	},
	{
	"epoch": 0.70861166275501,
	"grad_norm": 6.693902969360352,
	"learning_rate": 2.152357071213641e-05,
	"loss": 0.775,
	"step": 7850
	},
	{
	"epoch": 0.713125112836252,
	"grad_norm": 10.00558090209961,
	"learning_rate": 2.1448345035105317e-05,
	"loss": 0.6894,
	"step": 7900
	},
	{
	"epoch": 0.7176385629174942,
	"grad_norm": 2.776298761367798,
	"learning_rate": 2.1373119358074223e-05,
	"loss": 0.8409,
	"step": 7950
	},
	{
	"epoch": 0.7221520129987362,
	"grad_norm": 13.581101417541504,
	"learning_rate": 2.1297893681043132e-05,
	"loss": 0.8222,
	"step": 8000
	},
	{
	"epoch": 0.7221520129987362,
	"eval_exact_match": 84.57899716177862,
	"eval_f1": 91.38107826122027,
	"eval_runtime": 143.4879,
	"eval_samples_per_second": 75.254,
	"eval_steps_per_second": 18.817,
	"step": 8000
	},
	{
	"epoch": 0.7266654630799784,
	"grad_norm": 6.5702223777771,
	"learning_rate": 2.1222668004012038e-05,
	"loss": 0.6735,
	"step": 8050
	},
	{
	"epoch": 0.7311789131612204,
	"grad_norm": 18.275623321533203,
	"learning_rate": 2.1147442326980944e-05,
	"loss": 0.8389,
	"step": 8100
	},
	{
	"epoch": 0.7356923632424626,
	"grad_norm": 15.205418586730957,
	"learning_rate": 2.1072216649949853e-05,
	"loss": 0.7803,
	"step": 8150
	},
	{
	"epoch": 0.7402058133237046,
	"grad_norm": 8.31666088104248,
	"learning_rate": 2.099699097291876e-05,
	"loss": 0.7081,
	"step": 8200
	},
	{
	"epoch": 0.7447192634049468,
	"grad_norm": 9.174483299255371,
	"learning_rate": 2.092176529588766e-05,
	"loss": 0.826,
	"step": 8250
	},
	{
	"epoch": 0.7447192634049468,
	"eval_exact_match": 84.76821192052981,
	"eval_f1": 91.56620229706857,
	"eval_runtime": 143.4859,
	"eval_samples_per_second": 75.255,
	"eval_steps_per_second": 18.817,
	"step": 8250
	},
	{
	"epoch": 0.7492327134861888,
	"grad_norm": 5.849365234375,
	"learning_rate": 2.084653961885657e-05,
	"loss": 0.7826,
	"step": 8300
	},
	{
	"epoch": 0.753746163567431,
	"grad_norm": 8.80666446685791,
	"learning_rate": 2.0771313941825476e-05,
	"loss": 0.8931,
	"step": 8350
	},
	{
	"epoch": 0.758259613648673,
	"grad_norm": 7.301697731018066,
	"learning_rate": 2.0696088264794382e-05,
	"loss": 0.6788,
	"step": 8400
	},
	{
	"epoch": 0.7627730637299152,
	"grad_norm": 9.519810676574707,
	"learning_rate": 2.062086258776329e-05,
	"loss": 0.7928,
	"step": 8450
	},
	{
	"epoch": 0.7672865138111572,
	"grad_norm": 8.138936996459961,
	"learning_rate": 2.0545636910732197e-05,
	"loss": 0.8625,
	"step": 8500
	},
	{
	"epoch": 0.7672865138111572,
	"eval_exact_match": 85.19394512771996,
	"eval_f1": 91.95119129750337,
	"eval_runtime": 143.5272,
	"eval_samples_per_second": 75.233,
	"eval_steps_per_second": 18.812,
	"step": 8500
	},
	{
	"epoch": 0.7717999638923994,
	"grad_norm": 3.691103935241699,
	"learning_rate": 2.0470411233701103e-05,
	"loss": 0.7947,
	"step": 8550
	},
	{
	"epoch": 0.7763134139736414,
	"grad_norm": 14.496338844299316,
	"learning_rate": 2.0395185556670012e-05,
	"loss": 0.8135,
	"step": 8600
	},
	{
	"epoch": 0.7808268640548836,
	"grad_norm": 6.248403072357178,
	"learning_rate": 2.0319959879638918e-05,
	"loss": 0.8594,
	"step": 8650
	},
	{
	"epoch": 0.7853403141361257,
	"grad_norm": 16.819801330566406,
	"learning_rate": 2.0244734202607824e-05,
	"loss": 0.8171,
	"step": 8700
	},
	{
	"epoch": 0.7898537642173677,
	"grad_norm": 7.9061079025268555,
	"learning_rate": 2.0169508525576733e-05,
	"loss": 0.6517,
	"step": 8750
	},
	{
	"epoch": 0.7898537642173677,
	"eval_exact_match": 85.6480605487228,
	"eval_f1": 91.95890910573651,
	"eval_runtime": 143.4989,
	"eval_samples_per_second": 75.248,
	"eval_steps_per_second": 18.815,
	"step": 8750
	},
	{
	"epoch": 0.7943672142986099,
	"grad_norm": 12.129390716552734,
	"learning_rate": 2.009428284854564e-05,
	"loss": 0.7358,
	"step": 8800
	},
	{
	"epoch": 0.798880664379852,
	"grad_norm": 7.113585472106934,
	"learning_rate": 2.0019057171514545e-05,
	"loss": 0.8517,
	"step": 8850
	},
	{
	"epoch": 0.8033941144610941,
	"grad_norm": 10.407898902893066,
	"learning_rate": 1.994383149448345e-05,
	"loss": 0.733,
	"step": 8900
	},
	{
	"epoch": 0.8079075645423361,
	"grad_norm": 15.745281219482422,
	"learning_rate": 1.9868605817452356e-05,
	"loss": 0.693,
	"step": 8950
	},
	{
	"epoch": 0.8124210146235783,
	"grad_norm": 6.876597881317139,
	"learning_rate": 1.9793380140421262e-05,
	"loss": 0.817,
	"step": 9000
	},
	{
	"epoch": 0.8124210146235783,
	"eval_exact_match": 84.87228003784296,
	"eval_f1": 91.5110749584356,
	"eval_runtime": 143.5544,
	"eval_samples_per_second": 75.219,
	"eval_steps_per_second": 18.808,
	"step": 9000
	},
	{
	"epoch": 0.8169344647048203,
	"grad_norm": 7.4037065505981445,
	"learning_rate": 1.971815446339017e-05,
	"loss": 0.8677,
	"step": 9050
	},
	{
	"epoch": 0.8214479147860625,
	"grad_norm": 4.559969902038574,
	"learning_rate": 1.9642928786359077e-05,
	"loss": 0.7798,
	"step": 9100
	},
	{
	"epoch": 0.8259613648673045,
	"grad_norm": 7.184974670410156,
	"learning_rate": 1.9567703109327983e-05,
	"loss": 0.7705,
	"step": 9150
	},
	{
	"epoch": 0.8304748149485467,
	"grad_norm": 8.206283569335938,
	"learning_rate": 1.9492477432296892e-05,
	"loss": 0.8398,
	"step": 9200
	},
	{
	"epoch": 0.8349882650297887,
	"grad_norm": 7.29602575302124,
	"learning_rate": 1.9417251755265798e-05,
	"loss": 0.7574,
	"step": 9250
	},
	{
	"epoch": 0.8349882650297887,
	"eval_exact_match": 85.06149479659413,
	"eval_f1": 91.53106503540634,
	"eval_runtime": 143.5779,
	"eval_samples_per_second": 75.207,
	"eval_steps_per_second": 18.805,
	"step": 9250
	},
	{
	"epoch": 0.8395017151110309,
	"grad_norm": 10.167183876037598,
	"learning_rate": 1.9342026078234704e-05,
	"loss": 0.7103,
	"step": 9300
	},
	{
	"epoch": 0.8440151651922729,
	"grad_norm": 6.271793365478516,
	"learning_rate": 1.9266800401203613e-05,
	"loss": 0.8364,
	"step": 9350
	},
	{
	"epoch": 0.8485286152735151,
	"grad_norm": 11.07026481628418,
	"learning_rate": 1.919157472417252e-05,
	"loss": 0.726,
	"step": 9400
	},
	{
	"epoch": 0.8530420653547571,
	"grad_norm": 5.571475028991699,
	"learning_rate": 1.9116349047141425e-05,
	"loss": 0.7205,
	"step": 9450
	},
	{
	"epoch": 0.8575555154359993,
	"grad_norm": 3.4866223335266113,
	"learning_rate": 1.9041123370110334e-05,
	"loss": 0.7832,
	"step": 9500
	},
	{
	"epoch": 0.8575555154359993,
	"eval_exact_match": 85.44938505203406,
	"eval_f1": 91.84507576310226,
	"eval_runtime": 143.5379,
	"eval_samples_per_second": 75.228,
	"eval_steps_per_second": 18.81,
	"step": 9500
	},
	{
	"epoch": 0.8620689655172413,
	"grad_norm": 2.2408883571624756,
	"learning_rate": 1.896589769307924e-05,
	"loss": 0.7533,
	"step": 9550
	},
	{
	"epoch": 0.8665824155984835,
	"grad_norm": 13.415377616882324,
	"learning_rate": 1.8890672016048142e-05,
	"loss": 0.7669,
	"step": 9600
	},
	{
	"epoch": 0.8710958656797256,
	"grad_norm": 4.730581760406494,
	"learning_rate": 1.881544633901705e-05,
	"loss": 0.7468,
	"step": 9650
	},
	{
	"epoch": 0.8756093157609677,
	"grad_norm": 6.725691318511963,
	"learning_rate": 1.8740220661985957e-05,
	"loss": 0.7426,
	"step": 9700
	},
	{
	"epoch": 0.8801227658422098,
	"grad_norm": 8.169360160827637,
	"learning_rate": 1.8664994984954863e-05,
	"loss": 0.8436,
	"step": 9750
	},
	{
	"epoch": 0.8801227658422098,
	"eval_exact_match": 84.88174077578051,
	"eval_f1": 91.83275837323971,
	"eval_runtime": 143.4694,
	"eval_samples_per_second": 75.263,
	"eval_steps_per_second": 18.819,
	"step": 9750
	},
	{
	"epoch": 0.8846362159234519,
	"grad_norm": 1.717469334602356,
	"learning_rate": 1.8589769307923772e-05,
	"loss": 0.7889,
	"step": 9800
	},
	{
	"epoch": 0.889149666004694,
	"grad_norm": 20.31835174560547,
	"learning_rate": 1.8514543630892678e-05,
	"loss": 0.7648,
	"step": 9850
	},
	{
	"epoch": 0.8936631160859361,
	"grad_norm": 15.77481746673584,
	"learning_rate": 1.8439317953861584e-05,
	"loss": 0.7259,
	"step": 9900
	},
	{
	"epoch": 0.8981765661671782,
	"grad_norm": 3.87709641456604,
	"learning_rate": 1.8364092276830493e-05,
	"loss": 0.7866,
	"step": 9950
	},
	{
	"epoch": 0.9026900162484203,
	"grad_norm": 8.835536003112793,
	"learning_rate": 1.82888665997994e-05,
	"loss": 0.6775,
	"step": 10000
	},
	{
	"epoch": 0.9026900162484203,
	"eval_exact_match": 85.99810785241249,
	"eval_f1": 91.99639894905705,
	"eval_runtime": 143.5348,
	"eval_samples_per_second": 75.229,
	"eval_steps_per_second": 18.811,
	"step": 10000
	},
	{
	"epoch": 0.9072034663296624,
	"grad_norm": 12.733137130737305,
	"learning_rate": 1.8213640922768305e-05,
	"loss": 0.7703,
	"step": 10050
	},
	{
	"epoch": 0.9117169164109045,
	"grad_norm": 12.40443229675293,
	"learning_rate": 1.8138415245737214e-05,
	"loss": 0.7619,
	"step": 10100
	},
	{
	"epoch": 0.9162303664921466,
	"grad_norm": 6.346498012542725,
	"learning_rate": 1.806318956870612e-05,
	"loss": 0.7605,
	"step": 10150
	},
	{
	"epoch": 0.9207438165733887,
	"grad_norm": 5.372687816619873,
	"learning_rate": 1.7987963891675026e-05,
	"loss": 0.6591,
	"step": 10200
	},
	{
	"epoch": 0.9252572666546308,
	"grad_norm": 4.377304553985596,
	"learning_rate": 1.7912738214643932e-05,
	"loss": 0.8404,
	"step": 10250
	},
	{
	"epoch": 0.9252572666546308,
	"eval_exact_match": 85.89403973509934,
	"eval_f1": 92.11360231029698,
	"eval_runtime": 144.2084,
	"eval_samples_per_second": 74.878,
	"eval_steps_per_second": 18.723,
	"step": 10250
	},
	{
	"epoch": 0.9297707167358729,
	"grad_norm": 11.62856388092041,
	"learning_rate": 1.7837512537612838e-05,
	"loss": 0.7712,
	"step": 10300
	},
	{
	"epoch": 0.934284166817115,
	"grad_norm": 5.723257541656494,
	"learning_rate": 1.7762286860581743e-05,
	"loss": 0.7171,
	"step": 10350
	},
	{
	"epoch": 0.9387976168983571,
	"grad_norm": 6.060873031616211,
	"learning_rate": 1.7687061183550653e-05,
	"loss": 0.7324,
	"step": 10400
	},
	{
	"epoch": 0.9433110669795992,
	"grad_norm": 4.51533842086792,
	"learning_rate": 1.761183550651956e-05,
	"loss": 0.7633,
	"step": 10450
	},
	{
	"epoch": 0.9478245170608413,
	"grad_norm": 11.809548377990723,
	"learning_rate": 1.7536609829488464e-05,
	"loss": 0.8111,
	"step": 10500
	},
	{
	"epoch": 0.9478245170608413,
	"eval_exact_match": 85.09933774834437,
	"eval_f1": 91.93045017438146,
	"eval_runtime": 143.4235,
	"eval_samples_per_second": 75.288,
	"eval_steps_per_second": 18.825,
	"step": 10500
	},
	{
	"epoch": 0.9523379671420834,
	"grad_norm": 15.76356029510498,
	"learning_rate": 1.7461384152457374e-05,
	"loss": 0.7013,
	"step": 10550
	},
	{
	"epoch": 0.9568514172233256,
	"grad_norm": 23.272687911987305,
	"learning_rate": 1.738615847542628e-05,
	"loss": 0.8229,
	"step": 10600
	},
	{
	"epoch": 0.9613648673045676,
	"grad_norm": 16.758358001708984,
	"learning_rate": 1.7310932798395185e-05,
	"loss": 0.7479,
	"step": 10650
	},
	{
	"epoch": 0.9658783173858098,
	"grad_norm": 14.670035362243652,
	"learning_rate": 1.7235707121364094e-05,
	"loss": 0.8,
	"step": 10700
	},
	{
	"epoch": 0.9703917674670518,
	"grad_norm": 5.1286821365356445,
	"learning_rate": 1.7160481444333e-05,
	"loss": 0.8522,
	"step": 10750
	},
	{
	"epoch": 0.9703917674670518,
	"eval_exact_match": 85.07095553453169,
	"eval_f1": 92.09316544794538,
	"eval_runtime": 143.6698,
	"eval_samples_per_second": 75.158,
	"eval_steps_per_second": 18.793,
	"step": 10750
	},
	{
	"epoch": 0.974905217548294,
	"grad_norm": 8.131464004516602,
	"learning_rate": 1.7085255767301906e-05,
	"loss": 0.7949,
	"step": 10800
	},
	{
	"epoch": 0.979418667629536,
	"grad_norm": 22.16661834716797,
	"learning_rate": 1.7010030090270815e-05,
	"loss": 0.7486,
	"step": 10850
	},
	{
	"epoch": 0.9839321177107782,
	"grad_norm": 5.554388046264648,
	"learning_rate": 1.693480441323972e-05,
	"loss": 0.7604,
	"step": 10900
	},
	{
	"epoch": 0.9884455677920202,
	"grad_norm": 8.525761604309082,
	"learning_rate": 1.6859578736208624e-05,
	"loss": 0.766,
	"step": 10950
	},
	{
	"epoch": 0.9929590178732624,
	"grad_norm": 10.504690170288086,
	"learning_rate": 1.6784353059177533e-05,
	"loss": 0.7166,
	"step": 11000
	},
	{
	"epoch": 0.9929590178732624,
	"eval_exact_match": 85.04257332071901,
	"eval_f1": 92.02241474371678,
	"eval_runtime": 143.4783,
	"eval_samples_per_second": 75.259,
	"eval_steps_per_second": 18.818,
	"step": 11000
	},
	{
	"epoch": 0.9974724679545044,
	"grad_norm": 7.378440856933594,
	"learning_rate": 1.670912738214644e-05,
	"loss": 0.7187,
	"step": 11050
	},
	{
	"epoch": 1.0019859180357464,
	"grad_norm": 3.172842502593994,
	"learning_rate": 1.6633901705115345e-05,
	"loss": 0.7532,
	"step": 11100
	},
	{
	"epoch": 1.0064993681169887,
	"grad_norm": 2.3299856185913086,
	"learning_rate": 1.6558676028084254e-05,
	"loss": 0.497,
	"step": 11150
	},
	{
	"epoch": 1.0110128181982307,
	"grad_norm": 8.6509428024292,
	"learning_rate": 1.648345035105316e-05,
	"loss": 0.4497,
	"step": 11200
	},
	{
	"epoch": 1.0155262682794728,
	"grad_norm": 9.68758773803711,
	"learning_rate": 1.6408224674022065e-05,
	"loss": 0.6154,
	"step": 11250
	},
	{
	"epoch": 1.0155262682794728,
	"eval_exact_match": 86.08325449385052,
	"eval_f1": 92.38528194318762,
	"eval_runtime": 143.3576,
	"eval_samples_per_second": 75.322,
	"eval_steps_per_second": 18.834,
	"step": 11250
	},
	{
	"epoch": 1.0200397183607148,
	"grad_norm": 3.34212064743042,
	"learning_rate": 1.6332998996990975e-05,
	"loss": 0.5372,
	"step": 11300
	},
	{
	"epoch": 1.024553168441957,
	"grad_norm": 5.384337425231934,
	"learning_rate": 1.625777331995988e-05,
	"loss": 0.5464,
	"step": 11350
	},
	{
	"epoch": 1.0290666185231991,
	"grad_norm": 19.279573440551758,
	"learning_rate": 1.6182547642928786e-05,
	"loss": 0.5558,
	"step": 11400
	},
	{
	"epoch": 1.0335800686044412,
	"grad_norm": 5.5248308181762695,
	"learning_rate": 1.6107321965897696e-05,
	"loss": 0.4981,
	"step": 11450
	},
	{
	"epoch": 1.0380935186856832,
	"grad_norm": 5.657703399658203,
	"learning_rate": 1.60320962888666e-05,
	"loss": 0.6565,
	"step": 11500
	},
	{
	"epoch": 1.0380935186856832,
	"eval_exact_match": 85.58183538315988,
	"eval_f1": 92.11318103014378,
	"eval_runtime": 143.5023,
	"eval_samples_per_second": 75.246,
	"eval_steps_per_second": 18.815,
	"step": 11500
	},
	{
	"epoch": 1.0426069687669255,
	"grad_norm": 6.387887954711914,
	"learning_rate": 1.5956870611835507e-05,
	"loss": 0.588,
	"step": 11550
	},
	{
	"epoch": 1.0471204188481675,
	"grad_norm": 1.7305879592895508,
	"learning_rate": 1.5881644934804413e-05,
	"loss": 0.5747,
	"step": 11600
	},
	{
	"epoch": 1.0516338689294096,
	"grad_norm": 14.716680526733398,
	"learning_rate": 1.580641925777332e-05,
	"loss": 0.5632,
	"step": 11650
	},
	{
	"epoch": 1.0561473190106518,
	"grad_norm": 9.127685546875,
	"learning_rate": 1.5731193580742225e-05,
	"loss": 0.4897,
	"step": 11700
	},
	{
	"epoch": 1.0606607690918939,
	"grad_norm": 8.541461944580078,
	"learning_rate": 1.5655967903711134e-05,
	"loss": 0.544,
	"step": 11750
	},
	{
	"epoch": 1.0606607690918939,
	"eval_exact_match": 86.16840113528855,
	"eval_f1": 92.442978713336,
	"eval_runtime": 143.2851,
	"eval_samples_per_second": 75.36,
	"eval_steps_per_second": 18.844,
	"step": 11750
	},
	{
	"epoch": 1.065174219173136,
	"grad_norm": 6.538851737976074,
	"learning_rate": 1.558074222668004e-05,
	"loss": 0.5202,
	"step": 11800
	},
	{
	"epoch": 1.069687669254378,
	"grad_norm": 7.314679145812988,
	"learning_rate": 1.5505516549648946e-05,
	"loss": 0.54,
	"step": 11850
	},
	{
	"epoch": 1.0742011193356202,
	"grad_norm": 2.3385446071624756,
	"learning_rate": 1.5430290872617855e-05,
	"loss": 0.5192,
	"step": 11900
	},
	{
	"epoch": 1.0787145694168623,
	"grad_norm": 26.518877029418945,
	"learning_rate": 1.535506519558676e-05,
	"loss": 0.5435,
	"step": 11950
	},
	{
	"epoch": 1.0832280194981043,
	"grad_norm": 39.6591682434082,
	"learning_rate": 1.5279839518555667e-05,
	"loss": 0.5149,
	"step": 12000
	},
	{
	"epoch": 1.0832280194981043,
	"eval_exact_match": 85.80889309366131,
	"eval_f1": 92.20769990556119,
	"eval_runtime": 143.6087,
	"eval_samples_per_second": 75.19,
	"eval_steps_per_second": 18.801,
	"step": 12000
	},
	{
	"epoch": 1.0877414695793464,
	"grad_norm": 11.38036823272705,
	"learning_rate": 1.5204613841524576e-05,
	"loss": 0.526,
	"step": 12050
	},
	{
	"epoch": 1.0922549196605886,
	"grad_norm": 21.02750587463379,
	"learning_rate": 1.512938816449348e-05,
	"loss": 0.471,
	"step": 12100
	},
	{
	"epoch": 1.0967683697418307,
	"grad_norm": 23.10146713256836,
	"learning_rate": 1.5054162487462386e-05,
	"loss": 0.6643,
	"step": 12150
	},
	{
	"epoch": 1.1012818198230727,
	"grad_norm": 29.241615295410156,
	"learning_rate": 1.4978936810431293e-05,
	"loss": 0.5231,
	"step": 12200
	},
	{
	"epoch": 1.1057952699043148,
	"grad_norm": 3.3990285396575928,
	"learning_rate": 1.49037111334002e-05,
	"loss": 0.4051,
	"step": 12250
	},
	{
	"epoch": 1.1057952699043148,
	"eval_exact_match": 85.56291390728477,
	"eval_f1": 92.0566633980034,
	"eval_runtime": 143.183,
	"eval_samples_per_second": 75.414,
	"eval_steps_per_second": 18.857,
	"step": 12250
	},
	{
	"epoch": 1.110308719985557,
	"grad_norm": 3.075737237930298,
	"learning_rate": 1.4828485456369108e-05,
	"loss": 0.5637,
	"step": 12300
	},
	{
	"epoch": 1.114822170066799,
	"grad_norm": 2.9517650604248047,
	"learning_rate": 1.4753259779338014e-05,
	"loss": 0.566,
	"step": 12350
	},
	{
	"epoch": 1.119335620148041,
	"grad_norm": 23.89853858947754,
	"learning_rate": 1.4678034102306922e-05,
	"loss": 0.4439,
	"step": 12400
	},
	{
	"epoch": 1.1238490702292832,
	"grad_norm": 8.486159324645996,
	"learning_rate": 1.4602808425275828e-05,
	"loss": 0.5538,
	"step": 12450
	},
	{
	"epoch": 1.1283625203105254,
	"grad_norm": 3.5648648738861084,
	"learning_rate": 1.4527582748244733e-05,
	"loss": 0.5173,
	"step": 12500
	},
	{
	"epoch": 1.1283625203105254,
	"eval_exact_match": 85.4872280037843,
	"eval_f1": 92.15147631309604,
	"eval_runtime": 143.2081,
	"eval_samples_per_second": 75.401,
	"eval_steps_per_second": 18.854,
	"step": 12500
	},
	{
	"epoch": 1.1328759703917675,
	"grad_norm": 10.259268760681152,
	"learning_rate": 1.4452357071213641e-05,
	"loss": 0.5925,
	"step": 12550
	},
	{
	"epoch": 1.1373894204730095,
	"grad_norm": 6.570536136627197,
	"learning_rate": 1.4377131394182548e-05,
	"loss": 0.4594,
	"step": 12600
	},
	{
	"epoch": 1.1419028705542518,
	"grad_norm": 6.687112808227539,
	"learning_rate": 1.4301905717151454e-05,
	"loss": 0.4994,
	"step": 12650
	},
	{
	"epoch": 1.1464163206354938,
	"grad_norm": 14.550410270690918,
	"learning_rate": 1.4226680040120362e-05,
	"loss": 0.5775,
	"step": 12700
	},
	{
	"epoch": 1.1509297707167359,
	"grad_norm": 12.998605728149414,
	"learning_rate": 1.4151454363089268e-05,
	"loss": 0.5285,
	"step": 12750
	},
	{
	"epoch": 1.1509297707167359,
	"eval_exact_match": 85.93188268684958,
	"eval_f1": 92.11716297833141,
	"eval_runtime": 143.1084,
	"eval_samples_per_second": 75.453,
	"eval_steps_per_second": 18.867,
	"step": 12750
	},
	{
	"epoch": 1.155443220797978,
	"grad_norm": 26.985210418701172,
	"learning_rate": 1.4076228686058175e-05,
	"loss": 0.5092,
	"step": 12800
	},
	{
	"epoch": 1.1599566708792202,
	"grad_norm": 15.445883750915527,
	"learning_rate": 1.4001003009027081e-05,
	"loss": 0.5178,
	"step": 12850
	},
	{
	"epoch": 1.1644701209604622,
	"grad_norm": 8.596466064453125,
	"learning_rate": 1.3925777331995989e-05,
	"loss": 0.5742,
	"step": 12900
	},
	{
	"epoch": 1.1689835710417043,
	"grad_norm": 3.9060676097869873,
	"learning_rate": 1.3850551654964896e-05,
	"loss": 0.5112,
	"step": 12950
	},
	{
	"epoch": 1.1734970211229463,
	"grad_norm": 2.3090436458587646,
	"learning_rate": 1.3775325977933802e-05,
	"loss": 0.4802,
	"step": 13000
	},
	{
	"epoch": 1.1734970211229463,
	"eval_exact_match": 86.3670766319773,
	"eval_f1": 92.39148643540621,
	"eval_runtime": 143.1331,
	"eval_samples_per_second": 75.44,
	"eval_steps_per_second": 18.864,
	"step": 13000
	},
	{
	"epoch": 1.1780104712041886,
	"grad_norm": 4.289682865142822,
	"learning_rate": 1.370010030090271e-05,
	"loss": 0.4555,
	"step": 13050
	},
	{
	"epoch": 1.1825239212854306,
	"grad_norm": 23.45159149169922,
	"learning_rate": 1.3624874623871615e-05,
	"loss": 0.6034,
	"step": 13100
	},
	{
	"epoch": 1.1870373713666726,
	"grad_norm": 14.170953750610352,
	"learning_rate": 1.3549648946840521e-05,
	"loss": 0.4946,
	"step": 13150
	},
	{
	"epoch": 1.191550821447915,
	"grad_norm": 7.408278942108154,
	"learning_rate": 1.3474423269809429e-05,
	"loss": 0.5625,
	"step": 13200
	},
	{
	"epoch": 1.196064271529157,
	"grad_norm": 4.187251567840576,
	"learning_rate": 1.3399197592778336e-05,
	"loss": 0.5344,
	"step": 13250
	},
	{
	"epoch": 1.196064271529157,
	"eval_exact_match": 85.66698202459791,
	"eval_f1": 92.29328625942796,
	"eval_runtime": 143.2334,
	"eval_samples_per_second": 75.387,
	"eval_steps_per_second": 18.85,
	"step": 13250
	},
	{
	"epoch": 1.200577721610399,
	"grad_norm": 9.739165306091309,
	"learning_rate": 1.3323971915747242e-05,
	"loss": 0.5319,
	"step": 13300
	},
	{
	"epoch": 1.205091171691641,
	"grad_norm": 3.0962629318237305,
	"learning_rate": 1.324874623871615e-05,
	"loss": 0.5455,
	"step": 13350
	},
	{
	"epoch": 1.209604621772883,
	"grad_norm": 10.260982513427734,
	"learning_rate": 1.3173520561685057e-05,
	"loss": 0.5922,
	"step": 13400
	},
	{
	"epoch": 1.2141180718541253,
	"grad_norm": 17.95406150817871,
	"learning_rate": 1.3098294884653961e-05,
	"loss": 0.6416,
	"step": 13450
	},
	{
	"epoch": 1.2186315219353674,
	"grad_norm": 9.253098487854004,
	"learning_rate": 1.3023069207622869e-05,
	"loss": 0.4543,
	"step": 13500
	},
	{
	"epoch": 1.2186315219353674,
	"eval_exact_match": 86.20624408703878,
	"eval_f1": 92.32664235875168,
	"eval_runtime": 143.2002,
	"eval_samples_per_second": 75.405,
	"eval_steps_per_second": 18.855,
	"step": 13500
	},
	{
	"epoch": 1.2231449720166094,
	"grad_norm": 9.202949523925781,
	"learning_rate": 1.2947843530591776e-05,
	"loss": 0.6569,
	"step": 13550
	},
	{
	"epoch": 1.2276584220978517,
	"grad_norm": 16.244760513305664,
	"learning_rate": 1.2872617853560682e-05,
	"loss": 0.5605,
	"step": 13600
	},
	{
	"epoch": 1.2321718721790937,
	"grad_norm": 2.6242430210113525,
	"learning_rate": 1.279739217652959e-05,
	"loss": 0.546,
	"step": 13650
	},
	{
	"epoch": 1.2366853222603358,
	"grad_norm": 19.960708618164062,
	"learning_rate": 1.2722166499498497e-05,
	"loss": 0.5916,
	"step": 13700
	},
	{
	"epoch": 1.2411987723415778,
	"grad_norm": 14.39201545715332,
	"learning_rate": 1.2646940822467401e-05,
	"loss": 0.4647,
	"step": 13750
	},
	{
	"epoch": 1.2411987723415778,
	"eval_exact_match": 86.27246925260171,
	"eval_f1": 92.45848778749898,
	"eval_runtime": 143.112,
	"eval_samples_per_second": 75.451,
	"eval_steps_per_second": 18.866,
	"step": 13750
	},
	{
	"epoch": 1.24571222242282,
	"grad_norm": 8.58752155303955,
	"learning_rate": 1.2571715145436309e-05,
	"loss": 0.5224,
	"step": 13800
	},
	{
	"epoch": 1.2502256725040621,
	"grad_norm": 5.419035911560059,
	"learning_rate": 1.2496489468405216e-05,
	"loss": 0.6743,
	"step": 13850
	},
	{
	"epoch": 1.2547391225853042,
	"grad_norm": 7.52559232711792,
	"learning_rate": 1.2421263791374122e-05,
	"loss": 0.5955,
	"step": 13900
	},
	{
	"epoch": 1.2592525726665462,
	"grad_norm": 15.449511528015137,
	"learning_rate": 1.234603811434303e-05,
	"loss": 0.5824,
	"step": 13950
	},
	{
	"epoch": 1.2637660227477885,
	"grad_norm": 11.266414642333984,
	"learning_rate": 1.2270812437311937e-05,
	"loss": 0.5101,
	"step": 14000
	},
	{
	"epoch": 1.2637660227477885,
	"eval_exact_match": 86.12109744560075,
	"eval_f1": 92.2146350604068,
	"eval_runtime": 145.9619,
	"eval_samples_per_second": 73.978,
	"eval_steps_per_second": 18.498,
	"step": 14000
	},
	{
	"epoch": 1.2682794728290305,
	"grad_norm": 7.292428970336914,
	"learning_rate": 1.2195586760280843e-05,
	"loss": 0.4962,
	"step": 14050
	},
	{
	"epoch": 1.2727929229102726,
	"grad_norm": 1.1534169912338257,
	"learning_rate": 1.2120361083249749e-05,
	"loss": 0.5691,
	"step": 14100
	},
	{
	"epoch": 1.2773063729915148,
	"grad_norm": 3.5983633995056152,
	"learning_rate": 1.2045135406218656e-05,
	"loss": 0.5114,
	"step": 14150
	},
	{
	"epoch": 1.2818198230727569,
	"grad_norm": 5.006545543670654,
	"learning_rate": 1.1969909729187562e-05,
	"loss": 0.5259,
	"step": 14200
	},
	{
	"epoch": 1.286333273153999,
	"grad_norm": 24.31420135498047,
	"learning_rate": 1.189468405215647e-05,
	"loss": 0.4771,
	"step": 14250
	},
	{
	"epoch": 1.286333273153999,
	"eval_exact_match": 86.59413434247871,
	"eval_f1": 92.49677313517446,
	"eval_runtime": 145.8932,
	"eval_samples_per_second": 74.013,
	"eval_steps_per_second": 18.507,
	"step": 14250
	},
	{
	"epoch": 1.290846723235241,
	"grad_norm": 8.447436332702637,
	"learning_rate": 1.1819458375125377e-05,
	"loss": 0.5835,
	"step": 14300
	},
	{
	"epoch": 1.295360173316483,
	"grad_norm": 23.178955078125,
	"learning_rate": 1.1744232698094283e-05,
	"loss": 0.5554,
	"step": 14350
	},
	{
	"epoch": 1.2998736233977253,
	"grad_norm": 16.500057220458984,
	"learning_rate": 1.166900702106319e-05,
	"loss": 0.4928,
	"step": 14400
	},
	{
	"epoch": 1.3043870734789673,
	"grad_norm": 8.389457702636719,
	"learning_rate": 1.1593781344032097e-05,
	"loss": 0.6872,
	"step": 14450
	},
	{
	"epoch": 1.3089005235602094,
	"grad_norm": 5.315954685211182,
	"learning_rate": 1.1518555667001002e-05,
	"loss": 0.5394,
	"step": 14500
	},
	{
	"epoch": 1.3089005235602094,
	"eval_exact_match": 86.45222327341533,
	"eval_f1": 92.58788732745475,
	"eval_runtime": 145.7277,
	"eval_samples_per_second": 74.097,
	"eval_steps_per_second": 18.528,
	"step": 14500
	},
	{
	"epoch": 1.3134139736414516,
	"grad_norm": 2.0151515007019043,
	"learning_rate": 1.144332998996991e-05,
	"loss": 0.4745,
	"step": 14550
	},
	{
	"epoch": 1.3179274237226937,
	"grad_norm": 6.995370864868164,
	"learning_rate": 1.1368104312938817e-05,
	"loss": 0.536,
	"step": 14600
	},
	{
	"epoch": 1.3224408738039357,
	"grad_norm": 4.453261852264404,
	"learning_rate": 1.1292878635907723e-05,
	"loss": 0.4909,
	"step": 14650
	},
	{
	"epoch": 1.3269543238851778,
	"grad_norm": 3.472259998321533,
	"learning_rate": 1.121765295887663e-05,
	"loss": 0.586,
	"step": 14700
	},
	{
	"epoch": 1.3314677739664198,
	"grad_norm": 15.908103942871094,
	"learning_rate": 1.1142427281845537e-05,
	"loss": 0.528,
	"step": 14750
	},
	{
	"epoch": 1.3314677739664198,
	"eval_exact_match": 85.86565752128666,
	"eval_f1": 92.39225966105154,
	"eval_runtime": 280.4149,
	"eval_samples_per_second": 38.507,
	"eval_steps_per_second": 9.629,
	"step": 14750
	},
	{
	"epoch": 1.335981224047662,
	"grad_norm": 12.543098449707031,
	"learning_rate": 1.1067201604814443e-05,
	"loss": 0.4912,
	"step": 14800
	},
	{
	"epoch": 1.340494674128904,
	"grad_norm": 24.144222259521484,
	"learning_rate": 1.099197592778335e-05,
	"loss": 0.5626,
	"step": 14850
	},
	{
	"epoch": 1.3450081242101461,
	"grad_norm": 25.347875595092773,
	"learning_rate": 1.0916750250752258e-05,
	"loss": 0.4955,
	"step": 14900
	},
	{
	"epoch": 1.3495215742913884,
	"grad_norm": 5.940708637237549,
	"learning_rate": 1.0841524573721163e-05,
	"loss": 0.4859,
	"step": 14950
	},
	{
	"epoch": 1.3540350243726305,
	"grad_norm": 30.9013671875,
	"learning_rate": 1.0766298896690071e-05,
	"loss": 0.4788,
	"step": 15000
	},
	{
	"epoch": 1.3540350243726305,
	"eval_exact_match": 86.6414380321665,
	"eval_f1": 92.62032707644155,
	"eval_runtime": 145.6846,
	"eval_samples_per_second": 74.119,
	"eval_steps_per_second": 18.533,
	"step": 15000
	},
	{
	"epoch": 1.3585484744538725,
	"grad_norm": 12.216713905334473,
	"learning_rate": 1.0691073219658978e-05,
	"loss": 0.4977,
	"step": 15050
	},
	{
	"epoch": 1.3630619245351148,
	"grad_norm": 40.2611083984375,
	"learning_rate": 1.0615847542627883e-05,
	"loss": 0.4972,
	"step": 15100
	},
	{
	"epoch": 1.3675753746163568,
	"grad_norm": 10.3711519241333,
	"learning_rate": 1.054062186559679e-05,
	"loss": 0.4955,
	"step": 15150
	},
	{
	"epoch": 1.3720888246975989,
	"grad_norm": 2.400322914123535,
	"learning_rate": 1.0465396188565698e-05,
	"loss": 0.4868,
	"step": 15200
	},
	{
	"epoch": 1.376602274778841,
	"grad_norm": 3.9988925457000732,
	"learning_rate": 1.0390170511534603e-05,
	"loss": 0.5888,
	"step": 15250
	},
	{
	"epoch": 1.376602274778841,
	"eval_exact_match": 85.96026490066225,
	"eval_f1": 92.33197764854948,
	"eval_runtime": 145.4185,
	"eval_samples_per_second": 74.255,
	"eval_steps_per_second": 18.567,
	"step": 15250
	},
	{
	"epoch": 1.381115724860083,
	"grad_norm": 1.6575514078140259,
	"learning_rate": 1.0314944834503511e-05,
	"loss": 0.5143,
	"step": 15300
	},
	{
	"epoch": 1.3856291749413252,
	"grad_norm": 5.943323612213135,
	"learning_rate": 1.0239719157472419e-05,
	"loss": 0.4725,
	"step": 15350
	},
	{
	"epoch": 1.3901426250225672,
	"grad_norm": 21.014570236206055,
	"learning_rate": 1.0164493480441324e-05,
	"loss": 0.5131,
	"step": 15400
	},
	{
	"epoch": 1.3946560751038093,
	"grad_norm": 4.148115634918213,
	"learning_rate": 1.008926780341023e-05,
	"loss": 0.4323,
	"step": 15450
	},
	{
	"epoch": 1.3991695251850516,
	"grad_norm": 8.95993423461914,
	"learning_rate": 1.0014042126379138e-05,
	"loss": 0.6072,
	"step": 15500
	},
	{
	"epoch": 1.3991695251850516,
	"eval_exact_match": 85.76158940397352,
	"eval_f1": 92.24988076673156,
	"eval_runtime": 145.3259,
	"eval_samples_per_second": 74.302,
	"eval_steps_per_second": 18.579,
	"step": 15500
	},
	{
	"epoch": 1.4036829752662936,
	"grad_norm": 5.6876959800720215,
	"learning_rate": 9.938816449348044e-06,
	"loss": 0.5692,
	"step": 15550
	},
	{
	"epoch": 1.4081964253475356,
	"grad_norm": 6.91029167175293,
	"learning_rate": 9.863590772316951e-06,
	"loss": 0.5801,
	"step": 15600
	},
	{
	"epoch": 1.4127098754287777,
	"grad_norm": 8.116116523742676,
	"learning_rate": 9.788365095285859e-06,
	"loss": 0.4394,
	"step": 15650
	},
	{
	"epoch": 1.4172233255100197,
	"grad_norm": 7.001738548278809,
	"learning_rate": 9.713139418254764e-06,
	"loss": 0.5607,
	"step": 15700
	},
	{
	"epoch": 1.421736775591262,
	"grad_norm": 21.804443359375,
	"learning_rate": 9.637913741223672e-06,
	"loss": 0.5191,
	"step": 15750
	},
	{
	"epoch": 1.421736775591262,
	"eval_exact_match": 85.97918637653737,
	"eval_f1": 92.37275066667881,
	"eval_runtime": 145.3503,
	"eval_samples_per_second": 74.289,
	"eval_steps_per_second": 18.576,
	"step": 15750
	},
	{
	"epoch": 1.426250225672504,
	"grad_norm": 11.133319854736328,
	"learning_rate": 9.562688064192578e-06,
	"loss": 0.5256,
	"step": 15800
	},
	{
	"epoch": 1.430763675753746,
	"grad_norm": 5.4904632568359375,
	"learning_rate": 9.487462387161484e-06,
	"loss": 0.5177,
	"step": 15850
	},
	{
	"epoch": 1.4352771258349883,
	"grad_norm": 9.791414260864258,
	"learning_rate": 9.412236710130391e-06,
	"loss": 0.5814,
	"step": 15900
	},
	{
	"epoch": 1.4397905759162304,
	"grad_norm": 3.3400447368621826,
	"learning_rate": 9.337011033099299e-06,
	"loss": 0.5374,
	"step": 15950
	},
	{
	"epoch": 1.4443040259974724,
	"grad_norm": 23.98038673400879,
	"learning_rate": 9.261785356068205e-06,
	"loss": 0.4973,
	"step": 16000
	},
	{
	"epoch": 1.4443040259974724,
	"eval_exact_match": 84.85335856196784,
	"eval_f1": 92.03377983249271,
	"eval_runtime": 145.2676,
	"eval_samples_per_second": 74.332,
	"eval_steps_per_second": 18.586,
	"step": 16000
	},
	{
	"epoch": 1.4488174760787147,
	"grad_norm": 9.59720516204834,
	"learning_rate": 9.186559679037112e-06,
	"loss": 0.534,
	"step": 16050
	},
	{
	"epoch": 1.4533309261599567,
	"grad_norm": 10.079476356506348,
	"learning_rate": 9.111334002006018e-06,
	"loss": 0.511,
	"step": 16100
	},
	{
	"epoch": 1.4578443762411988,
	"grad_norm": 3.377192497253418,
	"learning_rate": 9.036108324974924e-06,
	"loss": 0.5187,
	"step": 16150
	},
	{
	"epoch": 1.4623578263224408,
	"grad_norm": 10.79287052154541,
	"learning_rate": 8.960882647943831e-06,
	"loss": 0.5499,
	"step": 16200
	},
	{
	"epoch": 1.4668712764036829,
	"grad_norm": 15.751055717468262,
	"learning_rate": 8.885656970912739e-06,
	"loss": 0.536,
	"step": 16250
	},
	{
	"epoch": 1.4668712764036829,
	"eval_exact_match": 86.40491958372753,
	"eval_f1": 92.48354485469106,
	"eval_runtime": 145.2653,
	"eval_samples_per_second": 74.333,
	"eval_steps_per_second": 18.587,
	"step": 16250
	},
	{
	"epoch": 1.4713847264849251,
	"grad_norm": 3.9903676509857178,
	"learning_rate": 8.810431293881645e-06,
	"loss": 0.5385,
	"step": 16300
	},
	{
	"epoch": 1.4758981765661672,
	"grad_norm": 6.5839080810546875,
	"learning_rate": 8.735205616850552e-06,
	"loss": 0.5092,
	"step": 16350
	},
	{
	"epoch": 1.4804116266474092,
	"grad_norm": 13.69189453125,
	"learning_rate": 8.65997993981946e-06,
	"loss": 0.5999,
	"step": 16400
	},
	{
	"epoch": 1.4849250767286515,
	"grad_norm": 11.840332984924316,
	"learning_rate": 8.584754262788364e-06,
	"loss": 0.57,
	"step": 16450
	},
	{
	"epoch": 1.4894385268098935,
	"grad_norm": 11.86502742767334,
	"learning_rate": 8.509528585757271e-06,
	"loss": 0.4635,
	"step": 16500
	},
	{
	"epoch": 1.4894385268098935,
	"eval_exact_match": 85.49668874172185,
	"eval_f1": 92.28753097702375,
	"eval_runtime": 145.2047,
	"eval_samples_per_second": 74.364,
	"eval_steps_per_second": 18.594,
	"step": 16500
	},
	{
	"epoch": 1.4939519768911356,
	"grad_norm": 17.741037368774414,
	"learning_rate": 8.434302908726179e-06,
	"loss": 0.53,
	"step": 16550
	},
	{
	"epoch": 1.4984654269723776,
	"grad_norm": 7.774323463439941,
	"learning_rate": 8.359077231695085e-06,
	"loss": 0.575,
	"step": 16600
	},
	{
	"epoch": 1.5029788770536197,
	"grad_norm": 4.973544597625732,
	"learning_rate": 8.283851554663992e-06,
	"loss": 0.6468,
	"step": 16650
	},
	{
	"epoch": 1.507492327134862,
	"grad_norm": 5.228555202484131,
	"learning_rate": 8.2086258776329e-06,
	"loss": 0.4901,
	"step": 16700
	},
	{
	"epoch": 1.512005777216104,
	"grad_norm": 3.4082319736480713,
	"learning_rate": 8.133400200601806e-06,
	"loss": 0.5492,
	"step": 16750
	},
	{
	"epoch": 1.512005777216104,
	"eval_exact_match": 86.10217596972564,
	"eval_f1": 92.39499925755595,
	"eval_runtime": 145.1347,
	"eval_samples_per_second": 74.4,
	"eval_steps_per_second": 18.603,
	"step": 16750
	},
	{
	"epoch": 1.516519227297346,
	"grad_norm": 20.74472427368164,
	"learning_rate": 8.058174523570712e-06,
	"loss": 0.4685,
	"step": 16800
	},
	{
	"epoch": 1.5210326773785883,
	"grad_norm": 4.805381774902344,
	"learning_rate": 7.982948846539619e-06,
	"loss": 0.474,
	"step": 16850
	},
	{
	"epoch": 1.5255461274598303,
	"grad_norm": 1.6686218976974487,
	"learning_rate": 7.907723169508525e-06,
	"loss": 0.5617,
	"step": 16900
	},
	{
	"epoch": 1.5300595775410724,
	"grad_norm": 14.378780364990234,
	"learning_rate": 7.832497492477432e-06,
	"loss": 0.4829,
	"step": 16950
	},
	{
	"epoch": 1.5345730276223146,
	"grad_norm": 9.25706672668457,
	"learning_rate": 7.75727181544634e-06,
	"loss": 0.5525,
	"step": 17000
	},
	{
	"epoch": 1.5345730276223146,
	"eval_exact_match": 85.89403973509934,
	"eval_f1": 92.2175102581889,
	"eval_runtime": 145.4454,
	"eval_samples_per_second": 74.241,
	"eval_steps_per_second": 18.564,
	"step": 17000
	},
	{
	"epoch": 1.5390864777035564,
	"grad_norm": 10.210553169250488,
	"learning_rate": 7.682046138415246e-06,
	"loss": 0.5284,
	"step": 17050
	},
	{
	"epoch": 1.5435999277847987,
	"grad_norm": 18.55254364013672,
	"learning_rate": 7.6068204613841525e-06,
	"loss": 0.4863,
	"step": 17100
	},
	{
	"epoch": 1.5481133778660408,
	"grad_norm": 9.640850067138672,
	"learning_rate": 7.53159478435306e-06,
	"loss": 0.6163,
	"step": 17150
	},
	{
	"epoch": 1.5526268279472828,
	"grad_norm": 7.999804496765137,
	"learning_rate": 7.456369107321966e-06,
	"loss": 0.518,
	"step": 17200
	},
	{
	"epoch": 1.557140278028525,
	"grad_norm": 9.162345886230469,
	"learning_rate": 7.3811434302908725e-06,
	"loss": 0.5001,
	"step": 17250
	},
	{
	"epoch": 1.557140278028525,
	"eval_exact_match": 85.9035004730369,
	"eval_f1": 92.33731500742522,
	"eval_runtime": 145.3659,
	"eval_samples_per_second": 74.282,
	"eval_steps_per_second": 18.574,
	"step": 17250
	},
	{
	"epoch": 1.561653728109767,
	"grad_norm": 5.462348461151123,
	"learning_rate": 7.30591775325978e-06,
	"loss": 0.4179,
	"step": 17300
	},
	{
	"epoch": 1.5661671781910091,
	"grad_norm": 17.67523765563965,
	"learning_rate": 7.230692076228686e-06,
	"loss": 0.4662,
	"step": 17350
	},
	{
	"epoch": 1.5706806282722514,
	"grad_norm": 4.397737503051758,
	"learning_rate": 7.155466399197593e-06,
	"loss": 0.4614,
	"step": 17400
	},
	{
	"epoch": 1.5751940783534935,
	"grad_norm": 7.665886402130127,
	"learning_rate": 7.0802407221665e-06,
	"loss": 0.5263,
	"step": 17450
	},
	{
	"epoch": 1.5797075284347355,
	"grad_norm": 10.627632141113281,
	"learning_rate": 7.005015045135407e-06,
	"loss": 0.4021,
	"step": 17500
	},
	{
	"epoch": 1.5797075284347355,
	"eval_exact_match": 85.98864711447493,
	"eval_f1": 92.40008411758966,
	"eval_runtime": 145.3304,
	"eval_samples_per_second": 74.3,
	"eval_steps_per_second": 18.578,
	"step": 17500
	},
	{
	"epoch": 1.5842209785159778,
	"grad_norm": 7.057243347167969,
	"learning_rate": 6.929789368104313e-06,
	"loss": 0.5326,
	"step": 17550
	},
	{
	"epoch": 1.5887344285972196,
	"grad_norm": 8.216778755187988,
	"learning_rate": 6.85456369107322e-06,
	"loss": 0.6029,
	"step": 17600
	},
	{
	"epoch": 1.5932478786784618,
	"grad_norm": 3.943422794342041,
	"learning_rate": 6.779338014042127e-06,
	"loss": 0.5518,
	"step": 17650
	},
	{
	"epoch": 1.597761328759704,
	"grad_norm": 12.350107192993164,
	"learning_rate": 6.704112337011033e-06,
	"loss": 0.5368,
	"step": 17700
	},
	{
	"epoch": 1.602274778840946,
	"grad_norm": 6.516546249389648,
	"learning_rate": 6.62888665997994e-06,
	"loss": 0.504,
	"step": 17750
	},
	{
	"epoch": 1.602274778840946,
	"eval_exact_match": 86.12109744560075,
	"eval_f1": 92.37865780721518,
	"eval_runtime": 145.3649,
	"eval_samples_per_second": 74.282,
	"eval_steps_per_second": 18.574,
	"step": 17750
	},
	{
	"epoch": 1.6067882289221882,
	"grad_norm": 3.5462801456451416,
	"learning_rate": 6.553660982948847e-06,
	"loss": 0.4613,
	"step": 17800
	},
	{
	"epoch": 1.6113016790034302,
	"grad_norm": 9.32242488861084,
	"learning_rate": 6.478435305917753e-06,
	"loss": 0.5149,
	"step": 17850
	},
	{
	"epoch": 1.6158151290846723,
	"grad_norm": 4.5879597663879395,
	"learning_rate": 6.40320962888666e-06,
	"loss": 0.4189,
	"step": 17900
	},
	{
	"epoch": 1.6203285791659146,
	"grad_norm": 10.474478721618652,
	"learning_rate": 6.327983951855567e-06,
	"loss": 0.5182,
	"step": 17950
	},
	{
	"epoch": 1.6248420292471564,
	"grad_norm": 4.693137168884277,
	"learning_rate": 6.252758274824474e-06,
	"loss": 0.6212,
	"step": 18000
	},
	{
	"epoch": 1.6248420292471564,
	"eval_exact_match": 85.93188268684958,
	"eval_f1": 92.33148266916612,
	"eval_runtime": 145.2483,
	"eval_samples_per_second": 74.342,
	"eval_steps_per_second": 18.589,
	"step": 18000
	},
	{
	"epoch": 1.6293554793283986,
	"grad_norm": 20.36956214904785,
	"learning_rate": 6.17753259779338e-06,
	"loss": 0.6194,
	"step": 18050
	},
	{
	"epoch": 1.6338689294096407,
	"grad_norm": 8.450358390808105,
	"learning_rate": 6.102306920762287e-06,
	"loss": 0.518,
	"step": 18100
	},
	{
	"epoch": 1.6383823794908827,
	"grad_norm": 4.681309223175049,
	"learning_rate": 6.027081243731194e-06,
	"loss": 0.4853,
	"step": 18150
	},
	{
	"epoch": 1.642895829572125,
	"grad_norm": 6.480415344238281,
	"learning_rate": 5.9518555667001e-06,
	"loss": 0.5101,
	"step": 18200
	},
	{
	"epoch": 1.647409279653367,
	"grad_norm": 11.254326820373535,
	"learning_rate": 5.876629889669007e-06,
	"loss": 0.5095,
	"step": 18250
	},
	{
	"epoch": 1.647409279653367,
	"eval_exact_match": 86.03595080416272,
	"eval_f1": 92.38608711058883,
	"eval_runtime": 145.2161,
	"eval_samples_per_second": 74.358,
	"eval_steps_per_second": 18.593,
	"step": 18250
	},
	{
	"epoch": 1.651922729734609,
	"grad_norm": 7.776529788970947,
	"learning_rate": 5.801404212637914e-06,
	"loss": 0.5322,
	"step": 18300
	},
	{
	"epoch": 1.6564361798158513,
	"grad_norm": 17.068607330322266,
	"learning_rate": 5.72617853560682e-06,
	"loss": 0.4755,
	"step": 18350
	},
	{
	"epoch": 1.6609496298970934,
	"grad_norm": 20.472034454345703,
	"learning_rate": 5.650952858575727e-06,
	"loss": 0.6017,
	"step": 18400
	},
	{
	"epoch": 1.6654630799783354,
	"grad_norm": 4.904719352722168,
	"learning_rate": 5.575727181544634e-06,
	"loss": 0.4662,
	"step": 18450
	},
	{
	"epoch": 1.6699765300595777,
	"grad_norm": 7.219258785247803,
	"learning_rate": 5.500501504513541e-06,
	"loss": 0.4781,
	"step": 18500
	},
	{
	"epoch": 1.6699765300595777,
	"eval_exact_match": 85.55345316934721,
	"eval_f1": 92.32101574735367,
	"eval_runtime": 145.1791,
	"eval_samples_per_second": 74.377,
	"eval_steps_per_second": 18.598,
	"step": 18500
	},
	{
	"epoch": 1.6744899801408195,
	"grad_norm": 8.811306953430176,
	"learning_rate": 5.425275827482447e-06,
	"loss": 0.5161,
	"step": 18550
	},
	{
	"epoch": 1.6790034302220618,
	"grad_norm": 4.903675079345703,
	"learning_rate": 5.350050150451354e-06,
	"loss": 0.5215,
	"step": 18600
	},
	{
	"epoch": 1.6835168803033038,
	"grad_norm": 2.371656894683838,
	"learning_rate": 5.274824473420261e-06,
	"loss": 0.486,
	"step": 18650
	},
	{
	"epoch": 1.6880303303845459,
	"grad_norm": 8.991338729858398,
	"learning_rate": 5.199598796389167e-06,
	"loss": 0.5043,
	"step": 18700
	},
	{
	"epoch": 1.6925437804657881,
	"grad_norm": 5.460509777069092,
	"learning_rate": 5.124373119358074e-06,
	"loss": 0.5344,
	"step": 18750
	},
	{
	"epoch": 1.6925437804657881,
	"eval_exact_match": 86.02649006622516,
	"eval_f1": 92.44635703301584,
	"eval_runtime": 145.2855,
	"eval_samples_per_second": 74.323,
	"eval_steps_per_second": 18.584,
	"step": 18750
	},
	{
	"epoch": 1.6970572305470302,
	"grad_norm": 6.287936210632324,
	"learning_rate": 5.049147442326981e-06,
	"loss": 0.4446,
	"step": 18800
	},
	{
	"epoch": 1.7015706806282722,
	"grad_norm": 2.3766534328460693,
	"learning_rate": 4.973921765295887e-06,
	"loss": 0.4618,
	"step": 18850
	},
	{
	"epoch": 1.7060841307095145,
	"grad_norm": 6.606088161468506,
	"learning_rate": 4.898696088264794e-06,
	"loss": 0.498,
	"step": 18900
	},
	{
	"epoch": 1.7105975807907563,
	"grad_norm": 7.917613506317139,
	"learning_rate": 4.8234704112337015e-06,
	"loss": 0.473,
	"step": 18950
	},
	{
	"epoch": 1.7151110308719986,
	"grad_norm": 13.437002182006836,
	"learning_rate": 4.748244734202608e-06,
	"loss": 0.5217,
	"step": 19000
	},
	{
	"epoch": 1.7151110308719986,
	"eval_exact_match": 86.2251655629139,
	"eval_f1": 92.51045927542914,
	"eval_runtime": 145.2525,
	"eval_samples_per_second": 74.34,
	"eval_steps_per_second": 18.588,
	"step": 19000
	},
	{
	"epoch": 1.7196244809532406,
	"grad_norm": 21.756275177001953,
	"learning_rate": 4.673019057171515e-06,
	"loss": 0.5129,
	"step": 19050
	},
	{
	"epoch": 1.7241379310344827,
	"grad_norm": 4.2581377029418945,
	"learning_rate": 4.5977933801404215e-06,
	"loss": 0.5202,
	"step": 19100
	},
	{
	"epoch": 1.728651381115725,
	"grad_norm": 9.396230697631836,
	"learning_rate": 4.522567703109328e-06,
	"loss": 0.5118,
	"step": 19150
	},
	{
	"epoch": 1.733164831196967,
	"grad_norm": 9.545235633850098,
	"learning_rate": 4.447342026078235e-06,
	"loss": 0.4611,
	"step": 19200
	},
	{
	"epoch": 1.737678281278209,
	"grad_norm": 4.104794502258301,
	"learning_rate": 4.3721163490471416e-06,
	"loss": 0.5737,
	"step": 19250
	},
	{
	"epoch": 1.737678281278209,
	"eval_exact_match": 86.23462630085146,
	"eval_f1": 92.57135940815057,
	"eval_runtime": 145.5739,
	"eval_samples_per_second": 74.175,
	"eval_steps_per_second": 18.547,
	"step": 19250
	},
	{
	"epoch": 1.7421917313594513,
	"grad_norm": 8.624117851257324,
	"learning_rate": 4.296890672016048e-06,
	"loss": 0.5349,
	"step": 19300
	},
	{
	"epoch": 1.7467051814406933,
	"grad_norm": 4.802499771118164,
	"learning_rate": 4.221664994984955e-06,
	"loss": 0.5332,
	"step": 19350
	},
	{
	"epoch": 1.7512186315219354,
	"grad_norm": 4.347715854644775,
	"learning_rate": 4.146439317953862e-06,
	"loss": 0.474,
	"step": 19400
	},
	{
	"epoch": 1.7557320816031776,
	"grad_norm": 21.51348114013672,
	"learning_rate": 4.071213640922768e-06,
	"loss": 0.5182,
	"step": 19450
	},
	{
	"epoch": 1.7602455316844194,
	"grad_norm": 3.002976655960083,
	"learning_rate": 3.995987963891676e-06,
	"loss": 0.4243,
	"step": 19500
	},
	{
	"epoch": 1.7602455316844194,
	"eval_exact_match": 86.44276253547777,
	"eval_f1": 92.67282094003843,
	"eval_runtime": 145.268,
	"eval_samples_per_second": 74.332,
	"eval_steps_per_second": 18.586,
	"step": 19500
	},
	{
	"epoch": 1.7647589817656617,
	"grad_norm": 6.619145393371582,
	"learning_rate": 3.920762286860582e-06,
	"loss": 0.5754,
	"step": 19550
	},
	{
	"epoch": 1.7692724318469037,
	"grad_norm": 8.654962539672852,
	"learning_rate": 3.845536609829488e-06,
	"loss": 0.4927,
	"step": 19600
	},
	{
	"epoch": 1.7737858819281458,
	"grad_norm": 2.102865695953369,
	"learning_rate": 3.7703109327983955e-06,
	"loss": 0.417,
	"step": 19650
	},
	{
	"epoch": 1.778299332009388,
	"grad_norm": 9.824490547180176,
	"learning_rate": 3.695085255767302e-06,
	"loss": 0.5777,
	"step": 19700
	},
	{
	"epoch": 1.78281278209063,
	"grad_norm": 22.286598205566406,
	"learning_rate": 3.619859578736209e-06,
	"loss": 0.4338,
	"step": 19750
	},
	{
	"epoch": 1.78281278209063,
	"eval_exact_match": 86.39545884578997,
	"eval_f1": 92.63887659164942,
	"eval_runtime": 145.3006,
	"eval_samples_per_second": 74.315,
	"eval_steps_per_second": 18.582,
	"step": 19750
	},
	{
	"epoch": 1.7873262321718721,
	"grad_norm": 0.6572410464286804,
	"learning_rate": 3.5446339017051155e-06,
	"loss": 0.4549,
	"step": 19800
	},
	{
	"epoch": 1.7918396822531144,
	"grad_norm": 15.171038627624512,
	"learning_rate": 3.469408224674022e-06,
	"loss": 0.452,
	"step": 19850
	},
	{
	"epoch": 1.7963531323343562,
	"grad_norm": 13.550349235534668,
	"learning_rate": 3.394182547642929e-06,
	"loss": 0.4901,
	"step": 19900
	},
	{
	"epoch": 1.8008665824155985,
	"grad_norm": 9.970057487487793,
	"learning_rate": 3.3189568706118356e-06,
	"loss": 0.4424,
	"step": 19950
	},
	{
	"epoch": 1.8053800324968405,
	"grad_norm": 3.251477003097534,
	"learning_rate": 3.2437311935807422e-06,
	"loss": 0.5214,
	"step": 20000
	},
	{
	"epoch": 1.8053800324968405,
	"eval_exact_match": 86.10217596972564,
	"eval_f1": 92.55287274359681,
	"eval_runtime": 145.2611,
	"eval_samples_per_second": 74.335,
	"eval_steps_per_second": 18.587,
	"step": 20000
	},
	{
	"epoch": 1.8098934825780826,
	"grad_norm": 3.656310558319092,
	"learning_rate": 3.1685055165496493e-06,
	"loss": 0.4794,
	"step": 20050
	},
	{
	"epoch": 1.8144069326593248,
	"grad_norm": 6.139503479003906,
	"learning_rate": 3.0932798395185556e-06,
	"loss": 0.4485,
	"step": 20100
	},
	{
	"epoch": 1.8189203827405669,
	"grad_norm": 6.566440582275391,
	"learning_rate": 3.0180541624874623e-06,
	"loss": 0.456,
	"step": 20150
	},
	{
	"epoch": 1.823433832821809,
	"grad_norm": 6.406381130218506,
	"learning_rate": 2.9428284854563694e-06,
	"loss": 0.4988,
	"step": 20200
	},
	{
	"epoch": 1.8279472829030512,
	"grad_norm": 4.750673770904541,
	"learning_rate": 2.8676028084252757e-06,
	"loss": 0.5102,
	"step": 20250
	},
	{
	"epoch": 1.8279472829030512,
	"eval_exact_match": 86.0643330179754,
	"eval_f1": 92.48790625031062,
	"eval_runtime": 145.6532,
	"eval_samples_per_second": 74.135,
	"eval_steps_per_second": 18.537,
	"step": 20250
	},
	{
	"epoch": 1.8324607329842932,
	"grad_norm": 2.9004476070404053,
	"learning_rate": 2.7923771313941828e-06,
	"loss": 0.4172,
	"step": 20300
	},
	{
	"epoch": 1.8369741830655353,
	"grad_norm": 5.453982353210449,
	"learning_rate": 2.7171514543630894e-06,
	"loss": 0.4328,
	"step": 20350
	},
	{
	"epoch": 1.8414876331467775,
	"grad_norm": 6.562243461608887,
	"learning_rate": 2.6419257773319957e-06,
	"loss": 0.5946,
	"step": 20400
	},
	{
	"epoch": 1.8460010832280194,
	"grad_norm": 2.186967134475708,
	"learning_rate": 2.566700100300903e-06,
	"loss": 0.5174,
	"step": 20450
	},
	{
	"epoch": 1.8505145333092616,
	"grad_norm": 18.740962982177734,
	"learning_rate": 2.4914744232698095e-06,
	"loss": 0.5614,
	"step": 20500
	},
	{
	"epoch": 1.8505145333092616,
	"eval_exact_match": 86.24408703878902,
	"eval_f1": 92.6215979315234,
	"eval_runtime": 145.5466,
	"eval_samples_per_second": 74.189,
	"eval_steps_per_second": 18.551,
	"step": 20500
	},
	{
	"epoch": 1.8550279833905037,
	"grad_norm": 8.845901489257812,
	"learning_rate": 2.416248746238716e-06,
	"loss": 0.5174,
	"step": 20550
	},
	{
	"epoch": 1.8595414334717457,
	"grad_norm": 2.0935425758361816,
	"learning_rate": 2.341023069207623e-06,
	"loss": 0.4191,
	"step": 20600
	},
	{
	"epoch": 1.864054883552988,
	"grad_norm": 5.225878715515137,
	"learning_rate": 2.2657973921765295e-06,
	"loss": 0.5168,
	"step": 20650
	},
	{
	"epoch": 1.86856833363423,
	"grad_norm": 3.618779182434082,
	"learning_rate": 2.1905717151454362e-06,
	"loss": 0.5116,
	"step": 20700
	},
	{
	"epoch": 1.873081783715472,
	"grad_norm": 14.580885887145996,
	"learning_rate": 2.115346038114343e-06,
	"loss": 0.5247,
	"step": 20750
	},
	{
	"epoch": 1.873081783715472,
	"eval_exact_match": 86.39545884578997,
	"eval_f1": 92.68082620123108,
	"eval_runtime": 144.0826,
	"eval_samples_per_second": 74.943,
	"eval_steps_per_second": 18.739,
	"step": 20750
	},
	{
	"epoch": 1.8775952337967143,
	"grad_norm": 6.323169708251953,
	"learning_rate": 2.04012036108325e-06,
	"loss": 0.5007,
	"step": 20800
	},
	{
	"epoch": 1.8821086838779562,
	"grad_norm": 7.055742263793945,
	"learning_rate": 1.9648946840521567e-06,
	"loss": 0.5387,
	"step": 20850
	},
	{
	"epoch": 1.8866221339591984,
	"grad_norm": 6.097321033477783,
	"learning_rate": 1.8896690070210632e-06,
	"loss": 0.4795,
	"step": 20900
	},
	{
	"epoch": 1.8911355840404405,
	"grad_norm": 20.577049255371094,
	"learning_rate": 1.81444332998997e-06,
	"loss": 0.5636,
	"step": 20950
	},
	{
	"epoch": 1.8956490341216825,
	"grad_norm": 11.891510009765625,
	"learning_rate": 1.7392176529588768e-06,
	"loss": 0.5768,
	"step": 21000
	},
	{
	"epoch": 1.8956490341216825,
	"eval_exact_match": 86.28192999053927,
	"eval_f1": 92.59481897569101,
	"eval_runtime": 143.5237,
	"eval_samples_per_second": 75.235,
	"eval_steps_per_second": 18.812,
	"step": 21000
	},
	{
	"epoch": 1.9001624842029248,
	"grad_norm": 28.808475494384766,
	"learning_rate": 1.6639919759277832e-06,
	"loss": 0.5267,
	"step": 21050
	},
	{
	"epoch": 1.9046759342841668,
	"grad_norm": 11.045042991638184,
	"learning_rate": 1.5887662988966901e-06,
	"loss": 0.5508,
	"step": 21100
	},
	{
	"epoch": 1.9091893843654089,
	"grad_norm": 4.862325191497803,
	"learning_rate": 1.5135406218655968e-06,
	"loss": 0.4697,
	"step": 21150
	},
	{
	"epoch": 1.9137028344466511,
	"grad_norm": 13.387544631958008,
	"learning_rate": 1.4383149448345037e-06,
	"loss": 0.4416,
	"step": 21200
	},
	{
	"epoch": 1.9182162845278932,
	"grad_norm": 5.2306342124938965,
	"learning_rate": 1.3630892678034104e-06,
	"loss": 0.4124,
	"step": 21250
	},
	{
	"epoch": 1.9182162845278932,
	"eval_exact_match": 86.26300851466415,
	"eval_f1": 92.60255176769716,
	"eval_runtime": 143.5894,
	"eval_samples_per_second": 75.201,
	"eval_steps_per_second": 18.804,
	"step": 21250
	},
	{
	"epoch": 1.9227297346091352,
	"grad_norm": 29.35004234313965,
	"learning_rate": 1.2878635907723169e-06,
	"loss": 0.5344,
	"step": 21300
	},
	{
	"epoch": 1.9272431846903775,
	"grad_norm": 8.634255409240723,
	"learning_rate": 1.2126379137412237e-06,
	"loss": 0.4815,
	"step": 21350
	},
	{
	"epoch": 1.9317566347716193,
	"grad_norm": 8.262895584106445,
	"learning_rate": 1.1374122367101304e-06,
	"loss": 0.4939,
	"step": 21400
	},
	{
	"epoch": 1.9362700848528616,
	"grad_norm": 12.539655685424805,
	"learning_rate": 1.0621865596790371e-06,
	"loss": 0.4957,
	"step": 21450
	},
	{
	"epoch": 1.9407835349341036,
	"grad_norm": 9.728516578674316,
	"learning_rate": 9.86960882647944e-07,
	"loss": 0.4587,
	"step": 21500
	},
	{
	"epoch": 1.9407835349341036,
	"eval_exact_match": 86.14001892147587,
	"eval_f1": 92.57583651293868,
	"eval_runtime": 143.5952,
	"eval_samples_per_second": 75.197,
	"eval_steps_per_second": 18.803,
	"step": 21500
	},
	{
	"epoch": 1.9452969850153456,
	"grad_norm": 9.588170051574707,
	"learning_rate": 9.117352056168506e-07,
	"loss": 0.5395,
	"step": 21550
	},
	{
	"epoch": 1.949810435096588,
	"grad_norm": 14.394529342651367,
	"learning_rate": 8.365095285857573e-07,
	"loss": 0.5462,
	"step": 21600
	},
	{
	"epoch": 1.95432388517783,
	"grad_norm": 17.767173767089844,
	"learning_rate": 7.612838515546641e-07,
	"loss": 0.4525,
	"step": 21650
	},
	{
	"epoch": 1.958837335259072,
	"grad_norm": 15.962186813354492,
	"learning_rate": 6.860581745235707e-07,
	"loss": 0.6349,
	"step": 21700
	},
	{
	"epoch": 1.9633507853403143,
	"grad_norm": 3.5042107105255127,
	"learning_rate": 6.108324974924774e-07,
	"loss": 0.4903,
	"step": 21750
	},
	{
	"epoch": 1.9633507853403143,
	"eval_exact_match": 86.30085146641439,
	"eval_f1": 92.62412689139829,
	"eval_runtime": 143.4548,
	"eval_samples_per_second": 75.271,
	"eval_steps_per_second": 18.821,
	"step": 21750
	},
	{
	"epoch": 1.967864235421556,
	"grad_norm": 3.967465877532959,
	"learning_rate": 5.356068204613842e-07,
	"loss": 0.4477,
	"step": 21800
	},
	{
	"epoch": 1.9723776855027984,
	"grad_norm": 13.418035507202148,
	"learning_rate": 4.603811434302909e-07,
	"loss": 0.4418,
	"step": 21850
	},
	{
	"epoch": 1.9768911355840404,
	"grad_norm": 8.183111190795898,
	"learning_rate": 3.851554663991976e-07,
	"loss": 0.5417,
	"step": 21900
	},
	{
	"epoch": 1.9814045856652824,
	"grad_norm": 5.646338939666748,
	"learning_rate": 3.099297893681043e-07,
	"loss": 0.5065,
	"step": 21950
	},
	{
	"epoch": 1.9859180357465247,
	"grad_norm": 14.187732696533203,
	"learning_rate": 2.3470411233701103e-07,
	"loss": 0.4325,
	"step": 22000
	},
	{
	"epoch": 1.9859180357465247,
	"eval_exact_match": 86.35761589403974,
	"eval_f1": 92.66264597808306,
	"eval_runtime": 143.145,
	"eval_samples_per_second": 75.434,
	"eval_steps_per_second": 18.862,
	"step": 22000
	},
	{
	"epoch": 1.9904314858277667,
	"grad_norm": 24.069639205932617,
	"learning_rate": 1.5947843530591774e-07,
	"loss": 0.4079,
	"step": 22050
	},
	{
	"epoch": 1.9949449359090088,
	"grad_norm": 9.552345275878906,
	"learning_rate": 8.425275827482447e-08,
	"loss": 0.4418,
	"step": 22100
	},
	{
	"epoch": 1.999458385990251,
	"grad_norm": 11.15715503692627,
	"learning_rate": 9.027081243731194e-09,
	"loss": 0.519,
	"step": 22150
	},
	{
	"epoch": 2.0,
	"step": 22156,
	"total_flos": 4.529540706059981e+16,
	"train_loss": 0.8456309766066937,
	"train_runtime": 23960.3876,
	"train_samples_per_second": 7.397,
	"train_steps_per_second": 0.925
	}
	],
	"logging_steps": 50,
	"max_steps": 22156,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.529540706059981e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}