nutrition-extractor / trainer_state.json

End of training

7b686d4 verified 2 days ago

110 kB

	{
	"best_metric": 0.9595749595749595,
	"best_model_checkpoint": "ds-v6-large/checkpoint-2805",
	"epoch": 33.287101248266296,
	"eval_steps": 15,
	"global_step": 3000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1664355062413315,
	"grad_norm": 2.6665048599243164,
	"learning_rate": 9.950000000000001e-06,
	"loss": 1.9852,
	"step": 15
	},
	{
	"epoch": 0.1664355062413315,
	"eval_accuracy": 0.8101443789541989,
	"eval_f1": 0.0,
	"eval_loss": 1.1499630212783813,
	"eval_precision": 0.0,
	"eval_recall": 0.0,
	"eval_runtime": 35.775,
	"eval_samples_per_second": 5.563,
	"eval_steps_per_second": 1.398,
	"step": 15
	},
	{
	"epoch": 0.332871012482663,
	"grad_norm": 2.08683443069458,
	"learning_rate": 9.9e-06,
	"loss": 1.0244,
	"step": 30
	},
	{
	"epoch": 0.332871012482663,
	"eval_accuracy": 0.8122532850267669,
	"eval_f1": 0.012939749292357462,
	"eval_loss": 0.834208607673645,
	"eval_precision": 0.05,
	"eval_recall": 0.0074314909428704135,
	"eval_runtime": 35.1999,
	"eval_samples_per_second": 5.653,
	"eval_steps_per_second": 1.42,
	"step": 30
	},
	{
	"epoch": 0.49930651872399445,
	"grad_norm": 2.1074297428131104,
	"learning_rate": 9.85e-06,
	"loss": 0.7826,
	"step": 45
	},
	{
	"epoch": 0.49930651872399445,
	"eval_accuracy": 0.8479424647163791,
	"eval_f1": 0.09320905459387482,
	"eval_loss": 0.6794766187667847,
	"eval_precision": 0.07893041237113402,
	"eval_recall": 0.1137947050627032,
	"eval_runtime": 35.557,
	"eval_samples_per_second": 5.597,
	"eval_steps_per_second": 1.406,
	"step": 45
	},
	{
	"epoch": 0.665742024965326,
	"grad_norm": 1.8543498516082764,
	"learning_rate": 9.800000000000001e-06,
	"loss": 0.6767,
	"step": 60
	},
	{
	"epoch": 0.665742024965326,
	"eval_accuracy": 0.8578381009030444,
	"eval_f1": 0.13828125,
	"eval_loss": 0.5963338613510132,
	"eval_precision": 0.11931243680485339,
	"eval_recall": 0.1644217371110079,
	"eval_runtime": 35.7897,
	"eval_samples_per_second": 5.56,
	"eval_steps_per_second": 1.397,
	"step": 60
	},
	{
	"epoch": 0.8321775312066574,
	"grad_norm": 1.9123793840408325,
	"learning_rate": 9.75e-06,
	"loss": 0.6031,
	"step": 75
	},
	{
	"epoch": 0.8321775312066574,
	"eval_accuracy": 0.8690855999567404,
	"eval_f1": 0.1916831683168317,
	"eval_loss": 0.5405648946762085,
	"eval_precision": 0.1670693821194339,
	"eval_recall": 0.22480260102183,
	"eval_runtime": 35.6034,
	"eval_samples_per_second": 5.589,
	"eval_steps_per_second": 1.404,
	"step": 75
	},
	{
	"epoch": 0.9986130374479889,
	"grad_norm": 1.9384328126907349,
	"learning_rate": 9.7e-06,
	"loss": 0.5756,
	"step": 90
	},
	{
	"epoch": 0.9986130374479889,
	"eval_accuracy": 0.8777915968204185,
	"eval_f1": 0.26393539491825885,
	"eval_loss": 0.49346938729286194,
	"eval_precision": 0.22913816689466485,
	"eval_recall": 0.3111936832326986,
	"eval_runtime": 35.6547,
	"eval_samples_per_second": 5.581,
	"eval_steps_per_second": 1.402,
	"step": 90
	},
	{
	"epoch": 1.1650485436893203,
	"grad_norm": 1.751382827758789,
	"learning_rate": 9.65e-06,
	"loss": 0.5215,
	"step": 105
	},
	{
	"epoch": 1.1650485436893203,
	"eval_accuracy": 0.8904991077705078,
	"eval_f1": 0.3575184016824396,
	"eval_loss": 0.43015486001968384,
	"eval_precision": 0.32667179093005383,
	"eval_recall": 0.3947979563399907,
	"eval_runtime": 35.5042,
	"eval_samples_per_second": 5.605,
	"eval_steps_per_second": 1.408,
	"step": 105
	},
	{
	"epoch": 1.331484049930652,
	"grad_norm": 1.7430224418640137,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.4782,
	"step": 120
	},
	{
	"epoch": 1.331484049930652,
	"eval_accuracy": 0.9020169793976099,
	"eval_f1": 0.4266553119012136,
	"eval_loss": 0.37819600105285645,
	"eval_precision": 0.3938679245283019,
	"eval_recall": 0.46539712029725966,
	"eval_runtime": 35.9551,
	"eval_samples_per_second": 5.535,
	"eval_steps_per_second": 1.391,
	"step": 120
	},
	{
	"epoch": 1.4979195561719834,
	"grad_norm": 2.754100799560547,
	"learning_rate": 9.55e-06,
	"loss": 0.4208,
	"step": 135
	},
	{
	"epoch": 1.4979195561719834,
	"eval_accuracy": 0.9080733250419077,
	"eval_f1": 0.44783505154639175,
	"eval_loss": 0.34046444296836853,
	"eval_precision": 0.40266963292547275,
	"eval_recall": 0.5044124477473293,
	"eval_runtime": 35.1015,
	"eval_samples_per_second": 5.669,
	"eval_steps_per_second": 1.424,
	"step": 135
	},
	{
	"epoch": 1.664355062413315,
	"grad_norm": 1.3271350860595703,
	"learning_rate": 9.5e-06,
	"loss": 0.3532,
	"step": 150
	},
	{
	"epoch": 1.664355062413315,
	"eval_accuracy": 0.9251608716811767,
	"eval_f1": 0.5355845266082496,
	"eval_loss": 0.2930045425891876,
	"eval_precision": 0.49604117181314333,
	"eval_recall": 0.5819786344635393,
	"eval_runtime": 34.7775,
	"eval_samples_per_second": 5.722,
	"eval_steps_per_second": 1.438,
	"step": 150
	},
	{
	"epoch": 1.8307905686546464,
	"grad_norm": 1.9117140769958496,
	"learning_rate": 9.450000000000001e-06,
	"loss": 0.3458,
	"step": 165
	},
	{
	"epoch": 1.8307905686546464,
	"eval_accuracy": 0.9301357270318499,
	"eval_f1": 0.5559597688850845,
	"eval_loss": 0.2658008933067322,
	"eval_precision": 0.5154761904761904,
	"eval_recall": 0.6033441709242917,
	"eval_runtime": 34.9787,
	"eval_samples_per_second": 5.689,
	"eval_steps_per_second": 1.429,
	"step": 165
	},
	{
	"epoch": 1.9972260748959778,
	"grad_norm": 1.9700042009353638,
	"learning_rate": 9.4e-06,
	"loss": 0.302,
	"step": 180
	},
	{
	"epoch": 1.9972260748959778,
	"eval_accuracy": 0.9474395717298437,
	"eval_f1": 0.6529640848117698,
	"eval_loss": 0.2320590764284134,
	"eval_precision": 0.6111786148238153,
	"eval_recall": 0.7008824895494659,
	"eval_runtime": 35.1938,
	"eval_samples_per_second": 5.654,
	"eval_steps_per_second": 1.421,
	"step": 180
	},
	{
	"epoch": 2.163661581137309,
	"grad_norm": 1.2119841575622559,
	"learning_rate": 9.350000000000002e-06,
	"loss": 0.2655,
	"step": 195
	},
	{
	"epoch": 2.163661581137309,
	"eval_accuracy": 0.9519818309630671,
	"eval_f1": 0.6844638949671772,
	"eval_loss": 0.20933493971824646,
	"eval_precision": 0.6470831609433182,
	"eval_recall": 0.7264282396655829,
	"eval_runtime": 35.2683,
	"eval_samples_per_second": 5.642,
	"eval_steps_per_second": 1.418,
	"step": 195
	},
	{
	"epoch": 2.3300970873786406,
	"grad_norm": 2.050490617752075,
	"learning_rate": 9.3e-06,
	"loss": 0.2598,
	"step": 210
	},
	{
	"epoch": 2.3300970873786406,
	"eval_accuracy": 0.9570107608284215,
	"eval_f1": 0.7274759669125868,
	"eval_loss": 0.1951305866241455,
	"eval_precision": 0.7012931034482759,
	"eval_recall": 0.7556897352531352,
	"eval_runtime": 35.2296,
	"eval_samples_per_second": 5.649,
	"eval_steps_per_second": 1.419,
	"step": 210
	},
	{
	"epoch": 2.496532593619972,
	"grad_norm": 2.1060705184936523,
	"learning_rate": 9.250000000000001e-06,
	"loss": 0.2364,
	"step": 225
	},
	{
	"epoch": 2.496532593619972,
	"eval_accuracy": 0.9590115178716271,
	"eval_f1": 0.7402309058614565,
	"eval_loss": 0.17936836183071136,
	"eval_precision": 0.7090599744789451,
	"eval_recall": 0.7742684626103112,
	"eval_runtime": 35.4911,
	"eval_samples_per_second": 5.607,
	"eval_steps_per_second": 1.409,
	"step": 225
	},
	{
	"epoch": 2.662968099861304,
	"grad_norm": 1.8435375690460205,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.2218,
	"step": 240
	},
	{
	"epoch": 2.662968099861304,
	"eval_accuracy": 0.9621478397231384,
	"eval_f1": 0.7557522123893805,
	"eval_loss": 0.1675911545753479,
	"eval_precision": 0.721588508660752,
	"eval_recall": 0.7933116581514166,
	"eval_runtime": 35.3833,
	"eval_samples_per_second": 5.624,
	"eval_steps_per_second": 1.413,
	"step": 240
	},
	{
	"epoch": 2.8294036061026353,
	"grad_norm": 2.065732479095459,
	"learning_rate": 9.15e-06,
	"loss": 0.206,
	"step": 255
	},
	{
	"epoch": 2.8294036061026353,
	"eval_accuracy": 0.9650137890012437,
	"eval_f1": 0.7758275938680294,
	"eval_loss": 0.15723256766796112,
	"eval_precision": 0.7436115843270868,
	"eval_recall": 0.8109614491407339,
	"eval_runtime": 35.4693,
	"eval_samples_per_second": 5.61,
	"eval_steps_per_second": 1.41,
	"step": 255
	},
	{
	"epoch": 2.9958391123439667,
	"grad_norm": 2.1758480072021484,
	"learning_rate": 9.100000000000001e-06,
	"loss": 0.2053,
	"step": 270
	},
	{
	"epoch": 2.9958391123439667,
	"eval_accuracy": 0.9640404477369816,
	"eval_f1": 0.7730088495575222,
	"eval_loss": 0.15795043110847473,
	"eval_precision": 0.7380650612589776,
	"eval_recall": 0.8114259173246633,
	"eval_runtime": 35.4002,
	"eval_samples_per_second": 5.621,
	"eval_steps_per_second": 1.412,
	"step": 270
	},
	{
	"epoch": 3.162274618585298,
	"grad_norm": 1.6404600143432617,
	"learning_rate": 9.050000000000001e-06,
	"loss": 0.1876,
	"step": 285
	},
	{
	"epoch": 3.162274618585298,
	"eval_accuracy": 0.9687449305142486,
	"eval_f1": 0.801343784994401,
	"eval_loss": 0.1406078040599823,
	"eval_precision": 0.7737889273356401,
	"eval_recall": 0.8309335810496981,
	"eval_runtime": 35.6674,
	"eval_samples_per_second": 5.579,
	"eval_steps_per_second": 1.402,
	"step": 285
	},
	{
	"epoch": 3.3287101248266295,
	"grad_norm": 1.8430469036102295,
	"learning_rate": 9e-06,
	"loss": 0.1602,
	"step": 300
	},
	{
	"epoch": 3.3287101248266295,
	"eval_accuracy": 0.9670686205591305,
	"eval_f1": 0.7985659870042572,
	"eval_loss": 0.14204147458076477,
	"eval_precision": 0.7714285714285715,
	"eval_recall": 0.8276823037621923,
	"eval_runtime": 35.5741,
	"eval_samples_per_second": 5.594,
	"eval_steps_per_second": 1.406,
	"step": 300
	},
	{
	"epoch": 3.4951456310679614,
	"grad_norm": 2.2237956523895264,
	"learning_rate": 8.95e-06,
	"loss": 0.1706,
	"step": 315
	},
	{
	"epoch": 3.4951456310679614,
	"eval_accuracy": 0.969069377602336,
	"eval_f1": 0.8149988705669754,
	"eval_loss": 0.13229934871196747,
	"eval_precision": 0.793315743183817,
	"eval_recall": 0.8379006038086391,
	"eval_runtime": 36.0972,
	"eval_samples_per_second": 5.513,
	"eval_steps_per_second": 1.385,
	"step": 315
	},
	{
	"epoch": 3.661581137309293,
	"grad_norm": 2.04622220993042,
	"learning_rate": 8.900000000000001e-06,
	"loss": 0.1585,
	"step": 330
	},
	{
	"epoch": 3.661581137309293,
	"eval_accuracy": 0.9700427188665982,
	"eval_f1": 0.8298399819697994,
	"eval_loss": 0.13131560385227203,
	"eval_precision": 0.8060420315236427,
	"eval_recall": 0.8550859266140269,
	"eval_runtime": 35.6467,
	"eval_samples_per_second": 5.583,
	"eval_steps_per_second": 1.403,
	"step": 330
	},
	{
	"epoch": 3.828016643550624,
	"grad_norm": 2.0790255069732666,
	"learning_rate": 8.85e-06,
	"loss": 0.1574,
	"step": 345
	},
	{
	"epoch": 3.828016643550624,
	"eval_accuracy": 0.9717190288217163,
	"eval_f1": 0.8376491781130375,
	"eval_loss": 0.12674090266227722,
	"eval_precision": 0.8129370629370629,
	"eval_recall": 0.8639108221086855,
	"eval_runtime": 35.5835,
	"eval_samples_per_second": 5.592,
	"eval_steps_per_second": 1.405,
	"step": 345
	},
	{
	"epoch": 3.9944521497919556,
	"grad_norm": 2.3372180461883545,
	"learning_rate": 8.8e-06,
	"loss": 0.15,
	"step": 360
	},
	{
	"epoch": 3.9944521497919556,
	"eval_accuracy": 0.97539609582004,
	"eval_f1": 0.8535811423390752,
	"eval_loss": 0.11569273471832275,
	"eval_precision": 0.8335546702080566,
	"eval_recall": 0.8745935903390618,
	"eval_runtime": 35.7391,
	"eval_samples_per_second": 5.568,
	"eval_steps_per_second": 1.399,
	"step": 360
	},
	{
	"epoch": 4.160887656033287,
	"grad_norm": 2.763075828552246,
	"learning_rate": 8.750000000000001e-06,
	"loss": 0.1192,
	"step": 375
	},
	{
	"epoch": 4.160887656033287,
	"eval_accuracy": 0.9740983074676904,
	"eval_f1": 0.8524664696521937,
	"eval_loss": 0.11200679838657379,
	"eval_precision": 0.8348174532502226,
	"eval_recall": 0.8708778448676265,
	"eval_runtime": 36.0008,
	"eval_samples_per_second": 5.528,
	"eval_steps_per_second": 1.389,
	"step": 375
	},
	{
	"epoch": 4.327323162274618,
	"grad_norm": 1.7937551736831665,
	"learning_rate": 8.700000000000001e-06,
	"loss": 0.1313,
	"step": 390
	},
	{
	"epoch": 4.327323162274618,
	"eval_accuracy": 0.9745309035851403,
	"eval_f1": 0.8588929219600727,
	"eval_loss": 0.1129654049873352,
	"eval_precision": 0.8394678492239468,
	"eval_recall": 0.8792382721783558,
	"eval_runtime": 36.0013,
	"eval_samples_per_second": 5.528,
	"eval_steps_per_second": 1.389,
	"step": 390
	},
	{
	"epoch": 4.49375866851595,
	"grad_norm": 1.4142848253250122,
	"learning_rate": 8.65e-06,
	"loss": 0.1179,
	"step": 405
	},
	{
	"epoch": 4.49375866851595,
	"eval_accuracy": 0.9755042448494025,
	"eval_f1": 0.8613303269447576,
	"eval_loss": 0.109279565513134,
	"eval_precision": 0.8369851007887817,
	"eval_recall": 0.8871342313051556,
	"eval_runtime": 36.0609,
	"eval_samples_per_second": 5.518,
	"eval_steps_per_second": 1.387,
	"step": 405
	},
	{
	"epoch": 4.660194174757281,
	"grad_norm": 1.6794809103012085,
	"learning_rate": 8.6e-06,
	"loss": 0.1327,
	"step": 420
	},
	{
	"epoch": 4.660194174757281,
	"eval_accuracy": 0.9745849780998216,
	"eval_f1": 0.862053369516056,
	"eval_loss": 0.11022669076919556,
	"eval_precision": 0.8400176289114147,
	"eval_recall": 0.885276358569438,
	"eval_runtime": 36.0549,
	"eval_samples_per_second": 5.519,
	"eval_steps_per_second": 1.387,
	"step": 420
	},
	{
	"epoch": 4.826629680998613,
	"grad_norm": 1.8358403444290161,
	"learning_rate": 8.550000000000001e-06,
	"loss": 0.1323,
	"step": 435
	},
	{
	"epoch": 4.826629680998613,
	"eval_accuracy": 0.978207970583464,
	"eval_f1": 0.8795454545454546,
	"eval_loss": 0.09974753856658936,
	"eval_precision": 0.8611481975967957,
	"eval_recall": 0.8987459359033906,
	"eval_runtime": 36.3053,
	"eval_samples_per_second": 5.481,
	"eval_steps_per_second": 1.377,
	"step": 435
	},
	{
	"epoch": 4.993065187239944,
	"grad_norm": 2.1321513652801514,
	"learning_rate": 8.5e-06,
	"loss": 0.1254,
	"step": 450
	},
	{
	"epoch": 4.993065187239944,
	"eval_accuracy": 0.9774509273779268,
	"eval_f1": 0.8727683615819208,
	"eval_loss": 0.094924695789814,
	"eval_precision": 0.8499119718309859,
	"eval_recall": 0.896888063167673,
	"eval_runtime": 36.229,
	"eval_samples_per_second": 5.493,
	"eval_steps_per_second": 1.38,
	"step": 450
	},
	{
	"epoch": 5.159500693481276,
	"grad_norm": 1.3562971353530884,
	"learning_rate": 8.45e-06,
	"loss": 0.0999,
	"step": 465
	},
	{
	"epoch": 5.159500693481276,
	"eval_accuracy": 0.9797220569945385,
	"eval_f1": 0.8822055137844612,
	"eval_loss": 0.08469922095537186,
	"eval_precision": 0.8658318425760286,
	"eval_recall": 0.89921040408732,
	"eval_runtime": 36.2946,
	"eval_samples_per_second": 5.483,
	"eval_steps_per_second": 1.378,
	"step": 465
	},
	{
	"epoch": 5.325936199722608,
	"grad_norm": 1.683296799659729,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.1017,
	"step": 480
	},
	{
	"epoch": 5.325936199722608,
	"eval_accuracy": 0.981019845346888,
	"eval_f1": 0.8923777019340159,
	"eval_loss": 0.08026640117168427,
	"eval_precision": 0.8746654772524531,
	"eval_recall": 0.910822108685555,
	"eval_runtime": 36.4129,
	"eval_samples_per_second": 5.465,
	"eval_steps_per_second": 1.373,
	"step": 480
	},
	{
	"epoch": 5.492371705963939,
	"grad_norm": 2.303062677383423,
	"learning_rate": 8.35e-06,
	"loss": 0.091,
	"step": 495
	},
	{
	"epoch": 5.492371705963939,
	"eval_accuracy": 0.9805872492294382,
	"eval_f1": 0.8918362680082322,
	"eval_loss": 0.07959215342998505,
	"eval_precision": 0.8783783783783784,
	"eval_recall": 0.9057129586623316,
	"eval_runtime": 36.4104,
	"eval_samples_per_second": 5.465,
	"eval_steps_per_second": 1.373,
	"step": 495
	},
	{
	"epoch": 5.658807212205271,
	"grad_norm": 3.383983850479126,
	"learning_rate": 8.3e-06,
	"loss": 0.0979,
	"step": 510
	},
	{
	"epoch": 5.658807212205271,
	"eval_accuracy": 0.9773427783485643,
	"eval_f1": 0.8775045537340619,
	"eval_loss": 0.09432032704353333,
	"eval_precision": 0.8606520768200089,
	"eval_recall": 0.8950301904319554,
	"eval_runtime": 36.0505,
	"eval_samples_per_second": 5.52,
	"eval_steps_per_second": 1.387,
	"step": 510
	},
	{
	"epoch": 5.825242718446602,
	"grad_norm": 2.1892480850219727,
	"learning_rate": 8.25e-06,
	"loss": 0.1024,
	"step": 525
	},
	{
	"epoch": 5.825242718446602,
	"eval_accuracy": 0.980533174714757,
	"eval_f1": 0.8882312770316413,
	"eval_loss": 0.08036847412586212,
	"eval_precision": 0.8709821428571428,
	"eval_recall": 0.906177426846261,
	"eval_runtime": 36.1406,
	"eval_samples_per_second": 5.506,
	"eval_steps_per_second": 1.383,
	"step": 525
	},
	{
	"epoch": 5.991678224687933,
	"grad_norm": 1.8490287065505981,
	"learning_rate": 8.2e-06,
	"loss": 0.0952,
	"step": 540
	},
	{
	"epoch": 5.991678224687933,
	"eval_accuracy": 0.9816146650083816,
	"eval_f1": 0.900843400957374,
	"eval_loss": 0.07866356521844864,
	"eval_precision": 0.8845120859444942,
	"eval_recall": 0.917789131444496,
	"eval_runtime": 36.4974,
	"eval_samples_per_second": 5.452,
	"eval_steps_per_second": 1.37,
	"step": 540
	},
	{
	"epoch": 6.158113730929265,
	"grad_norm": 3.0108256340026855,
	"learning_rate": 8.15e-06,
	"loss": 0.0742,
	"step": 555
	},
	{
	"epoch": 6.158113730929265,
	"eval_accuracy": 0.9823176336992375,
	"eval_f1": 0.9032553874369554,
	"eval_loss": 0.07755902409553528,
	"eval_precision": 0.8918062471706655,
	"eval_recall": 0.9150023223409196,
	"eval_runtime": 36.3184,
	"eval_samples_per_second": 5.479,
	"eval_steps_per_second": 1.377,
	"step": 555
	},
	{
	"epoch": 6.324549237170596,
	"grad_norm": 2.533155679702759,
	"learning_rate": 8.1e-06,
	"loss": 0.0764,
	"step": 570
	},
	{
	"epoch": 6.324549237170596,
	"eval_accuracy": 0.9837235710809495,
	"eval_f1": 0.9106813996316758,
	"eval_loss": 0.07210895419120789,
	"eval_precision": 0.9027841168416249,
	"eval_recall": 0.9187180678123549,
	"eval_runtime": 36.5311,
	"eval_samples_per_second": 5.447,
	"eval_steps_per_second": 1.369,
	"step": 570
	},
	{
	"epoch": 6.490984743411928,
	"grad_norm": 1.943320631980896,
	"learning_rate": 8.050000000000001e-06,
	"loss": 0.0813,
	"step": 585
	},
	{
	"epoch": 6.490984743411928,
	"eval_accuracy": 0.9844265397718055,
	"eval_f1": 0.914614499424626,
	"eval_loss": 0.06643209606409073,
	"eval_precision": 0.906478102189781,
	"eval_recall": 0.9228982814677195,
	"eval_runtime": 36.3904,
	"eval_samples_per_second": 5.468,
	"eval_steps_per_second": 1.374,
	"step": 585
	},
	{
	"epoch": 6.657420249653259,
	"grad_norm": 1.322831392288208,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.0791,
	"step": 600
	},
	{
	"epoch": 6.657420249653259,
	"eval_accuracy": 0.9848050613745741,
	"eval_f1": 0.9137614678899082,
	"eval_loss": 0.06415116786956787,
	"eval_precision": 0.902582691436339,
	"eval_recall": 0.9252206223873665,
	"eval_runtime": 36.27,
	"eval_samples_per_second": 5.487,
	"eval_steps_per_second": 1.379,
	"step": 600
	},
	{
	"epoch": 6.8238557558945905,
	"grad_norm": 1.5891202688217163,
	"learning_rate": 7.950000000000002e-06,
	"loss": 0.0792,
	"step": 615
	},
	{
	"epoch": 6.8238557558945905,
	"eval_accuracy": 0.9841020926837182,
	"eval_f1": 0.9103795153177869,
	"eval_loss": 0.06728328764438629,
	"eval_precision": 0.8964430436740207,
	"eval_recall": 0.924756154203437,
	"eval_runtime": 35.8847,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.393,
	"step": 615
	},
	{
	"epoch": 6.990291262135923,
	"grad_norm": 3.470646858215332,
	"learning_rate": 7.9e-06,
	"loss": 0.078,
	"step": 630
	},
	{
	"epoch": 6.990291262135923,
	"eval_accuracy": 0.9832909749634997,
	"eval_f1": 0.9078857142857143,
	"eval_loss": 0.06933122873306274,
	"eval_precision": 0.8937893789378938,
	"eval_recall": 0.92243381328379,
	"eval_runtime": 36.1839,
	"eval_samples_per_second": 5.5,
	"eval_steps_per_second": 1.382,
	"step": 630
	},
	{
	"epoch": 7.156726768377254,
	"grad_norm": 2.4168286323547363,
	"learning_rate": 7.850000000000001e-06,
	"loss": 0.0678,
	"step": 645
	},
	{
	"epoch": 7.156726768377254,
	"eval_accuracy": 0.985237657492024,
	"eval_f1": 0.92025664527956,
	"eval_loss": 0.06722652167081833,
	"eval_precision": 0.9081863410221619,
	"eval_recall": 0.9326521133302369,
	"eval_runtime": 36.716,
	"eval_samples_per_second": 5.42,
	"eval_steps_per_second": 1.362,
	"step": 645
	},
	{
	"epoch": 7.323162274618586,
	"grad_norm": 1.048614501953125,
	"learning_rate": 7.800000000000002e-06,
	"loss": 0.0685,
	"step": 660
	},
	{
	"epoch": 7.323162274618586,
	"eval_accuracy": 0.9839939436543557,
	"eval_f1": 0.9072635906806761,
	"eval_loss": 0.06548429280519485,
	"eval_precision": 0.8925842696629214,
	"eval_recall": 0.92243381328379,
	"eval_runtime": 36.897,
	"eval_samples_per_second": 5.393,
	"eval_steps_per_second": 1.355,
	"step": 660
	},
	{
	"epoch": 7.489597780859917,
	"grad_norm": 2.5844979286193848,
	"learning_rate": 7.75e-06,
	"loss": 0.0555,
	"step": 675
	},
	{
	"epoch": 7.489597780859917,
	"eval_accuracy": 0.9856161790947926,
	"eval_f1": 0.9213016385875836,
	"eval_loss": 0.06148982420563698,
	"eval_precision": 0.9155963302752294,
	"eval_recall": 0.927078495123084,
	"eval_runtime": 36.1847,
	"eval_samples_per_second": 5.5,
	"eval_steps_per_second": 1.382,
	"step": 675
	},
	{
	"epoch": 7.656033287101248,
	"grad_norm": 1.9488413333892822,
	"learning_rate": 7.7e-06,
	"loss": 0.07,
	"step": 690
	},
	{
	"epoch": 7.656033287101248,
	"eval_accuracy": 0.9867517439030985,
	"eval_f1": 0.927176659774868,
	"eval_loss": 0.058708589524030685,
	"eval_precision": 0.9172727272727272,
	"eval_recall": 0.9372967951695309,
	"eval_runtime": 36.4405,
	"eval_samples_per_second": 5.461,
	"eval_steps_per_second": 1.372,
	"step": 690
	},
	{
	"epoch": 7.82246879334258,
	"grad_norm": 1.7437242269515991,
	"learning_rate": 7.650000000000001e-06,
	"loss": 0.065,
	"step": 705
	},
	{
	"epoch": 7.82246879334258,
	"eval_accuracy": 0.9874547125939545,
	"eval_f1": 0.9303928325292902,
	"eval_loss": 0.0557989701628685,
	"eval_precision": 0.9204545454545454,
	"eval_recall": 0.9405480724570366,
	"eval_runtime": 36.0661,
	"eval_samples_per_second": 5.518,
	"eval_steps_per_second": 1.386,
	"step": 705
	},
	{
	"epoch": 7.988904299583911,
	"grad_norm": 1.0527422428131104,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.0599,
	"step": 720
	},
	{
	"epoch": 7.988904299583911,
	"eval_accuracy": 0.9878332341967231,
	"eval_f1": 0.9342226310947562,
	"eval_loss": 0.05789622664451599,
	"eval_precision": 0.9252847380410023,
	"eval_recall": 0.9433348815606131,
	"eval_runtime": 36.3712,
	"eval_samples_per_second": 5.471,
	"eval_steps_per_second": 1.375,
	"step": 720
	},
	{
	"epoch": 8.155339805825243,
	"grad_norm": 1.6904972791671753,
	"learning_rate": 7.5500000000000006e-06,
	"loss": 0.0571,
	"step": 735
	},
	{
	"epoch": 8.155339805825243,
	"eval_accuracy": 0.9865895203590548,
	"eval_f1": 0.9238905495516211,
	"eval_loss": 0.059290919452905655,
	"eval_precision": 0.9148451730418944,
	"eval_recall": 0.9331165815141663,
	"eval_runtime": 36.0084,
	"eval_samples_per_second": 5.526,
	"eval_steps_per_second": 1.389,
	"step": 735
	},
	{
	"epoch": 8.321775312066574,
	"grad_norm": 1.9831328392028809,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.0563,
	"step": 750
	},
	{
	"epoch": 8.321775312066574,
	"eval_accuracy": 0.9863191477856487,
	"eval_f1": 0.9236079153244362,
	"eval_loss": 0.06046581640839577,
	"eval_precision": 0.9151846785225718,
	"eval_recall": 0.9321876451463075,
	"eval_runtime": 36.0693,
	"eval_samples_per_second": 5.517,
	"eval_steps_per_second": 1.386,
	"step": 750
	},
	{
	"epoch": 8.488210818307905,
	"grad_norm": 2.0379467010498047,
	"learning_rate": 7.450000000000001e-06,
	"loss": 0.0602,
	"step": 765
	},
	{
	"epoch": 8.488210818307905,
	"eval_accuracy": 0.9863191477856487,
	"eval_f1": 0.927992590877518,
	"eval_loss": 0.058113399893045425,
	"eval_precision": 0.925207756232687,
	"eval_recall": 0.9307942405945193,
	"eval_runtime": 35.9178,
	"eval_samples_per_second": 5.54,
	"eval_steps_per_second": 1.392,
	"step": 765
	},
	{
	"epoch": 8.654646324549237,
	"grad_norm": 3.095200538635254,
	"learning_rate": 7.4e-06,
	"loss": 0.0582,
	"step": 780
	},
	{
	"epoch": 8.654646324549237,
	"eval_accuracy": 0.9872384145352295,
	"eval_f1": 0.9288837744533948,
	"eval_loss": 0.05814095214009285,
	"eval_precision": 0.9206204379562044,
	"eval_recall": 0.9372967951695309,
	"eval_runtime": 36.2273,
	"eval_samples_per_second": 5.493,
	"eval_steps_per_second": 1.38,
	"step": 780
	},
	{
	"epoch": 8.821081830790568,
	"grad_norm": 1.0786473751068115,
	"learning_rate": 7.350000000000001e-06,
	"loss": 0.0514,
	"step": 795
	},
	{
	"epoch": 8.821081830790568,
	"eval_accuracy": 0.9872924890499107,
	"eval_f1": 0.9313047487321346,
	"eval_loss": 0.055727362632751465,
	"eval_precision": 0.9244851258581236,
	"eval_recall": 0.9382257315373896,
	"eval_runtime": 36.0241,
	"eval_samples_per_second": 5.524,
	"eval_steps_per_second": 1.388,
	"step": 795
	},
	{
	"epoch": 8.9875173370319,
	"grad_norm": 1.6077920198440552,
	"learning_rate": 7.3e-06,
	"loss": 0.0467,
	"step": 810
	},
	{
	"epoch": 8.9875173370319,
	"eval_accuracy": 0.9883199048288541,
	"eval_f1": 0.9393661001378043,
	"eval_loss": 0.05200658738613129,
	"eval_precision": 0.9291231258518855,
	"eval_recall": 0.9498374361356247,
	"eval_runtime": 35.9411,
	"eval_samples_per_second": 5.537,
	"eval_steps_per_second": 1.391,
	"step": 810
	},
	{
	"epoch": 9.153952843273231,
	"grad_norm": 1.601219892501831,
	"learning_rate": 7.25e-06,
	"loss": 0.0435,
	"step": 825
	},
	{
	"epoch": 9.153952843273231,
	"eval_accuracy": 0.9879954577407668,
	"eval_f1": 0.9336699563920129,
	"eval_loss": 0.05260741710662842,
	"eval_precision": 0.9228675136116152,
	"eval_recall": 0.9447282861124013,
	"eval_runtime": 35.7996,
	"eval_samples_per_second": 5.559,
	"eval_steps_per_second": 1.397,
	"step": 825
	},
	{
	"epoch": 9.320388349514563,
	"grad_norm": 0.7272451519966125,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.0531,
	"step": 840
	},
	{
	"epoch": 9.320388349514563,
	"eval_accuracy": 0.9883739793435354,
	"eval_f1": 0.9344978165938865,
	"eval_loss": 0.05022520199418068,
	"eval_precision": 0.9249317561419472,
	"eval_recall": 0.9442638179284719,
	"eval_runtime": 36.0285,
	"eval_samples_per_second": 5.523,
	"eval_steps_per_second": 1.388,
	"step": 840
	},
	{
	"epoch": 9.486823855755894,
	"grad_norm": 0.9556881189346313,
	"learning_rate": 7.15e-06,
	"loss": 0.0502,
	"step": 855
	},
	{
	"epoch": 9.486823855755894,
	"eval_accuracy": 0.9874006380792733,
	"eval_f1": 0.9309240622140896,
	"eval_loss": 0.05446859449148178,
	"eval_precision": 0.9170797656602073,
	"eval_recall": 0.9451927542963307,
	"eval_runtime": 36.0609,
	"eval_samples_per_second": 5.518,
	"eval_steps_per_second": 1.387,
	"step": 855
	},
	{
	"epoch": 9.653259361997225,
	"grad_norm": 1.0404924154281616,
	"learning_rate": 7.100000000000001e-06,
	"loss": 0.0377,
	"step": 870
	},
	{
	"epoch": 9.653259361997225,
	"eval_accuracy": 0.9850754339479804,
	"eval_f1": 0.9220571428571429,
	"eval_loss": 0.06175297126173973,
	"eval_precision": 0.9077407740774077,
	"eval_recall": 0.9368323269856015,
	"eval_runtime": 36.326,
	"eval_samples_per_second": 5.478,
	"eval_steps_per_second": 1.376,
	"step": 870
	},
	{
	"epoch": 9.819694868238557,
	"grad_norm": 1.1249316930770874,
	"learning_rate": 7.05e-06,
	"loss": 0.0416,
	"step": 885
	},
	{
	"epoch": 9.819694868238557,
	"eval_accuracy": 0.9881036067701292,
	"eval_f1": 0.9328719723183392,
	"eval_loss": 0.05493583530187607,
	"eval_precision": 0.9266727772685609,
	"eval_recall": 0.9391546679052485,
	"eval_runtime": 36.1852,
	"eval_samples_per_second": 5.499,
	"eval_steps_per_second": 1.382,
	"step": 885
	},
	{
	"epoch": 9.986130374479888,
	"grad_norm": 1.0846829414367676,
	"learning_rate": 7e-06,
	"loss": 0.044,
	"step": 900
	},
	{
	"epoch": 9.986130374479888,
	"eval_accuracy": 0.9884280538582166,
	"eval_f1": 0.9420457169244978,
	"eval_loss": 0.05289188027381897,
	"eval_precision": 0.9366391184573003,
	"eval_recall": 0.9475150952159777,
	"eval_runtime": 36.0505,
	"eval_samples_per_second": 5.52,
	"eval_steps_per_second": 1.387,
	"step": 900
	},
	{
	"epoch": 10.152565880721221,
	"grad_norm": 0.8957504630088806,
	"learning_rate": 6.95e-06,
	"loss": 0.0383,
	"step": 915
	},
	{
	"epoch": 10.152565880721221,
	"eval_accuracy": 0.9889147244903477,
	"eval_f1": 0.9403088269186448,
	"eval_loss": 0.048978183418512344,
	"eval_precision": 0.9332113449222323,
	"eval_recall": 0.9475150952159777,
	"eval_runtime": 36.1551,
	"eval_samples_per_second": 5.504,
	"eval_steps_per_second": 1.383,
	"step": 915
	},
	{
	"epoch": 10.319001386962553,
	"grad_norm": 1.6940028667449951,
	"learning_rate": 6.9e-06,
	"loss": 0.0454,
	"step": 930
	},
	{
	"epoch": 10.319001386962553,
	"eval_accuracy": 0.988536202887579,
	"eval_f1": 0.9366100137804317,
	"eval_loss": 0.05073446407914162,
	"eval_precision": 0.9263970922308041,
	"eval_recall": 0.9470506270320483,
	"eval_runtime": 36.1642,
	"eval_samples_per_second": 5.503,
	"eval_steps_per_second": 1.383,
	"step": 930
	},
	{
	"epoch": 10.485436893203884,
	"grad_norm": 0.9225968718528748,
	"learning_rate": 6.850000000000001e-06,
	"loss": 0.0416,
	"step": 945
	},
	{
	"epoch": 10.485436893203884,
	"eval_accuracy": 0.9891310225490726,
	"eval_f1": 0.9430481899930827,
	"eval_loss": 0.046711865812540054,
	"eval_precision": 0.9363553113553114,
	"eval_recall": 0.9498374361356247,
	"eval_runtime": 36.5741,
	"eval_samples_per_second": 5.441,
	"eval_steps_per_second": 1.367,
	"step": 945
	},
	{
	"epoch": 10.651872399445216,
	"grad_norm": 2.7210068702697754,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.0403,
	"step": 960
	},
	{
	"epoch": 10.651872399445216,
	"eval_accuracy": 0.9886443519169416,
	"eval_f1": 0.9384650841207652,
	"eval_loss": 0.04987097531557083,
	"eval_precision": 0.9313815187557182,
	"eval_recall": 0.9456572224802601,
	"eval_runtime": 36.5567,
	"eval_samples_per_second": 5.444,
	"eval_steps_per_second": 1.368,
	"step": 960
	},
	{
	"epoch": 10.818307905686547,
	"grad_norm": 1.160333275794983,
	"learning_rate": 6.750000000000001e-06,
	"loss": 0.0354,
	"step": 975
	},
	{
	"epoch": 10.818307905686547,
	"eval_accuracy": 0.9882658303141729,
	"eval_f1": 0.9354171454837968,
	"eval_loss": 0.05233873799443245,
	"eval_precision": 0.9258416742493175,
	"eval_recall": 0.9451927542963307,
	"eval_runtime": 36.44,
	"eval_samples_per_second": 5.461,
	"eval_steps_per_second": 1.372,
	"step": 975
	},
	{
	"epoch": 10.984743411927878,
	"grad_norm": 0.8807191848754883,
	"learning_rate": 6.700000000000001e-06,
	"loss": 0.0338,
	"step": 990
	},
	{
	"epoch": 10.984743411927878,
	"eval_accuracy": 0.9879954577407668,
	"eval_f1": 0.9318025258323767,
	"eval_loss": 0.052071038633584976,
	"eval_precision": 0.9214350590372389,
	"eval_recall": 0.9424059451927543,
	"eval_runtime": 36.6322,
	"eval_samples_per_second": 5.432,
	"eval_steps_per_second": 1.365,
	"step": 990
	},
	{
	"epoch": 11.15117891816921,
	"grad_norm": 1.1557176113128662,
	"learning_rate": 6.650000000000001e-06,
	"loss": 0.0347,
	"step": 1005
	},
	{
	"epoch": 11.15117891816921,
	"eval_accuracy": 0.988049532255448,
	"eval_f1": 0.9353507565337001,
	"eval_loss": 0.053912434726953506,
	"eval_precision": 0.9234947940244455,
	"eval_recall": 0.9475150952159777,
	"eval_runtime": 36.5986,
	"eval_samples_per_second": 5.437,
	"eval_steps_per_second": 1.366,
	"step": 1005
	},
	{
	"epoch": 11.317614424410541,
	"grad_norm": 1.668484091758728,
	"learning_rate": 6.600000000000001e-06,
	"loss": 0.0364,
	"step": 1020
	},
	{
	"epoch": 11.317614424410541,
	"eval_accuracy": 0.9870761909911858,
	"eval_f1": 0.9334552938486165,
	"eval_loss": 0.055973075330257416,
	"eval_precision": 0.9193693693693694,
	"eval_recall": 0.9479795633999071,
	"eval_runtime": 36.6625,
	"eval_samples_per_second": 5.428,
	"eval_steps_per_second": 1.364,
	"step": 1020
	},
	{
	"epoch": 11.484049930651873,
	"grad_norm": 2.5720293521881104,
	"learning_rate": 6.550000000000001e-06,
	"loss": 0.0363,
	"step": 1035
	},
	{
	"epoch": 11.484049930651873,
	"eval_accuracy": 0.9889147244903477,
	"eval_f1": 0.9381751321535279,
	"eval_loss": 0.050925422459840775,
	"eval_precision": 0.9285714285714286,
	"eval_recall": 0.9479795633999071,
	"eval_runtime": 36.4069,
	"eval_samples_per_second": 5.466,
	"eval_steps_per_second": 1.373,
	"step": 1035
	},
	{
	"epoch": 11.650485436893204,
	"grad_norm": 2.5676207542419434,
	"learning_rate": 6.5000000000000004e-06,
	"loss": 0.0308,
	"step": 1050
	},
	{
	"epoch": 11.650485436893204,
	"eval_accuracy": 0.9893473206077975,
	"eval_f1": 0.94362292051756,
	"eval_loss": 0.04982053115963936,
	"eval_precision": 0.9388505747126437,
	"eval_recall": 0.9484440315838365,
	"eval_runtime": 36.3679,
	"eval_samples_per_second": 5.472,
	"eval_steps_per_second": 1.375,
	"step": 1050
	},
	{
	"epoch": 11.816920943134535,
	"grad_norm": 0.9586185812950134,
	"learning_rate": 6.450000000000001e-06,
	"loss": 0.032,
	"step": 1065
	},
	{
	"epoch": 11.816920943134535,
	"eval_accuracy": 0.9891310225490726,
	"eval_f1": 0.9403330249768733,
	"eval_loss": 0.04908496141433716,
	"eval_precision": 0.9364348226623675,
	"eval_recall": 0.9442638179284719,
	"eval_runtime": 35.9979,
	"eval_samples_per_second": 5.528,
	"eval_steps_per_second": 1.389,
	"step": 1065
	},
	{
	"epoch": 11.983356449375867,
	"grad_norm": 1.067063331604004,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.0331,
	"step": 1080
	},
	{
	"epoch": 11.983356449375867,
	"eval_accuracy": 0.9891850970637539,
	"eval_f1": 0.940768162887552,
	"eval_loss": 0.0454898327589035,
	"eval_precision": 0.9372982941447672,
	"eval_recall": 0.9442638179284719,
	"eval_runtime": 36.1674,
	"eval_samples_per_second": 5.502,
	"eval_steps_per_second": 1.382,
	"step": 1080
	},
	{
	"epoch": 12.149791955617198,
	"grad_norm": 1.4905815124511719,
	"learning_rate": 6.35e-06,
	"loss": 0.0301,
	"step": 1095
	},
	{
	"epoch": 12.149791955617198,
	"eval_accuracy": 0.9891850970637539,
	"eval_f1": 0.9423431734317342,
	"eval_loss": 0.04859260097146034,
	"eval_precision": 0.9358680714612918,
	"eval_recall": 0.9489084997677659,
	"eval_runtime": 36.286,
	"eval_samples_per_second": 5.484,
	"eval_steps_per_second": 1.378,
	"step": 1095
	},
	{
	"epoch": 12.31622746185853,
	"grad_norm": 1.3888496160507202,
	"learning_rate": 6.300000000000001e-06,
	"loss": 0.0308,
	"step": 1110
	},
	{
	"epoch": 12.31622746185853,
	"eval_accuracy": 0.9891310225490726,
	"eval_f1": 0.9413388543823326,
	"eval_loss": 0.051349248737096786,
	"eval_precision": 0.9325432999088423,
	"eval_recall": 0.9503019043195541,
	"eval_runtime": 36.2143,
	"eval_samples_per_second": 5.495,
	"eval_steps_per_second": 1.381,
	"step": 1110
	},
	{
	"epoch": 12.482662968099861,
	"grad_norm": 0.5457278490066528,
	"learning_rate": 6.25e-06,
	"loss": 0.0253,
	"step": 1125
	},
	{
	"epoch": 12.482662968099861,
	"eval_accuracy": 0.9891850970637539,
	"eval_f1": 0.939825447864033,
	"eval_loss": 0.05103699862957001,
	"eval_precision": 0.9295774647887324,
	"eval_recall": 0.9503019043195541,
	"eval_runtime": 36.4491,
	"eval_samples_per_second": 5.46,
	"eval_steps_per_second": 1.372,
	"step": 1125
	},
	{
	"epoch": 12.649098474341192,
	"grad_norm": 1.106314778327942,
	"learning_rate": 6.200000000000001e-06,
	"loss": 0.0301,
	"step": 1140
	},
	{
	"epoch": 12.649098474341192,
	"eval_accuracy": 0.9886443519169416,
	"eval_f1": 0.9397424103035878,
	"eval_loss": 0.053277622908353806,
	"eval_precision": 0.9307517084282461,
	"eval_recall": 0.9489084997677659,
	"eval_runtime": 36.4299,
	"eval_samples_per_second": 5.463,
	"eval_steps_per_second": 1.372,
	"step": 1140
	},
	{
	"epoch": 12.815533980582524,
	"grad_norm": 0.9172839522361755,
	"learning_rate": 6.15e-06,
	"loss": 0.0328,
	"step": 1155
	},
	{
	"epoch": 12.815533980582524,
	"eval_accuracy": 0.9884821283728978,
	"eval_f1": 0.9364348226623675,
	"eval_loss": 0.0548846460878849,
	"eval_precision": 0.9287345820009136,
	"eval_recall": 0.9442638179284719,
	"eval_runtime": 36.3929,
	"eval_samples_per_second": 5.468,
	"eval_steps_per_second": 1.374,
	"step": 1155
	},
	{
	"epoch": 12.981969486823855,
	"grad_norm": 1.9091347455978394,
	"learning_rate": 6.1e-06,
	"loss": 0.0298,
	"step": 1170
	},
	{
	"epoch": 12.981969486823855,
	"eval_accuracy": 0.98945546963716,
	"eval_f1": 0.9450092421441775,
	"eval_loss": 0.05042650178074837,
	"eval_precision": 0.9402298850574713,
	"eval_recall": 0.9498374361356247,
	"eval_runtime": 35.8371,
	"eval_samples_per_second": 5.553,
	"eval_steps_per_second": 1.395,
	"step": 1170
	},
	{
	"epoch": 13.148404993065187,
	"grad_norm": 1.2674860954284668,
	"learning_rate": 6.0500000000000005e-06,
	"loss": 0.0256,
	"step": 1185
	},
	{
	"epoch": 13.148404993065187,
	"eval_accuracy": 0.988752500946304,
	"eval_f1": 0.9386716037954178,
	"eval_loss": 0.051467474550008774,
	"eval_precision": 0.9354243542435424,
	"eval_recall": 0.9419414770088249,
	"eval_runtime": 36.0333,
	"eval_samples_per_second": 5.523,
	"eval_steps_per_second": 1.388,
	"step": 1185
	},
	{
	"epoch": 13.314840499306518,
	"grad_norm": 1.406807780265808,
	"learning_rate": 6e-06,
	"loss": 0.0313,
	"step": 1200
	},
	{
	"epoch": 13.314840499306518,
	"eval_accuracy": 0.9905369599307846,
	"eval_f1": 0.9480968858131489,
	"eval_loss": 0.048274096101522446,
	"eval_precision": 0.9417965169569202,
	"eval_recall": 0.9544821179749187,
	"eval_runtime": 35.8422,
	"eval_samples_per_second": 5.552,
	"eval_steps_per_second": 1.395,
	"step": 1200
	},
	{
	"epoch": 13.48127600554785,
	"grad_norm": 0.5426374673843384,
	"learning_rate": 5.950000000000001e-06,
	"loss": 0.022,
	"step": 1215
	},
	{
	"epoch": 13.48127600554785,
	"eval_accuracy": 0.9898880657546099,
	"eval_f1": 0.9445339470655927,
	"eval_loss": 0.0463298000395298,
	"eval_precision": 0.9361313868613139,
	"eval_recall": 0.9530887134231305,
	"eval_runtime": 36.2558,
	"eval_samples_per_second": 5.489,
	"eval_steps_per_second": 1.379,
	"step": 1215
	},
	{
	"epoch": 13.647711511789181,
	"grad_norm": 2.050182342529297,
	"learning_rate": 5.9e-06,
	"loss": 0.0245,
	"step": 1230
	},
	{
	"epoch": 13.647711511789181,
	"eval_accuracy": 0.9893473206077975,
	"eval_f1": 0.9430219146482123,
	"eval_loss": 0.04942420497536659,
	"eval_precision": 0.9367552703941339,
	"eval_recall": 0.9493729679516953,
	"eval_runtime": 36.4711,
	"eval_samples_per_second": 5.456,
	"eval_steps_per_second": 1.371,
	"step": 1230
	},
	{
	"epoch": 13.814147018030512,
	"grad_norm": 1.7617555856704712,
	"learning_rate": 5.85e-06,
	"loss": 0.0251,
	"step": 1245
	},
	{
	"epoch": 13.814147018030512,
	"eval_accuracy": 0.9897799167252473,
	"eval_f1": 0.9467128027681662,
	"eval_loss": 0.049306854605674744,
	"eval_precision": 0.9404216315307058,
	"eval_recall": 0.9530887134231305,
	"eval_runtime": 36.1814,
	"eval_samples_per_second": 5.5,
	"eval_steps_per_second": 1.382,
	"step": 1245
	},
	{
	"epoch": 13.980582524271846,
	"grad_norm": 1.183014154434204,
	"learning_rate": 5.8e-06,
	"loss": 0.0259,
	"step": 1260
	},
	{
	"epoch": 13.980582524271846,
	"eval_accuracy": 0.98945546963716,
	"eval_f1": 0.9453539312889093,
	"eval_loss": 0.05114530399441719,
	"eval_precision": 0.9386446886446886,
	"eval_recall": 0.9521597770552717,
	"eval_runtime": 36.0831,
	"eval_samples_per_second": 5.515,
	"eval_steps_per_second": 1.386,
	"step": 1260
	},
	{
	"epoch": 14.147018030513177,
	"grad_norm": 0.6956959962844849,
	"learning_rate": 5.75e-06,
	"loss": 0.03,
	"step": 1275
	},
	{
	"epoch": 14.147018030513177,
	"eval_accuracy": 0.9888606499756665,
	"eval_f1": 0.9399815327793166,
	"eval_loss": 0.053482603281736374,
	"eval_precision": 0.9343735658558971,
	"eval_recall": 0.9456572224802601,
	"eval_runtime": 35.8745,
	"eval_samples_per_second": 5.547,
	"eval_steps_per_second": 1.394,
	"step": 1275
	},
	{
	"epoch": 14.313453536754508,
	"grad_norm": 1.2064058780670166,
	"learning_rate": 5.7e-06,
	"loss": 0.0192,
	"step": 1290
	},
	{
	"epoch": 14.313453536754508,
	"eval_accuracy": 0.9898880657546099,
	"eval_f1": 0.9460772969220087,
	"eval_loss": 0.049094799906015396,
	"eval_precision": 0.9428044280442804,
	"eval_recall": 0.9493729679516953,
	"eval_runtime": 35.7923,
	"eval_samples_per_second": 5.56,
	"eval_steps_per_second": 1.397,
	"step": 1290
	},
	{
	"epoch": 14.47988904299584,
	"grad_norm": 1.727489948272705,
	"learning_rate": 5.65e-06,
	"loss": 0.0267,
	"step": 1305
	},
	{
	"epoch": 14.47988904299584,
	"eval_accuracy": 0.9901043638133348,
	"eval_f1": 0.9500693481276006,
	"eval_loss": 0.04895344376564026,
	"eval_precision": 0.9456971928209849,
	"eval_recall": 0.9544821179749187,
	"eval_runtime": 36.349,
	"eval_samples_per_second": 5.475,
	"eval_steps_per_second": 1.376,
	"step": 1305
	},
	{
	"epoch": 14.646324549237171,
	"grad_norm": 0.6142871379852295,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.0241,
	"step": 1320
	},
	{
	"epoch": 14.646324549237171,
	"eval_accuracy": 0.9899421402692911,
	"eval_f1": 0.948729792147806,
	"eval_loss": 0.050602879375219345,
	"eval_precision": 0.9435002296738632,
	"eval_recall": 0.9540176497909894,
	"eval_runtime": 36.205,
	"eval_samples_per_second": 5.496,
	"eval_steps_per_second": 1.381,
	"step": 1320
	},
	{
	"epoch": 14.812760055478503,
	"grad_norm": 1.6362483501434326,
	"learning_rate": 5.550000000000001e-06,
	"loss": 0.0211,
	"step": 1335
	},
	{
	"epoch": 14.812760055478503,
	"eval_accuracy": 0.9903206618720597,
	"eval_f1": 0.9491682070240296,
	"eval_loss": 0.050954435020685196,
	"eval_precision": 0.944367816091954,
	"eval_recall": 0.9540176497909894,
	"eval_runtime": 36.469,
	"eval_samples_per_second": 5.457,
	"eval_steps_per_second": 1.371,
	"step": 1335
	},
	{
	"epoch": 14.979195561719834,
	"grad_norm": 0.9267581105232239,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.0171,
	"step": 1350
	},
	{
	"epoch": 14.979195561719834,
	"eval_accuracy": 0.9897799167252473,
	"eval_f1": 0.9474412171507607,
	"eval_loss": 0.04994847625494003,
	"eval_precision": 0.9405034324942791,
	"eval_recall": 0.9544821179749187,
	"eval_runtime": 36.7159,
	"eval_samples_per_second": 5.42,
	"eval_steps_per_second": 1.362,
	"step": 1350
	},
	{
	"epoch": 15.145631067961165,
	"grad_norm": 0.6142176389694214,
	"learning_rate": 5.450000000000001e-06,
	"loss": 0.0226,
	"step": 1365
	},
	{
	"epoch": 15.145631067961165,
	"eval_accuracy": 0.9894013951224788,
	"eval_f1": 0.9452369995398067,
	"eval_loss": 0.05113999918103218,
	"eval_precision": 0.9366165070679434,
	"eval_recall": 0.9540176497909894,
	"eval_runtime": 36.247,
	"eval_samples_per_second": 5.49,
	"eval_steps_per_second": 1.379,
	"step": 1365
	},
	{
	"epoch": 15.312066574202497,
	"grad_norm": 0.46341672539711,
	"learning_rate": 5.400000000000001e-06,
	"loss": 0.024,
	"step": 1380
	},
	{
	"epoch": 15.312066574202497,
	"eval_accuracy": 0.9899421402692911,
	"eval_f1": 0.9501385041551247,
	"eval_loss": 0.04835886508226395,
	"eval_precision": 0.9444699403396053,
	"eval_recall": 0.9558755225267069,
	"eval_runtime": 35.8678,
	"eval_samples_per_second": 5.548,
	"eval_steps_per_second": 1.394,
	"step": 1380
	},
	{
	"epoch": 15.478502080443828,
	"grad_norm": 1.446049690246582,
	"learning_rate": 5.3500000000000004e-06,
	"loss": 0.018,
	"step": 1395
	},
	{
	"epoch": 15.478502080443828,
	"eval_accuracy": 0.9903206618720597,
	"eval_f1": 0.9492703266157054,
	"eval_loss": 0.04823274910449982,
	"eval_precision": 0.9468576709796673,
	"eval_recall": 0.9516953088713423,
	"eval_runtime": 35.9765,
	"eval_samples_per_second": 5.531,
	"eval_steps_per_second": 1.39,
	"step": 1395
	},
	{
	"epoch": 15.64493758668516,
	"grad_norm": 0.7485630512237549,
	"learning_rate": 5.300000000000001e-06,
	"loss": 0.0191,
	"step": 1410
	},
	{
	"epoch": 15.64493758668516,
	"eval_accuracy": 0.9899421402692911,
	"eval_f1": 0.947709393799167,
	"eval_loss": 0.04913439229130745,
	"eval_precision": 0.9442139234670355,
	"eval_recall": 0.9512308406874129,
	"eval_runtime": 36.5589,
	"eval_samples_per_second": 5.443,
	"eval_steps_per_second": 1.368,
	"step": 1410
	},
	{
	"epoch": 15.811373092926491,
	"grad_norm": 0.8376514911651611,
	"learning_rate": 5.2500000000000006e-06,
	"loss": 0.0203,
	"step": 1425
	},
	{
	"epoch": 15.811373092926491,
	"eval_accuracy": 0.9912399286216407,
	"eval_f1": 0.9531974050046339,
	"eval_loss": 0.04510456323623657,
	"eval_precision": 0.9509939898289412,
	"eval_recall": 0.9554110543427775,
	"eval_runtime": 36.8157,
	"eval_samples_per_second": 5.405,
	"eval_steps_per_second": 1.358,
	"step": 1425
	},
	{
	"epoch": 15.977808599167822,
	"grad_norm": 1.1797449588775635,
	"learning_rate": 5.2e-06,
	"loss": 0.0198,
	"step": 1440
	},
	{
	"epoch": 15.977808599167822,
	"eval_accuracy": 0.9911317795922782,
	"eval_f1": 0.952292728114868,
	"eval_loss": 0.04465332254767418,
	"eval_precision": 0.9496535796766744,
	"eval_recall": 0.9549465861588481,
	"eval_runtime": 36.3506,
	"eval_samples_per_second": 5.474,
	"eval_steps_per_second": 1.375,
	"step": 1440
	},
	{
	"epoch": 16.144244105409154,
	"grad_norm": 2.32300066947937,
	"learning_rate": 5.150000000000001e-06,
	"loss": 0.0167,
	"step": 1455
	},
	{
	"epoch": 16.144244105409154,
	"eval_accuracy": 0.9909154815335532,
	"eval_f1": 0.9513663733209818,
	"eval_loss": 0.044419851154088974,
	"eval_precision": 0.948729792147806,
	"eval_recall": 0.9540176497909894,
	"eval_runtime": 36.4511,
	"eval_samples_per_second": 5.459,
	"eval_steps_per_second": 1.372,
	"step": 1455
	},
	{
	"epoch": 16.310679611650485,
	"grad_norm": 1.4079307317733765,
	"learning_rate": 5.1e-06,
	"loss": 0.0178,
	"step": 1470
	},
	{
	"epoch": 16.310679611650485,
	"eval_accuracy": 0.9891850970637539,
	"eval_f1": 0.9448673587081892,
	"eval_loss": 0.05134458467364311,
	"eval_precision": 0.9385884509624198,
	"eval_recall": 0.9512308406874129,
	"eval_runtime": 35.9882,
	"eval_samples_per_second": 5.53,
	"eval_steps_per_second": 1.389,
	"step": 1470
	},
	{
	"epoch": 16.477115117891817,
	"grad_norm": 1.1276496648788452,
	"learning_rate": 5.050000000000001e-06,
	"loss": 0.024,
	"step": 1485
	},
	{
	"epoch": 16.477115117891817,
	"eval_accuracy": 0.9899421402692911,
	"eval_f1": 0.9482678983833718,
	"eval_loss": 0.0502447672188282,
	"eval_precision": 0.9430408819476344,
	"eval_recall": 0.9535531816070599,
	"eval_runtime": 36.2001,
	"eval_samples_per_second": 5.497,
	"eval_steps_per_second": 1.381,
	"step": 1485
	},
	{
	"epoch": 16.643550624133148,
	"grad_norm": 1.1420115232467651,
	"learning_rate": 5e-06,
	"loss": 0.0206,
	"step": 1500
	},
	{
	"epoch": 16.643550624133148,
	"eval_accuracy": 0.9907532579895095,
	"eval_f1": 0.9513888888888888,
	"eval_loss": 0.045851416885852814,
	"eval_precision": 0.9483156437471159,
	"eval_recall": 0.9544821179749187,
	"eval_runtime": 36.0375,
	"eval_samples_per_second": 5.522,
	"eval_steps_per_second": 1.387,
	"step": 1500
	},
	{
	"epoch": 16.80998613037448,
	"grad_norm": 0.6803048849105835,
	"learning_rate": 4.95e-06,
	"loss": 0.0188,
	"step": 1515
	},
	{
	"epoch": 16.80998613037448,
	"eval_accuracy": 0.9906451089601471,
	"eval_f1": 0.9507058551261283,
	"eval_loss": 0.04693201929330826,
	"eval_precision": 0.9474169741697417,
	"eval_recall": 0.9540176497909894,
	"eval_runtime": 36.4292,
	"eval_samples_per_second": 5.463,
	"eval_steps_per_second": 1.373,
	"step": 1515
	},
	{
	"epoch": 16.97642163661581,
	"grad_norm": 0.6494084000587463,
	"learning_rate": 4.9000000000000005e-06,
	"loss": 0.016,
	"step": 1530
	},
	{
	"epoch": 16.97642163661581,
	"eval_accuracy": 0.9905910344454658,
	"eval_f1": 0.9524469067405354,
	"eval_loss": 0.04632224142551422,
	"eval_precision": 0.9467645709040844,
	"eval_recall": 0.9581978634463539,
	"eval_runtime": 36.8269,
	"eval_samples_per_second": 5.404,
	"eval_steps_per_second": 1.358,
	"step": 1530
	},
	{
	"epoch": 17.142857142857142,
	"grad_norm": 0.9313808083534241,
	"learning_rate": 4.85e-06,
	"loss": 0.0161,
	"step": 1545
	},
	{
	"epoch": 17.142857142857142,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9555966697502312,
	"eval_loss": 0.045460253953933716,
	"eval_precision": 0.9516351911561493,
	"eval_recall": 0.9595912679981421,
	"eval_runtime": 36.5267,
	"eval_samples_per_second": 5.448,
	"eval_steps_per_second": 1.369,
	"step": 1545
	},
	{
	"epoch": 17.309292649098474,
	"grad_norm": 0.6977990865707397,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.0135,
	"step": 1560
	},
	{
	"epoch": 17.309292649098474,
	"eval_accuracy": 0.9909154815335532,
	"eval_f1": 0.9548297428769978,
	"eval_loss": 0.04745380952954292,
	"eval_precision": 0.9524029574861368,
	"eval_recall": 0.9572689270784951,
	"eval_runtime": 36.396,
	"eval_samples_per_second": 5.468,
	"eval_steps_per_second": 1.374,
	"step": 1560
	},
	{
	"epoch": 17.475728155339805,
	"grad_norm": 0.7467624545097351,
	"learning_rate": 4.75e-06,
	"loss": 0.0148,
	"step": 1575
	},
	{
	"epoch": 17.475728155339805,
	"eval_accuracy": 0.9904828854161034,
	"eval_f1": 0.9491916859122401,
	"eval_loss": 0.047850631177425385,
	"eval_precision": 0.9439595774000918,
	"eval_recall": 0.9544821179749187,
	"eval_runtime": 36.2126,
	"eval_samples_per_second": 5.495,
	"eval_steps_per_second": 1.381,
	"step": 1575
	},
	{
	"epoch": 17.642163661581137,
	"grad_norm": 0.7804221510887146,
	"learning_rate": 4.7e-06,
	"loss": 0.0173,
	"step": 1590
	},
	{
	"epoch": 17.642163661581137,
	"eval_accuracy": 0.9915103011950468,
	"eval_f1": 0.9571858366118954,
	"eval_loss": 0.04551170393824577,
	"eval_precision": 0.9538745387453874,
	"eval_recall": 0.9605202043660009,
	"eval_runtime": 36.006,
	"eval_samples_per_second": 5.527,
	"eval_steps_per_second": 1.389,
	"step": 1590
	},
	{
	"epoch": 17.808599167822468,
	"grad_norm": 1.0907295942306519,
	"learning_rate": 4.65e-06,
	"loss": 0.0173,
	"step": 1605
	},
	{
	"epoch": 17.808599167822468,
	"eval_accuracy": 0.9913480776510031,
	"eval_f1": 0.9514338575393155,
	"eval_loss": 0.04557771980762482,
	"eval_precision": 0.9474896361123906,
	"eval_recall": 0.9554110543427775,
	"eval_runtime": 36.2064,
	"eval_samples_per_second": 5.496,
	"eval_steps_per_second": 1.381,
	"step": 1605
	},
	{
	"epoch": 17.9750346740638,
	"grad_norm": 1.295432209968567,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.0185,
	"step": 1620
	},
	{
	"epoch": 17.9750346740638,
	"eval_accuracy": 0.9907532579895095,
	"eval_f1": 0.9537465309898243,
	"eval_loss": 0.04614636301994324,
	"eval_precision": 0.9497927222478121,
	"eval_recall": 0.9577333952624245,
	"eval_runtime": 36.269,
	"eval_samples_per_second": 5.487,
	"eval_steps_per_second": 1.379,
	"step": 1620
	},
	{
	"epoch": 18.14147018030513,
	"grad_norm": 1.0728676319122314,
	"learning_rate": 4.5500000000000005e-06,
	"loss": 0.0153,
	"step": 1635
	},
	{
	"epoch": 18.14147018030513,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9547553093259464,
	"eval_loss": 0.04719853028655052,
	"eval_precision": 0.9490592014685636,
	"eval_recall": 0.9605202043660009,
	"eval_runtime": 36.7621,
	"eval_samples_per_second": 5.413,
	"eval_steps_per_second": 1.36,
	"step": 1635
	},
	{
	"epoch": 18.307905686546462,
	"grad_norm": 0.848417341709137,
	"learning_rate": 4.5e-06,
	"loss": 0.0148,
	"step": 1650
	},
	{
	"epoch": 18.307905686546462,
	"eval_accuracy": 0.9913480776510031,
	"eval_f1": 0.9546716003700277,
	"eval_loss": 0.04460978880524635,
	"eval_precision": 0.9507139567019807,
	"eval_recall": 0.9586623316302834,
	"eval_runtime": 36.6036,
	"eval_samples_per_second": 5.437,
	"eval_steps_per_second": 1.366,
	"step": 1650
	},
	{
	"epoch": 18.474341192787794,
	"grad_norm": 0.8914014101028442,
	"learning_rate": 4.450000000000001e-06,
	"loss": 0.0136,
	"step": 1665
	},
	{
	"epoch": 18.474341192787794,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9542936288088641,
	"eval_loss": 0.044093821197748184,
	"eval_precision": 0.9486002753556677,
	"eval_recall": 0.9600557361820715,
	"eval_runtime": 36.4626,
	"eval_samples_per_second": 5.458,
	"eval_steps_per_second": 1.371,
	"step": 1665
	},
	{
	"epoch": 18.640776699029125,
	"grad_norm": 1.768336534500122,
	"learning_rate": 4.4e-06,
	"loss": 0.0185,
	"step": 1680
	},
	{
	"epoch": 18.640776699029125,
	"eval_accuracy": 0.9914562266803656,
	"eval_f1": 0.9550509731232623,
	"eval_loss": 0.047818973660469055,
	"eval_precision": 0.9528432732316228,
	"eval_recall": 0.9572689270784951,
	"eval_runtime": 35.9606,
	"eval_samples_per_second": 5.534,
	"eval_steps_per_second": 1.39,
	"step": 1680
	},
	{
	"epoch": 18.807212205270456,
	"grad_norm": 0.8891735672950745,
	"learning_rate": 4.353333333333334e-06,
	"loss": 0.0147,
	"step": 1695
	},
	{
	"epoch": 18.807212205270456,
	"eval_accuracy": 0.9911858541069594,
	"eval_f1": 0.9582660825455385,
	"eval_loss": 0.04927229881286621,
	"eval_precision": 0.9514652014652014,
	"eval_recall": 0.965164886205295,
	"eval_runtime": 36.0431,
	"eval_samples_per_second": 5.521,
	"eval_steps_per_second": 1.387,
	"step": 1695
	},
	{
	"epoch": 18.973647711511788,
	"grad_norm": 0.860618531703949,
	"learning_rate": 4.303333333333334e-06,
	"loss": 0.0156,
	"step": 1710
	},
	{
	"epoch": 18.973647711511788,
	"eval_accuracy": 0.9902665873573785,
	"eval_f1": 0.9491916859122401,
	"eval_loss": 0.05092372000217438,
	"eval_precision": 0.9439595774000918,
	"eval_recall": 0.9544821179749187,
	"eval_runtime": 36.549,
	"eval_samples_per_second": 5.445,
	"eval_steps_per_second": 1.368,
	"step": 1710
	},
	{
	"epoch": 19.14008321775312,
	"grad_norm": 0.4298454821109772,
	"learning_rate": 4.253333333333334e-06,
	"loss": 0.0113,
	"step": 1725
	},
	{
	"epoch": 19.14008321775312,
	"eval_accuracy": 0.9911317795922782,
	"eval_f1": 0.9566024599675098,
	"eval_loss": 0.046022918075323105,
	"eval_precision": 0.9559369202226345,
	"eval_recall": 0.9572689270784951,
	"eval_runtime": 36.802,
	"eval_samples_per_second": 5.407,
	"eval_steps_per_second": 1.359,
	"step": 1725
	},
	{
	"epoch": 19.30651872399445,
	"grad_norm": 0.7119155526161194,
	"learning_rate": 4.2033333333333335e-06,
	"loss": 0.014,
	"step": 1740
	},
	{
	"epoch": 19.30651872399445,
	"eval_accuracy": 0.9904828854161034,
	"eval_f1": 0.948220064724919,
	"eval_loss": 0.04928451031446457,
	"eval_precision": 0.9438564196962724,
	"eval_recall": 0.9526242452392011,
	"eval_runtime": 36.4604,
	"eval_samples_per_second": 5.458,
	"eval_steps_per_second": 1.371,
	"step": 1740
	},
	{
	"epoch": 19.472954230235782,
	"grad_norm": 0.6270649433135986,
	"learning_rate": 4.153333333333334e-06,
	"loss": 0.0147,
	"step": 1755
	},
	{
	"epoch": 19.472954230235782,
	"eval_accuracy": 0.9906451089601471,
	"eval_f1": 0.9521608504737693,
	"eval_loss": 0.04984944686293602,
	"eval_precision": 0.9475620975160993,
	"eval_recall": 0.9568044588945657,
	"eval_runtime": 36.1824,
	"eval_samples_per_second": 5.5,
	"eval_steps_per_second": 1.382,
	"step": 1755
	},
	{
	"epoch": 19.639389736477114,
	"grad_norm": 0.9536636471748352,
	"learning_rate": 4.1033333333333336e-06,
	"loss": 0.0126,
	"step": 1770
	},
	{
	"epoch": 19.639389736477114,
	"eval_accuracy": 0.9905910344454658,
	"eval_f1": 0.9502199583236861,
	"eval_loss": 0.04928808659315109,
	"eval_precision": 0.9473684210526315,
	"eval_recall": 0.9530887134231305,
	"eval_runtime": 36.346,
	"eval_samples_per_second": 5.475,
	"eval_steps_per_second": 1.376,
	"step": 1770
	},
	{
	"epoch": 19.805825242718445,
	"grad_norm": 2.24277925491333,
	"learning_rate": 4.053333333333333e-06,
	"loss": 0.0167,
	"step": 1785
	},
	{
	"epoch": 19.805825242718445,
	"eval_accuracy": 0.9903747363867409,
	"eval_f1": 0.9519852262234534,
	"eval_loss": 0.04912427067756653,
	"eval_precision": 0.9463056447911886,
	"eval_recall": 0.9577333952624245,
	"eval_runtime": 36.3829,
	"eval_samples_per_second": 5.47,
	"eval_steps_per_second": 1.374,
	"step": 1785
	},
	{
	"epoch": 19.972260748959776,
	"grad_norm": 1.1929985284805298,
	"learning_rate": 4.003333333333334e-06,
	"loss": 0.0126,
	"step": 1800
	},
	{
	"epoch": 19.972260748959776,
	"eval_accuracy": 0.9907532579895095,
	"eval_f1": 0.9515867500579105,
	"eval_loss": 0.04741891101002693,
	"eval_precision": 0.9491682070240296,
	"eval_recall": 0.9540176497909894,
	"eval_runtime": 36.3224,
	"eval_samples_per_second": 5.479,
	"eval_steps_per_second": 1.377,
	"step": 1800
	},
	{
	"epoch": 20.13869625520111,
	"grad_norm": 0.5980396866798401,
	"learning_rate": 3.953333333333333e-06,
	"loss": 0.0107,
	"step": 1815
	},
	{
	"epoch": 20.13869625520111,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9550717924965262,
	"eval_loss": 0.04617602005600929,
	"eval_precision": 0.9524249422632795,
	"eval_recall": 0.9577333952624245,
	"eval_runtime": 36.2289,
	"eval_samples_per_second": 5.493,
	"eval_steps_per_second": 1.38,
	"step": 1815
	},
	{
	"epoch": 20.305131761442443,
	"grad_norm": 0.5774451494216919,
	"learning_rate": 3.903333333333334e-06,
	"loss": 0.0115,
	"step": 1830
	},
	{
	"epoch": 20.305131761442443,
	"eval_accuracy": 0.9911317795922782,
	"eval_f1": 0.9558993304086816,
	"eval_loss": 0.048068635165691376,
	"eval_precision": 0.9504132231404959,
	"eval_recall": 0.9614491407338597,
	"eval_runtime": 36.6091,
	"eval_samples_per_second": 5.436,
	"eval_steps_per_second": 1.366,
	"step": 1830
	},
	{
	"epoch": 20.471567267683774,
	"grad_norm": 0.8061049580574036,
	"learning_rate": 3.853333333333334e-06,
	"loss": 0.0128,
	"step": 1845
	},
	{
	"epoch": 20.471567267683774,
	"eval_accuracy": 0.9906991834748283,
	"eval_f1": 0.951918631530282,
	"eval_loss": 0.04859815165400505,
	"eval_precision": 0.9475379659456972,
	"eval_recall": 0.9563399907106364,
	"eval_runtime": 36.2061,
	"eval_samples_per_second": 5.496,
	"eval_steps_per_second": 1.381,
	"step": 1845
	},
	{
	"epoch": 20.638002773925106,
	"grad_norm": 0.5735962986946106,
	"learning_rate": 3.803333333333334e-06,
	"loss": 0.0113,
	"step": 1860
	},
	{
	"epoch": 20.638002773925106,
	"eval_accuracy": 0.9910236305629156,
	"eval_f1": 0.9533702677746998,
	"eval_loss": 0.04910165071487427,
	"eval_precision": 0.947682423129876,
	"eval_recall": 0.9591267998142127,
	"eval_runtime": 36.2871,
	"eval_samples_per_second": 5.484,
	"eval_steps_per_second": 1.378,
	"step": 1860
	},
	{
	"epoch": 20.804438280166437,
	"grad_norm": 0.5703373551368713,
	"learning_rate": 3.753333333333334e-06,
	"loss": 0.0119,
	"step": 1875
	},
	{
	"epoch": 20.804438280166437,
	"eval_accuracy": 0.9901043638133348,
	"eval_f1": 0.9498607242339832,
	"eval_loss": 0.05141424015164375,
	"eval_precision": 0.9494199535962877,
	"eval_recall": 0.9503019043195541,
	"eval_runtime": 36.2237,
	"eval_samples_per_second": 5.494,
	"eval_steps_per_second": 1.38,
	"step": 1875
	},
	{
	"epoch": 20.97087378640777,
	"grad_norm": 0.8812251091003418,
	"learning_rate": 3.7033333333333336e-06,
	"loss": 0.0122,
	"step": 1890
	},
	{
	"epoch": 20.97087378640777,
	"eval_accuracy": 0.9911317795922782,
	"eval_f1": 0.9535903948279844,
	"eval_loss": 0.04799521341919899,
	"eval_precision": 0.94811753902663,
	"eval_recall": 0.9591267998142127,
	"eval_runtime": 36.3818,
	"eval_samples_per_second": 5.47,
	"eval_steps_per_second": 1.374,
	"step": 1890
	},
	{
	"epoch": 21.1373092926491,
	"grad_norm": 0.729183554649353,
	"learning_rate": 3.6533333333333336e-06,
	"loss": 0.0123,
	"step": 1905
	},
	{
	"epoch": 21.1373092926491,
	"eval_accuracy": 0.9909154815335532,
	"eval_f1": 0.9522050334795659,
	"eval_loss": 0.04769909009337425,
	"eval_precision": 0.9467401285583104,
	"eval_recall": 0.9577333952624245,
	"eval_runtime": 36.5345,
	"eval_samples_per_second": 5.447,
	"eval_steps_per_second": 1.369,
	"step": 1905
	},
	{
	"epoch": 21.30374479889043,
	"grad_norm": 0.3428969085216522,
	"learning_rate": 3.6033333333333337e-06,
	"loss": 0.0116,
	"step": 1920
	},
	{
	"epoch": 21.30374479889043,
	"eval_accuracy": 0.9910236305629156,
	"eval_f1": 0.9533271719038817,
	"eval_loss": 0.04861655458807945,
	"eval_precision": 0.9485057471264368,
	"eval_recall": 0.9581978634463539,
	"eval_runtime": 36.8199,
	"eval_samples_per_second": 5.405,
	"eval_steps_per_second": 1.358,
	"step": 1920
	},
	{
	"epoch": 21.470180305131763,
	"grad_norm": 0.4823513925075531,
	"learning_rate": 3.5533333333333338e-06,
	"loss": 0.0108,
	"step": 1935
	},
	{
	"epoch": 21.470180305131763,
	"eval_accuracy": 0.9904828854161034,
	"eval_f1": 0.9511295527893039,
	"eval_loss": 0.048778366297483444,
	"eval_precision": 0.9441647597254005,
	"eval_recall": 0.9581978634463539,
	"eval_runtime": 36.5655,
	"eval_samples_per_second": 5.442,
	"eval_steps_per_second": 1.367,
	"step": 1935
	},
	{
	"epoch": 21.636615811373094,
	"grad_norm": 0.3686061203479767,
	"learning_rate": 3.5033333333333334e-06,
	"loss": 0.0115,
	"step": 1950
	},
	{
	"epoch": 21.636615811373094,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9542302357836339,
	"eval_loss": 0.04717012122273445,
	"eval_precision": 0.9498389323515877,
	"eval_recall": 0.9586623316302834,
	"eval_runtime": 36.5437,
	"eval_samples_per_second": 5.446,
	"eval_steps_per_second": 1.368,
	"step": 1950
	},
	{
	"epoch": 21.803051317614425,
	"grad_norm": 1.0370802879333496,
	"learning_rate": 3.4533333333333334e-06,
	"loss": 0.0083,
	"step": 1965
	},
	{
	"epoch": 21.803051317614425,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.954272517321016,
	"eval_loss": 0.04759324714541435,
	"eval_precision": 0.9490124023886082,
	"eval_recall": 0.9595912679981421,
	"eval_runtime": 36.2291,
	"eval_samples_per_second": 5.493,
	"eval_steps_per_second": 1.38,
	"step": 1965
	},
	{
	"epoch": 21.969486823855757,
	"grad_norm": 1.2627676725387573,
	"learning_rate": 3.4033333333333335e-06,
	"loss": 0.0094,
	"step": 1980
	},
	{
	"epoch": 21.969486823855757,
	"eval_accuracy": 0.990861407018872,
	"eval_f1": 0.9543147208121827,
	"eval_loss": 0.047525253146886826,
	"eval_precision": 0.948188904172398,
	"eval_recall": 0.9605202043660009,
	"eval_runtime": 36.2268,
	"eval_samples_per_second": 5.493,
	"eval_steps_per_second": 1.38,
	"step": 1980
	},
	{
	"epoch": 22.135922330097088,
	"grad_norm": 0.2426026463508606,
	"learning_rate": 3.3533333333333336e-06,
	"loss": 0.0118,
	"step": 1995
	},
	{
	"epoch": 22.135922330097088,
	"eval_accuracy": 0.9904288109014222,
	"eval_f1": 0.9501154734411085,
	"eval_loss": 0.049215689301490784,
	"eval_precision": 0.9448782728525493,
	"eval_recall": 0.9554110543427775,
	"eval_runtime": 36.1992,
	"eval_samples_per_second": 5.497,
	"eval_steps_per_second": 1.381,
	"step": 1995
	},
	{
	"epoch": 22.30235783633842,
	"grad_norm": 0.6006263494491577,
	"learning_rate": 3.303333333333333e-06,
	"loss": 0.01,
	"step": 2010
	},
	{
	"epoch": 22.30235783633842,
	"eval_accuracy": 0.990861407018872,
	"eval_f1": 0.9523148148148148,
	"eval_loss": 0.048562802374362946,
	"eval_precision": 0.949238578680203,
	"eval_recall": 0.9554110543427775,
	"eval_runtime": 36.2887,
	"eval_samples_per_second": 5.484,
	"eval_steps_per_second": 1.378,
	"step": 2010
	},
	{
	"epoch": 22.46879334257975,
	"grad_norm": 0.7383334040641785,
	"learning_rate": 3.2533333333333332e-06,
	"loss": 0.0114,
	"step": 2025
	},
	{
	"epoch": 22.46879334257975,
	"eval_accuracy": 0.9910236305629156,
	"eval_f1": 0.9539671524404348,
	"eval_loss": 0.04967198148369789,
	"eval_precision": 0.9502304147465438,
	"eval_recall": 0.9577333952624245,
	"eval_runtime": 36.3824,
	"eval_samples_per_second": 5.47,
	"eval_steps_per_second": 1.374,
	"step": 2025
	},
	{
	"epoch": 22.635228848821082,
	"grad_norm": 0.5105836987495422,
	"learning_rate": 3.2033333333333337e-06,
	"loss": 0.0091,
	"step": 2040
	},
	{
	"epoch": 22.635228848821082,
	"eval_accuracy": 0.9909695560482344,
	"eval_f1": 0.954209065679926,
	"eval_loss": 0.049895454198122025,
	"eval_precision": 0.9502533394748963,
	"eval_recall": 0.9581978634463539,
	"eval_runtime": 36.2966,
	"eval_samples_per_second": 5.483,
	"eval_steps_per_second": 1.378,
	"step": 2040
	},
	{
	"epoch": 22.801664355062414,
	"grad_norm": 0.8460143804550171,
	"learning_rate": 3.1533333333333338e-06,
	"loss": 0.0077,
	"step": 2055
	},
	{
	"epoch": 22.801664355062414,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9563409563409564,
	"eval_loss": 0.05023453012108803,
	"eval_precision": 0.9512867647058824,
	"eval_recall": 0.9614491407338597,
	"eval_runtime": 36.5792,
	"eval_samples_per_second": 5.44,
	"eval_steps_per_second": 1.367,
	"step": 2055
	},
	{
	"epoch": 22.968099861303745,
	"grad_norm": 0.46876421570777893,
	"learning_rate": 3.103333333333334e-06,
	"loss": 0.01,
	"step": 2070
	},
	{
	"epoch": 22.968099861303745,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9586127167630057,
	"eval_loss": 0.05132585018873215,
	"eval_precision": 0.9544198895027625,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 36.5943,
	"eval_samples_per_second": 5.438,
	"eval_steps_per_second": 1.366,
	"step": 2070
	},
	{
	"epoch": 23.134535367545077,
	"grad_norm": 0.26761332154273987,
	"learning_rate": 3.053333333333334e-06,
	"loss": 0.0087,
	"step": 2085
	},
	{
	"epoch": 23.134535367545077,
	"eval_accuracy": 0.9911858541069594,
	"eval_f1": 0.9554375432925422,
	"eval_loss": 0.04853161796927452,
	"eval_precision": 0.9499540863177227,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 36.2471,
	"eval_samples_per_second": 5.49,
	"eval_steps_per_second": 1.379,
	"step": 2085
	},
	{
	"epoch": 23.300970873786408,
	"grad_norm": 0.32841914892196655,
	"learning_rate": 3.0033333333333335e-06,
	"loss": 0.0073,
	"step": 2100
	},
	{
	"epoch": 23.300970873786408,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.959278111985192,
	"eval_loss": 0.04846283420920372,
	"eval_precision": 0.9557399723374828,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 36.0113,
	"eval_samples_per_second": 5.526,
	"eval_steps_per_second": 1.388,
	"step": 2100
	},
	{
	"epoch": 23.46740638002774,
	"grad_norm": 0.3114074766635895,
	"learning_rate": 2.9533333333333336e-06,
	"loss": 0.0083,
	"step": 2115
	},
	{
	"epoch": 23.46740638002774,
	"eval_accuracy": 0.9913480776510031,
	"eval_f1": 0.957205644228545,
	"eval_loss": 0.04847896471619606,
	"eval_precision": 0.9534562211981567,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 36.2766,
	"eval_samples_per_second": 5.486,
	"eval_steps_per_second": 1.378,
	"step": 2115
	},
	{
	"epoch": 23.63384188626907,
	"grad_norm": 0.815006673336029,
	"learning_rate": 2.9033333333333336e-06,
	"loss": 0.0117,
	"step": 2130
	},
	{
	"epoch": 23.63384188626907,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9590372598935432,
	"eval_loss": 0.04786692187190056,
	"eval_precision": 0.955719557195572,
	"eval_recall": 0.9623780771017185,
	"eval_runtime": 36.5057,
	"eval_samples_per_second": 5.451,
	"eval_steps_per_second": 1.37,
	"step": 2130
	},
	{
	"epoch": 23.800277392510402,
	"grad_norm": 0.34551236033439636,
	"learning_rate": 2.8533333333333337e-06,
	"loss": 0.0095,
	"step": 2145
	},
	{
	"epoch": 23.800277392510402,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9542302357836339,
	"eval_loss": 0.05084284767508507,
	"eval_precision": 0.9498389323515877,
	"eval_recall": 0.9586623316302834,
	"eval_runtime": 36.5022,
	"eval_samples_per_second": 5.452,
	"eval_steps_per_second": 1.37,
	"step": 2145
	},
	{
	"epoch": 23.966712898751734,
	"grad_norm": 0.988761305809021,
	"learning_rate": 2.8033333333333333e-06,
	"loss": 0.009,
	"step": 2160
	},
	{
	"epoch": 23.966712898751734,
	"eval_accuracy": 0.9909695560482344,
	"eval_f1": 0.9559603412497119,
	"eval_loss": 0.051338665187358856,
	"eval_precision": 0.9491758241758241,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 36.4961,
	"eval_samples_per_second": 5.453,
	"eval_steps_per_second": 1.37,
	"step": 2160
	},
	{
	"epoch": 24.133148404993065,
	"grad_norm": 0.20439928770065308,
	"learning_rate": 2.7533333333333334e-06,
	"loss": 0.0077,
	"step": 2175
	},
	{
	"epoch": 24.133148404993065,
	"eval_accuracy": 0.9915103011950468,
	"eval_f1": 0.9590562109646079,
	"eval_loss": 0.050405893474817276,
	"eval_precision": 0.9552995391705069,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 36.5792,
	"eval_samples_per_second": 5.44,
	"eval_steps_per_second": 1.367,
	"step": 2175
	},
	{
	"epoch": 24.299583911234397,
	"grad_norm": 0.6065575480461121,
	"learning_rate": 2.7033333333333334e-06,
	"loss": 0.0087,
	"step": 2190
	},
	{
	"epoch": 24.299583911234397,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9565418400369857,
	"eval_loss": 0.04999900609254837,
	"eval_precision": 0.9521398987574782,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 36.2889,
	"eval_samples_per_second": 5.484,
	"eval_steps_per_second": 1.378,
	"step": 2190
	},
	{
	"epoch": 24.466019417475728,
	"grad_norm": 0.4505390226840973,
	"learning_rate": 2.6533333333333335e-06,
	"loss": 0.0068,
	"step": 2205
	},
	{
	"epoch": 24.466019417475728,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9574271170754282,
	"eval_loss": 0.05055619403719902,
	"eval_precision": 0.9538958045182112,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.8763,
	"eval_samples_per_second": 5.547,
	"eval_steps_per_second": 1.394,
	"step": 2205
	},
	{
	"epoch": 24.63245492371706,
	"grad_norm": 0.2784092128276825,
	"learning_rate": 2.603333333333334e-06,
	"loss": 0.0094,
	"step": 2220
	},
	{
	"epoch": 24.63245492371706,
	"eval_accuracy": 0.9913480776510031,
	"eval_f1": 0.9549132947976879,
	"eval_loss": 0.050024211406707764,
	"eval_precision": 0.9507366482504604,
	"eval_recall": 0.9591267998142127,
	"eval_runtime": 36.3659,
	"eval_samples_per_second": 5.472,
	"eval_steps_per_second": 1.375,
	"step": 2220
	},
	{
	"epoch": 24.79889042995839,
	"grad_norm": 0.24667127430438995,
	"learning_rate": 2.5533333333333336e-06,
	"loss": 0.0088,
	"step": 2235
	},
	{
	"epoch": 24.79889042995839,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9551548774849746,
	"eval_loss": 0.048643559217453,
	"eval_precision": 0.9507593189139438,
	"eval_recall": 0.9595912679981421,
	"eval_runtime": 36.4912,
	"eval_samples_per_second": 5.453,
	"eval_steps_per_second": 1.37,
	"step": 2235
	},
	{
	"epoch": 24.965325936199722,
	"grad_norm": 0.10884588211774826,
	"learning_rate": 2.5033333333333336e-06,
	"loss": 0.0089,
	"step": 2250
	},
	{
	"epoch": 24.965325936199722,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9558789558789559,
	"eval_loss": 0.05070747807621956,
	"eval_precision": 0.9508272058823529,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 36.2816,
	"eval_samples_per_second": 5.485,
	"eval_steps_per_second": 1.378,
	"step": 2250
	},
	{
	"epoch": 25.131761442441054,
	"grad_norm": 0.6150490641593933,
	"learning_rate": 2.4533333333333333e-06,
	"loss": 0.0063,
	"step": 2265
	},
	{
	"epoch": 25.131761442441054,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9585360203845263,
	"eval_loss": 0.04789712280035019,
	"eval_precision": 0.9560998151571165,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 36.2469,
	"eval_samples_per_second": 5.49,
	"eval_steps_per_second": 1.379,
	"step": 2265
	},
	{
	"epoch": 25.298196948682385,
	"grad_norm": 0.7432591319084167,
	"learning_rate": 2.4033333333333338e-06,
	"loss": 0.0058,
	"step": 2280
	},
	{
	"epoch": 25.298196948682385,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9572452045296973,
	"eval_loss": 0.050580546259880066,
	"eval_precision": 0.952621895124195,
	"eval_recall": 0.9619136089177891,
	"eval_runtime": 36.4588,
	"eval_samples_per_second": 5.458,
	"eval_steps_per_second": 1.371,
	"step": 2280
	},
	{
	"epoch": 25.464632454923716,
	"grad_norm": 0.742586612701416,
	"learning_rate": 2.3533333333333334e-06,
	"loss": 0.0102,
	"step": 2295
	},
	{
	"epoch": 25.464632454923716,
	"eval_accuracy": 0.9912399286216407,
	"eval_f1": 0.9574861367837338,
	"eval_loss": 0.04992222413420677,
	"eval_precision": 0.9526436781609195,
	"eval_recall": 0.9623780771017185,
	"eval_runtime": 36.5208,
	"eval_samples_per_second": 5.449,
	"eval_steps_per_second": 1.369,
	"step": 2295
	},
	{
	"epoch": 25.631067961165048,
	"grad_norm": 0.9237321019172668,
	"learning_rate": 2.3033333333333334e-06,
	"loss": 0.0079,
	"step": 2310
	},
	{
	"epoch": 25.631067961165048,
	"eval_accuracy": 0.9905369599307846,
	"eval_f1": 0.9541368979027426,
	"eval_loss": 0.05427027493715286,
	"eval_precision": 0.9469350411710887,
	"eval_recall": 0.9614491407338597,
	"eval_runtime": 36.0226,
	"eval_samples_per_second": 5.524,
	"eval_steps_per_second": 1.388,
	"step": 2310
	},
	{
	"epoch": 25.79750346740638,
	"grad_norm": 0.2974264621734619,
	"learning_rate": 2.2533333333333335e-06,
	"loss": 0.009,
	"step": 2325
	},
	{
	"epoch": 25.79750346740638,
	"eval_accuracy": 0.9914562266803656,
	"eval_f1": 0.9572452045296973,
	"eval_loss": 0.049834854900836945,
	"eval_precision": 0.952621895124195,
	"eval_recall": 0.9619136089177891,
	"eval_runtime": 36.6625,
	"eval_samples_per_second": 5.428,
	"eval_steps_per_second": 1.364,
	"step": 2325
	},
	{
	"epoch": 25.96393897364771,
	"grad_norm": 0.6791291236877441,
	"learning_rate": 2.2033333333333336e-06,
	"loss": 0.0068,
	"step": 2340
	},
	{
	"epoch": 25.96393897364771,
	"eval_accuracy": 0.991077705077597,
	"eval_f1": 0.9563611175248211,
	"eval_loss": 0.05109778791666031,
	"eval_precision": 0.950872359963269,
	"eval_recall": 0.9619136089177891,
	"eval_runtime": 35.8655,
	"eval_samples_per_second": 5.549,
	"eval_steps_per_second": 1.394,
	"step": 2340
	},
	{
	"epoch": 26.130374479889042,
	"grad_norm": 0.5723872184753418,
	"learning_rate": 2.153333333333333e-06,
	"loss": 0.007,
	"step": 2355
	},
	{
	"epoch": 26.130374479889042,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9579676674364895,
	"eval_loss": 0.049178168177604675,
	"eval_precision": 0.9526871841984382,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.9503,
	"eval_samples_per_second": 5.535,
	"eval_steps_per_second": 1.391,
	"step": 2355
	},
	{
	"epoch": 26.296809986130373,
	"grad_norm": 0.3830583393573761,
	"learning_rate": 2.1033333333333337e-06,
	"loss": 0.0086,
	"step": 2370
	},
	{
	"epoch": 26.296809986130373,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9554375432925422,
	"eval_loss": 0.05156167596578598,
	"eval_precision": 0.9499540863177227,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.8417,
	"eval_samples_per_second": 5.552,
	"eval_steps_per_second": 1.395,
	"step": 2370
	},
	{
	"epoch": 26.463245492371705,
	"grad_norm": 0.14329634606838226,
	"learning_rate": 2.0533333333333337e-06,
	"loss": 0.0078,
	"step": 2385
	},
	{
	"epoch": 26.463245492371705,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9556581986143187,
	"eval_loss": 0.05027909576892853,
	"eval_precision": 0.9503904455672945,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.8472,
	"eval_samples_per_second": 5.551,
	"eval_steps_per_second": 1.395,
	"step": 2385
	},
	{
	"epoch": 26.629680998613036,
	"grad_norm": 0.17582757771015167,
	"learning_rate": 2.0033333333333334e-06,
	"loss": 0.0067,
	"step": 2400
	},
	{
	"epoch": 26.629680998613036,
	"eval_accuracy": 0.9915103011950468,
	"eval_f1": 0.9577269577269578,
	"eval_loss": 0.05140436813235283,
	"eval_precision": 0.9526654411764706,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 35.8691,
	"eval_samples_per_second": 5.548,
	"eval_steps_per_second": 1.394,
	"step": 2400
	},
	{
	"epoch": 26.796116504854368,
	"grad_norm": 0.6374102830886841,
	"learning_rate": 1.9533333333333334e-06,
	"loss": 0.0059,
	"step": 2415
	},
	{
	"epoch": 26.796116504854368,
	"eval_accuracy": 0.9918888227978154,
	"eval_f1": 0.9588344125809436,
	"eval_loss": 0.05035752058029175,
	"eval_precision": 0.9548595117457392,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 35.7794,
	"eval_samples_per_second": 5.562,
	"eval_steps_per_second": 1.397,
	"step": 2415
	},
	{
	"epoch": 26.9625520110957,
	"grad_norm": 0.5752395987510681,
	"learning_rate": 1.9033333333333335e-06,
	"loss": 0.0089,
	"step": 2430
	},
	{
	"epoch": 26.9625520110957,
	"eval_accuracy": 0.9916184502244092,
	"eval_f1": 0.9560795191863154,
	"eval_loss": 0.051971472799777985,
	"eval_precision": 0.9516797054763001,
	"eval_recall": 0.9605202043660009,
	"eval_runtime": 36.1279,
	"eval_samples_per_second": 5.508,
	"eval_steps_per_second": 1.384,
	"step": 2430
	},
	{
	"epoch": 27.12898751733703,
	"grad_norm": 0.40148672461509705,
	"learning_rate": 1.8533333333333333e-06,
	"loss": 0.0059,
	"step": 2445
	},
	{
	"epoch": 27.12898751733703,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9572649572649573,
	"eval_loss": 0.05115849897265434,
	"eval_precision": 0.9522058823529411,
	"eval_recall": 0.9623780771017185,
	"eval_runtime": 36.2324,
	"eval_samples_per_second": 5.492,
	"eval_steps_per_second": 1.38,
	"step": 2445
	},
	{
	"epoch": 27.295423023578362,
	"grad_norm": 0.19672174751758575,
	"learning_rate": 1.8033333333333336e-06,
	"loss": 0.0073,
	"step": 2460
	},
	{
	"epoch": 27.295423023578362,
	"eval_accuracy": 0.9916184502244092,
	"eval_f1": 0.9569842738205366,
	"eval_loss": 0.05259764939546585,
	"eval_precision": 0.9530170428374021,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 36.3768,
	"eval_samples_per_second": 5.471,
	"eval_steps_per_second": 1.375,
	"step": 2460
	},
	{
	"epoch": 27.461858529819693,
	"grad_norm": 1.178671956062317,
	"learning_rate": 1.7533333333333336e-06,
	"loss": 0.0065,
	"step": 2475
	},
	{
	"epoch": 27.461858529819693,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9577269577269578,
	"eval_loss": 0.052951879799366,
	"eval_precision": 0.9526654411764706,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 36.7573,
	"eval_samples_per_second": 5.414,
	"eval_steps_per_second": 1.36,
	"step": 2475
	},
	{
	"epoch": 27.628294036061025,
	"grad_norm": 0.8156425356864929,
	"learning_rate": 1.7033333333333335e-06,
	"loss": 0.0064,
	"step": 2490
	},
	{
	"epoch": 27.628294036061025,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.957205644228545,
	"eval_loss": 0.05146779865026474,
	"eval_precision": 0.9534562211981567,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.9308,
	"eval_samples_per_second": 5.538,
	"eval_steps_per_second": 1.392,
	"step": 2490
	},
	{
	"epoch": 27.794729542302356,
	"grad_norm": 0.4098323881626129,
	"learning_rate": 1.6533333333333335e-06,
	"loss": 0.0072,
	"step": 2505
	},
	{
	"epoch": 27.794729542302356,
	"eval_accuracy": 0.9906991834748283,
	"eval_f1": 0.9545559400230681,
	"eval_loss": 0.054223690181970596,
	"eval_precision": 0.9482126489459212,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.9196,
	"eval_samples_per_second": 5.54,
	"eval_steps_per_second": 1.392,
	"step": 2505
	},
	{
	"epoch": 27.96116504854369,
	"grad_norm": 0.5159748792648315,
	"learning_rate": 1.6033333333333334e-06,
	"loss": 0.0066,
	"step": 2520
	},
	{
	"epoch": 27.96116504854369,
	"eval_accuracy": 0.990861407018872,
	"eval_f1": 0.9549965381952458,
	"eval_loss": 0.05374361574649811,
	"eval_precision": 0.9490825688073394,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.7031,
	"eval_samples_per_second": 5.574,
	"eval_steps_per_second": 1.4,
	"step": 2520
	},
	{
	"epoch": 28.127600554785023,
	"grad_norm": 0.499012291431427,
	"learning_rate": 1.5533333333333334e-06,
	"loss": 0.006,
	"step": 2535
	},
	{
	"epoch": 28.127600554785023,
	"eval_accuracy": 0.9915103011950468,
	"eval_f1": 0.9579482439926063,
	"eval_loss": 0.05182594433426857,
	"eval_precision": 0.953103448275862,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 35.8174,
	"eval_samples_per_second": 5.556,
	"eval_steps_per_second": 1.396,
	"step": 2535
	},
	{
	"epoch": 28.294036061026354,
	"grad_norm": 0.5842483639717102,
	"learning_rate": 1.5033333333333337e-06,
	"loss": 0.0074,
	"step": 2550
	},
	{
	"epoch": 28.294036061026354,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9565418400369857,
	"eval_loss": 0.05230095610022545,
	"eval_precision": 0.9521398987574782,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.928,
	"eval_samples_per_second": 5.539,
	"eval_steps_per_second": 1.392,
	"step": 2550
	},
	{
	"epoch": 28.460471567267685,
	"grad_norm": 0.4897175431251526,
	"learning_rate": 1.4533333333333335e-06,
	"loss": 0.0068,
	"step": 2565
	},
	{
	"epoch": 28.460471567267685,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.955458112162474,
	"eval_loss": 0.05341142788529396,
	"eval_precision": 0.9495412844036697,
	"eval_recall": 0.9614491407338597,
	"eval_runtime": 36.0278,
	"eval_samples_per_second": 5.524,
	"eval_steps_per_second": 1.388,
	"step": 2565
	},
	{
	"epoch": 28.626907073509017,
	"grad_norm": 0.4191240668296814,
	"learning_rate": 1.4033333333333336e-06,
	"loss": 0.0055,
	"step": 2580
	},
	{
	"epoch": 28.626907073509017,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9583526145303101,
	"eval_loss": 0.05210199952125549,
	"eval_precision": 0.954817888427847,
	"eval_recall": 0.9619136089177891,
	"eval_runtime": 36.2636,
	"eval_samples_per_second": 5.488,
	"eval_steps_per_second": 1.379,
	"step": 2580
	},
	{
	"epoch": 28.793342579750348,
	"grad_norm": 0.6655350923538208,
	"learning_rate": 1.3533333333333334e-06,
	"loss": 0.0056,
	"step": 2595
	},
	{
	"epoch": 28.793342579750348,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9567829905246129,
	"eval_loss": 0.05259960889816284,
	"eval_precision": 0.952161913523459,
	"eval_recall": 0.9614491407338597,
	"eval_runtime": 36.0456,
	"eval_samples_per_second": 5.521,
	"eval_steps_per_second": 1.387,
	"step": 2595
	},
	{
	"epoch": 28.95977808599168,
	"grad_norm": 0.9510291814804077,
	"learning_rate": 1.3033333333333335e-06,
	"loss": 0.0066,
	"step": 2610
	},
	{
	"epoch": 28.95977808599168,
	"eval_accuracy": 0.9913480776510031,
	"eval_f1": 0.9570240295748613,
	"eval_loss": 0.05272991955280304,
	"eval_precision": 0.952183908045977,
	"eval_recall": 0.9619136089177891,
	"eval_runtime": 36.3753,
	"eval_samples_per_second": 5.471,
	"eval_steps_per_second": 1.375,
	"step": 2610
	},
	{
	"epoch": 29.12621359223301,
	"grad_norm": 0.33463072776794434,
	"learning_rate": 1.2533333333333333e-06,
	"loss": 0.0053,
	"step": 2625
	},
	{
	"epoch": 29.12621359223301,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9579482439926063,
	"eval_loss": 0.0533275306224823,
	"eval_precision": 0.953103448275862,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 35.8945,
	"eval_samples_per_second": 5.544,
	"eval_steps_per_second": 1.393,
	"step": 2625
	},
	{
	"epoch": 29.292649098474342,
	"grad_norm": 0.2936910092830658,
	"learning_rate": 1.2033333333333334e-06,
	"loss": 0.0063,
	"step": 2640
	},
	{
	"epoch": 29.292649098474342,
	"eval_accuracy": 0.9912940031363219,
	"eval_f1": 0.9569842738205366,
	"eval_loss": 0.05200694501399994,
	"eval_precision": 0.9530170428374021,
	"eval_recall": 0.9609846725499304,
	"eval_runtime": 35.7745,
	"eval_samples_per_second": 5.563,
	"eval_steps_per_second": 1.398,
	"step": 2640
	},
	{
	"epoch": 29.459084604715674,
	"grad_norm": 0.45608168840408325,
	"learning_rate": 1.1533333333333334e-06,
	"loss": 0.0059,
	"step": 2655
	},
	{
	"epoch": 29.459084604715674,
	"eval_accuracy": 0.9910236305629156,
	"eval_f1": 0.9554169554169554,
	"eval_loss": 0.0532723143696785,
	"eval_precision": 0.9503676470588235,
	"eval_recall": 0.9605202043660009,
	"eval_runtime": 35.9196,
	"eval_samples_per_second": 5.54,
	"eval_steps_per_second": 1.392,
	"step": 2655
	},
	{
	"epoch": 29.625520110957005,
	"grad_norm": 0.46974512934684753,
	"learning_rate": 1.1033333333333335e-06,
	"loss": 0.0059,
	"step": 2670
	},
	{
	"epoch": 29.625520110957005,
	"eval_accuracy": 0.9911858541069594,
	"eval_f1": 0.9572452045296973,
	"eval_loss": 0.05324824899435043,
	"eval_precision": 0.952621895124195,
	"eval_recall": 0.9619136089177891,
	"eval_runtime": 36.0296,
	"eval_samples_per_second": 5.523,
	"eval_steps_per_second": 1.388,
	"step": 2670
	},
	{
	"epoch": 29.791955617198337,
	"grad_norm": 0.6280196309089661,
	"learning_rate": 1.0533333333333333e-06,
	"loss": 0.0062,
	"step": 2685
	},
	{
	"epoch": 29.791955617198337,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9579288025889968,
	"eval_loss": 0.05163406580686569,
	"eval_precision": 0.9535204786010124,
	"eval_recall": 0.9623780771017185,
	"eval_runtime": 35.8797,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.394,
	"step": 2685
	},
	{
	"epoch": 29.958391123439668,
	"grad_norm": 0.3609830439090729,
	"learning_rate": 1.0033333333333334e-06,
	"loss": 0.0064,
	"step": 2700
	},
	{
	"epoch": 29.958391123439668,
	"eval_accuracy": 0.9914562266803656,
	"eval_f1": 0.9572649572649573,
	"eval_loss": 0.05152719095349312,
	"eval_precision": 0.9522058823529411,
	"eval_recall": 0.9623780771017185,
	"eval_runtime": 36.0059,
	"eval_samples_per_second": 5.527,
	"eval_steps_per_second": 1.389,
	"step": 2700
	},
	{
	"epoch": 30.124826629681,
	"grad_norm": 0.37590721249580383,
	"learning_rate": 9.533333333333335e-07,
	"loss": 0.0055,
	"step": 2715
	},
	{
	"epoch": 30.124826629681,
	"eval_accuracy": 0.9917265992537717,
	"eval_f1": 0.9590751445086704,
	"eval_loss": 0.05128318816423416,
	"eval_precision": 0.9548802946593001,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 36.0097,
	"eval_samples_per_second": 5.526,
	"eval_steps_per_second": 1.389,
	"step": 2715
	},
	{
	"epoch": 30.29126213592233,
	"grad_norm": 0.4574069678783417,
	"learning_rate": 9.033333333333334e-07,
	"loss": 0.0064,
	"step": 2730
	},
	{
	"epoch": 30.29126213592233,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9583911234396673,
	"eval_loss": 0.052385713905096054,
	"eval_precision": 0.9539806718821905,
	"eval_recall": 0.9628425452856479,
	"eval_runtime": 35.8265,
	"eval_samples_per_second": 5.555,
	"eval_steps_per_second": 1.396,
	"step": 2730
	},
	{
	"epoch": 30.457697642163662,
	"grad_norm": 1.509279489517212,
	"learning_rate": 8.533333333333334e-07,
	"loss": 0.0055,
	"step": 2745
	},
	{
	"epoch": 30.457697642163662,
	"eval_accuracy": 0.9915103011950468,
	"eval_f1": 0.9581889581889582,
	"eval_loss": 0.05304015427827835,
	"eval_precision": 0.953125,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.8068,
	"eval_samples_per_second": 5.558,
	"eval_steps_per_second": 1.396,
	"step": 2745
	},
	{
	"epoch": 30.624133148404994,
	"grad_norm": 0.08701591938734055,
	"learning_rate": 8.033333333333335e-07,
	"loss": 0.0065,
	"step": 2760
	},
	{
	"epoch": 30.624133148404994,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9588914549653579,
	"eval_loss": 0.05279012396931648,
	"eval_precision": 0.9536058796508957,
	"eval_recall": 0.9642359498374361,
	"eval_runtime": 36.0763,
	"eval_samples_per_second": 5.516,
	"eval_steps_per_second": 1.386,
	"step": 2760
	},
	{
	"epoch": 30.790568654646325,
	"grad_norm": 0.39128488302230835,
	"learning_rate": 7.533333333333335e-07,
	"loss": 0.0068,
	"step": 2775
	},
	{
	"epoch": 30.790568654646325,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9575253924284395,
	"eval_loss": 0.05296061187982559,
	"eval_precision": 0.9518127581459385,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.9916,
	"eval_samples_per_second": 5.529,
	"eval_steps_per_second": 1.389,
	"step": 2775
	},
	{
	"epoch": 30.957004160887656,
	"grad_norm": 0.20628976821899414,
	"learning_rate": 7.033333333333334e-07,
	"loss": 0.0047,
	"step": 2790
	},
	{
	"epoch": 30.957004160887656,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.958910433979686,
	"eval_loss": 0.05448687821626663,
	"eval_precision": 0.953189536484626,
	"eval_recall": 0.9647004180213655,
	"eval_runtime": 35.9295,
	"eval_samples_per_second": 5.539,
	"eval_steps_per_second": 1.392,
	"step": 2790
	},
	{
	"epoch": 31.123439667128988,
	"grad_norm": 0.3910321295261383,
	"learning_rate": 6.533333333333334e-07,
	"loss": 0.0051,
	"step": 2805
	},
	{
	"epoch": 31.123439667128988,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9595749595749595,
	"eval_loss": 0.05336242541670799,
	"eval_precision": 0.9545036764705882,
	"eval_recall": 0.9647004180213655,
	"eval_runtime": 36.0288,
	"eval_samples_per_second": 5.523,
	"eval_steps_per_second": 1.388,
	"step": 2805
	},
	{
	"epoch": 31.28987517337032,
	"grad_norm": 0.2049601525068283,
	"learning_rate": 6.033333333333334e-07,
	"loss": 0.0044,
	"step": 2820
	},
	{
	"epoch": 31.28987517337032,
	"eval_accuracy": 0.9914021521656843,
	"eval_f1": 0.9581889581889582,
	"eval_loss": 0.053161416202783585,
	"eval_precision": 0.953125,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.9772,
	"eval_samples_per_second": 5.531,
	"eval_steps_per_second": 1.39,
	"step": 2820
	},
	{
	"epoch": 31.45631067961165,
	"grad_norm": 0.4429149329662323,
	"learning_rate": 5.533333333333334e-07,
	"loss": 0.0068,
	"step": 2835
	},
	{
	"epoch": 31.45631067961165,
	"eval_accuracy": 0.9913480776510031,
	"eval_f1": 0.9579676674364895,
	"eval_loss": 0.05317556858062744,
	"eval_precision": 0.9526871841984382,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.6808,
	"eval_samples_per_second": 5.577,
	"eval_steps_per_second": 1.401,
	"step": 2835
	},
	{
	"epoch": 31.622746185852982,
	"grad_norm": 0.4102032482624054,
	"learning_rate": 5.033333333333334e-07,
	"loss": 0.0045,
	"step": 2850
	},
	{
	"epoch": 31.622746185852982,
	"eval_accuracy": 0.9915103011950468,
	"eval_f1": 0.9590940605500345,
	"eval_loss": 0.053103264421224594,
	"eval_precision": 0.9544618215271389,
	"eval_recall": 0.9637714816535068,
	"eval_runtime": 35.706,
	"eval_samples_per_second": 5.573,
	"eval_steps_per_second": 1.4,
	"step": 2850
	},
	{
	"epoch": 31.789181692094314,
	"grad_norm": 0.8468719720840454,
	"learning_rate": 4.533333333333334e-07,
	"loss": 0.0047,
	"step": 2865
	},
	{
	"epoch": 31.789181692094314,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9586318465449504,
	"eval_loss": 0.05298003926873207,
	"eval_precision": 0.954001839926403,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.8749,
	"eval_samples_per_second": 5.547,
	"eval_steps_per_second": 1.394,
	"step": 2865
	},
	{
	"epoch": 31.955617198335645,
	"grad_norm": 0.2063705176115036,
	"learning_rate": 4.0333333333333337e-07,
	"loss": 0.0075,
	"step": 2880
	},
	{
	"epoch": 31.955617198335645,
	"eval_accuracy": 0.9916184502244092,
	"eval_f1": 0.9593157651410079,
	"eval_loss": 0.05329431965947151,
	"eval_precision": 0.9549010584445468,
	"eval_recall": 0.9637714816535068,
	"eval_runtime": 36.0809,
	"eval_samples_per_second": 5.515,
	"eval_steps_per_second": 1.386,
	"step": 2880
	},
	{
	"epoch": 32.12205270457698,
	"grad_norm": 0.3478763997554779,
	"learning_rate": 3.533333333333334e-07,
	"loss": 0.0055,
	"step": 2895
	},
	{
	"epoch": 32.12205270457698,
	"eval_accuracy": 0.9917265992537717,
	"eval_f1": 0.9595375722543353,
	"eval_loss": 0.05245138704776764,
	"eval_precision": 0.9553406998158379,
	"eval_recall": 0.9637714816535068,
	"eval_runtime": 35.9673,
	"eval_samples_per_second": 5.533,
	"eval_steps_per_second": 1.39,
	"step": 2895
	},
	{
	"epoch": 32.28848821081831,
	"grad_norm": 0.721191942691803,
	"learning_rate": 3.033333333333334e-07,
	"loss": 0.006,
	"step": 2910
	},
	{
	"epoch": 32.28848821081831,
	"eval_accuracy": 0.9917265992537717,
	"eval_f1": 0.9595375722543353,
	"eval_loss": 0.05226488783955574,
	"eval_precision": 0.9553406998158379,
	"eval_recall": 0.9637714816535068,
	"eval_runtime": 35.9385,
	"eval_samples_per_second": 5.537,
	"eval_steps_per_second": 1.391,
	"step": 2910
	},
	{
	"epoch": 32.45492371705964,
	"grad_norm": 0.3022706210613251,
	"learning_rate": 2.533333333333333e-07,
	"loss": 0.0062,
	"step": 2925
	},
	{
	"epoch": 32.45492371705964,
	"eval_accuracy": 0.9916725247390905,
	"eval_f1": 0.9588534442903375,
	"eval_loss": 0.05245348811149597,
	"eval_precision": 0.9544408651633686,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.8766,
	"eval_samples_per_second": 5.547,
	"eval_steps_per_second": 1.394,
	"step": 2925
	},
	{
	"epoch": 32.62135922330097,
	"grad_norm": 0.4700392186641693,
	"learning_rate": 2.0333333333333333e-07,
	"loss": 0.0059,
	"step": 2940
	},
	{
	"epoch": 32.62135922330097,
	"eval_accuracy": 0.9917265992537717,
	"eval_f1": 0.9593157651410079,
	"eval_loss": 0.05246575176715851,
	"eval_precision": 0.9549010584445468,
	"eval_recall": 0.9637714816535068,
	"eval_runtime": 35.8779,
	"eval_samples_per_second": 5.547,
	"eval_steps_per_second": 1.394,
	"step": 2940
	},
	{
	"epoch": 32.787794729542306,
	"grad_norm": 0.7413909435272217,
	"learning_rate": 1.5333333333333333e-07,
	"loss": 0.0058,
	"step": 2955
	},
	{
	"epoch": 32.787794729542306,
	"eval_accuracy": 0.9917265992537717,
	"eval_f1": 0.959556274555119,
	"eval_loss": 0.053051915019750595,
	"eval_precision": 0.9549218031278749,
	"eval_recall": 0.9642359498374361,
	"eval_runtime": 35.8838,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.393,
	"step": 2955
	},
	{
	"epoch": 32.95423023578363,
	"grad_norm": 0.7399964332580566,
	"learning_rate": 1.0333333333333335e-07,
	"loss": 0.005,
	"step": 2970
	},
	{
	"epoch": 32.95423023578363,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9584103512014789,
	"eval_loss": 0.05329006537795067,
	"eval_precision": 0.9535632183908046,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.9193,
	"eval_samples_per_second": 5.54,
	"eval_steps_per_second": 1.392,
	"step": 2970
	},
	{
	"epoch": 33.12066574202497,
	"grad_norm": 0.3113914728164673,
	"learning_rate": 5.3333333333333334e-08,
	"loss": 0.007,
	"step": 2985
	},
	{
	"epoch": 33.12066574202497,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9584103512014789,
	"eval_loss": 0.05327802523970604,
	"eval_precision": 0.9535632183908046,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.914,
	"eval_samples_per_second": 5.541,
	"eval_steps_per_second": 1.392,
	"step": 2985
	},
	{
	"epoch": 33.287101248266296,
	"grad_norm": 0.33092889189720154,
	"learning_rate": 3.3333333333333334e-09,
	"loss": 0.0047,
	"step": 3000
	},
	{
	"epoch": 33.287101248266296,
	"eval_accuracy": 0.991564375709728,
	"eval_f1": 0.9584103512014789,
	"eval_loss": 0.05324762314558029,
	"eval_precision": 0.9535632183908046,
	"eval_recall": 0.9633070134695774,
	"eval_runtime": 35.8608,
	"eval_samples_per_second": 5.549,
	"eval_steps_per_second": 1.394,
	"step": 3000
	},
	{
	"epoch": 33.287101248266296,
	"step": 3000,
	"total_flos": 8.9780255686656e+16,
	"train_loss": 0.0764370101193587,
	"train_runtime": 55223.9534,
	"train_samples_per_second": 1.738,
	"train_steps_per_second": 0.054
	}
	],
	"logging_steps": 15,
	"max_steps": 3000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 34,
	"save_steps": 15,
	"total_flos": 8.9780255686656e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}