Evaluation on the test set completed on 2024_09_03.

1e99df2 verified 2 months ago

72.3 kB

	{
	"best_metric": 0.1308571696281433,
	"best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/fine_scale/DinoVdeau-small-2024_08_31-batch-size32_epochs150_freeze/checkpoint-36582",
	"epoch": 144.0,
	"eval_steps": 500,
	"global_step": 39312,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_accuracy": 0.19057519057519057,
	"eval_f1_macro": 0.4058921954514261,
	"eval_f1_micro": 0.7088941673264713,
	"eval_loss": 0.19568666815757751,
	"eval_roc_auc": 0.8060676064167129,
	"eval_runtime": 426.0483,
	"eval_samples_per_second": 6.774,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.001,
	"step": 273
	},
	{
	"epoch": 1.8315018315018317,
	"grad_norm": 0.30737248063087463,
	"learning_rate": 0.001,
	"loss": 0.3189,
	"step": 500
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.21933471933471935,
	"eval_f1_macro": 0.4867943512801917,
	"eval_f1_micro": 0.738139514768845,
	"eval_loss": 0.17198018729686737,
	"eval_roc_auc": 0.8255075095586444,
	"eval_runtime": 425.0166,
	"eval_samples_per_second": 6.79,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.001,
	"step": 546
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.23215523215523215,
	"eval_f1_macro": 0.5587016500092944,
	"eval_f1_micro": 0.7578947368421052,
	"eval_loss": 0.16209888458251953,
	"eval_roc_auc": 0.8387630797560628,
	"eval_runtime": 425.9119,
	"eval_samples_per_second": 6.776,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.001,
	"step": 819
	},
	{
	"epoch": 3.663003663003663,
	"grad_norm": 0.2619726359844208,
	"learning_rate": 0.001,
	"loss": 0.1897,
	"step": 1000
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.22487872487872487,
	"eval_f1_macro": 0.5561953540051209,
	"eval_f1_micro": 0.7463059684835497,
	"eval_loss": 0.15948981046676636,
	"eval_roc_auc": 0.8221271753092407,
	"eval_runtime": 423.9484,
	"eval_samples_per_second": 6.807,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.001,
	"step": 1092
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.23146223146223147,
	"eval_f1_macro": 0.5723046956548954,
	"eval_f1_micro": 0.7510718113612004,
	"eval_loss": 0.15691693127155304,
	"eval_roc_auc": 0.8244935635420478,
	"eval_runtime": 423.6041,
	"eval_samples_per_second": 6.813,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.001,
	"step": 1365
	},
	{
	"epoch": 5.4945054945054945,
	"grad_norm": 0.17114631831645966,
	"learning_rate": 0.001,
	"loss": 0.1808,
	"step": 1500
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.2363132363132363,
	"eval_f1_macro": 0.5786669115862841,
	"eval_f1_micro": 0.7634727923836142,
	"eval_loss": 0.15302371978759766,
	"eval_roc_auc": 0.8365257318814997,
	"eval_runtime": 427.5566,
	"eval_samples_per_second": 6.75,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 1638
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.23354123354123354,
	"eval_f1_macro": 0.5981729145672101,
	"eval_f1_micro": 0.7651630269613162,
	"eval_loss": 0.1523299366235733,
	"eval_roc_auc": 0.838924594824006,
	"eval_runtime": 430.1478,
	"eval_samples_per_second": 6.709,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.001,
	"step": 1911
	},
	{
	"epoch": 7.326007326007326,
	"grad_norm": 0.22214488685131073,
	"learning_rate": 0.001,
	"loss": 0.1763,
	"step": 2000
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.24185724185724186,
	"eval_f1_macro": 0.587992292024695,
	"eval_f1_micro": 0.7655172413793103,
	"eval_loss": 0.15311872959136963,
	"eval_roc_auc": 0.837740052624858,
	"eval_runtime": 427.9308,
	"eval_samples_per_second": 6.744,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 2184
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.24012474012474014,
	"eval_f1_macro": 0.606908576330327,
	"eval_f1_micro": 0.7699542669773061,
	"eval_loss": 0.14992575347423553,
	"eval_roc_auc": 0.8431046707780733,
	"eval_runtime": 424.0382,
	"eval_samples_per_second": 6.806,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.001,
	"step": 2457
	},
	{
	"epoch": 9.157509157509157,
	"grad_norm": 0.1733015924692154,
	"learning_rate": 0.001,
	"loss": 0.1735,
	"step": 2500
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.24393624393624394,
	"eval_f1_macro": 0.5829080312220596,
	"eval_f1_micro": 0.7606115107913669,
	"eval_loss": 0.1509619951248169,
	"eval_roc_auc": 0.8277441062627229,
	"eval_runtime": 424.8811,
	"eval_samples_per_second": 6.792,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.001,
	"step": 2730
	},
	{
	"epoch": 10.989010989010989,
	"grad_norm": 0.16356830298900604,
	"learning_rate": 0.001,
	"loss": 0.1723,
	"step": 3000
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.2505197505197505,
	"eval_f1_macro": 0.5976223089766404,
	"eval_f1_micro": 0.7689559002963221,
	"eval_loss": 0.1520717293024063,
	"eval_roc_auc": 0.8399853012032679,
	"eval_runtime": 434.5331,
	"eval_samples_per_second": 6.642,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.001,
	"step": 3003
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.2442827442827443,
	"eval_f1_macro": 0.607405900640871,
	"eval_f1_micro": 0.7759986516096409,
	"eval_loss": 0.15027731657028198,
	"eval_roc_auc": 0.8526551998703694,
	"eval_runtime": 434.0545,
	"eval_samples_per_second": 6.649,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.001,
	"step": 3276
	},
	{
	"epoch": 12.820512820512821,
	"grad_norm": 0.1642971783876419,
	"learning_rate": 0.001,
	"loss": 0.1719,
	"step": 3500
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.24393624393624394,
	"eval_f1_macro": 0.6003271512523337,
	"eval_f1_micro": 0.7623558852444365,
	"eval_loss": 0.1504218876361847,
	"eval_roc_auc": 0.8301696089299148,
	"eval_runtime": 426.4716,
	"eval_samples_per_second": 6.767,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 3549
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.24462924462924462,
	"eval_f1_macro": 0.602811285040826,
	"eval_f1_micro": 0.7644358114073813,
	"eval_loss": 0.1496724784374237,
	"eval_roc_auc": 0.8342951177137805,
	"eval_runtime": 428.909,
	"eval_samples_per_second": 6.729,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.001,
	"step": 3822
	},
	{
	"epoch": 14.652014652014651,
	"grad_norm": 0.1759812980890274,
	"learning_rate": 0.001,
	"loss": 0.1702,
	"step": 4000
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.2512127512127512,
	"eval_f1_macro": 0.6066013767027806,
	"eval_f1_micro": 0.7751615281210703,
	"eval_loss": 0.14749661087989807,
	"eval_roc_auc": 0.8445581856657356,
	"eval_runtime": 424.6732,
	"eval_samples_per_second": 6.796,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.001,
	"step": 4095
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.24636174636174638,
	"eval_f1_macro": 0.5838354990739413,
	"eval_f1_micro": 0.7645565108923241,
	"eval_loss": 0.14998775720596313,
	"eval_roc_auc": 0.8320747114163963,
	"eval_runtime": 423.7704,
	"eval_samples_per_second": 6.81,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.001,
	"step": 4368
	},
	{
	"epoch": 16.483516483516482,
	"grad_norm": 0.14804692566394806,
	"learning_rate": 0.001,
	"loss": 0.1696,
	"step": 4500
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.24566874566874566,
	"eval_f1_macro": 0.6073459016890155,
	"eval_f1_micro": 0.7719883641341547,
	"eval_loss": 0.15297245979309082,
	"eval_roc_auc": 0.8464322218871764,
	"eval_runtime": 424.9885,
	"eval_samples_per_second": 6.791,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.001,
	"step": 4641
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.24393624393624394,
	"eval_f1_macro": 0.614324753279198,
	"eval_f1_micro": 0.7751951282271207,
	"eval_loss": 0.14907290041446686,
	"eval_roc_auc": 0.8475019020709771,
	"eval_runtime": 420.1647,
	"eval_samples_per_second": 6.869,
	"eval_steps_per_second": 0.217,
	"learning_rate": 0.001,
	"step": 4914
	},
	{
	"epoch": 18.315018315018314,
	"grad_norm": 0.19223743677139282,
	"learning_rate": 0.001,
	"loss": 0.1717,
	"step": 5000
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.23458073458073458,
	"eval_f1_macro": 0.6075499214740471,
	"eval_f1_micro": 0.7739734788726388,
	"eval_loss": 0.14951026439666748,
	"eval_roc_auc": 0.848377592477135,
	"eval_runtime": 427.9682,
	"eval_samples_per_second": 6.743,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 5187
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.24532224532224534,
	"eval_f1_macro": 0.595638442008225,
	"eval_f1_micro": 0.7636993911381718,
	"eval_loss": 0.14873762428760529,
	"eval_roc_auc": 0.8322311292560515,
	"eval_runtime": 421.5059,
	"eval_samples_per_second": 6.847,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.001,
	"step": 5460
	},
	{
	"epoch": 20.146520146520146,
	"grad_norm": 0.15787707269191742,
	"learning_rate": 0.001,
	"loss": 0.1705,
	"step": 5500
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.24740124740124741,
	"eval_f1_macro": 0.6164990545073296,
	"eval_f1_micro": 0.780452718426063,
	"eval_loss": 0.14705629646778107,
	"eval_roc_auc": 0.8539786012990958,
	"eval_runtime": 429.6596,
	"eval_samples_per_second": 6.717,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.001,
	"step": 5733
	},
	{
	"epoch": 21.978021978021978,
	"grad_norm": 0.15392103791236877,
	"learning_rate": 0.001,
	"loss": 0.1706,
	"step": 6000
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.24532224532224534,
	"eval_f1_macro": 0.6073576225776433,
	"eval_f1_micro": 0.7753641707130079,
	"eval_loss": 0.1508719027042389,
	"eval_roc_auc": 0.8494150259851333,
	"eval_runtime": 429.7216,
	"eval_samples_per_second": 6.716,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.001,
	"step": 6006
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.2428967428967429,
	"eval_f1_macro": 0.6127152502703448,
	"eval_f1_micro": 0.771920553133395,
	"eval_loss": 0.15015815198421478,
	"eval_roc_auc": 0.8388299205154317,
	"eval_runtime": 426.6602,
	"eval_samples_per_second": 6.764,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 6279
	},
	{
	"epoch": 23.80952380952381,
	"grad_norm": 0.1737624853849411,
	"learning_rate": 0.001,
	"loss": 0.1699,
	"step": 6500
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.24012474012474014,
	"eval_f1_macro": 0.5849380548549015,
	"eval_f1_micro": 0.7698941591532732,
	"eval_loss": 0.14965225756168365,
	"eval_roc_auc": 0.8406060899537385,
	"eval_runtime": 430.4521,
	"eval_samples_per_second": 6.705,
	"eval_steps_per_second": 0.211,
	"learning_rate": 0.001,
	"step": 6552
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.24255024255024255,
	"eval_f1_macro": 0.6035289549510865,
	"eval_f1_micro": 0.7761348897535668,
	"eval_loss": 0.14702074229717255,
	"eval_roc_auc": 0.8458632504863829,
	"eval_runtime": 428.0693,
	"eval_samples_per_second": 6.742,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 6825
	},
	{
	"epoch": 25.641025641025642,
	"grad_norm": 0.1737377792596817,
	"learning_rate": 0.001,
	"loss": 0.1694,
	"step": 7000
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.24220374220374222,
	"eval_f1_macro": 0.6064603919289959,
	"eval_f1_micro": 0.7751430907604253,
	"eval_loss": 0.14808295667171478,
	"eval_roc_auc": 0.8465518457868458,
	"eval_runtime": 438.4341,
	"eval_samples_per_second": 6.583,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.001,
	"step": 7098
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.24740124740124741,
	"eval_f1_macro": 0.6135774018658996,
	"eval_f1_micro": 0.7689308343302761,
	"eval_loss": 0.14581289887428284,
	"eval_roc_auc": 0.8357120666953542,
	"eval_runtime": 426.6923,
	"eval_samples_per_second": 6.764,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.001,
	"step": 7371
	},
	{
	"epoch": 27.47252747252747,
	"grad_norm": 0.16500511765480042,
	"learning_rate": 0.001,
	"loss": 0.17,
	"step": 7500
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.24462924462924462,
	"eval_f1_macro": 0.6077297645661711,
	"eval_f1_micro": 0.7751325049960902,
	"eval_loss": 0.1453842669725418,
	"eval_roc_auc": 0.8440532649625113,
	"eval_runtime": 431.4145,
	"eval_samples_per_second": 6.69,
	"eval_steps_per_second": 0.211,
	"learning_rate": 0.001,
	"step": 7644
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.24566874566874566,
	"eval_f1_macro": 0.6107922701154117,
	"eval_f1_micro": 0.7735191637630662,
	"eval_loss": 0.14941243827342987,
	"eval_roc_auc": 0.849050708300112,
	"eval_runtime": 434.9588,
	"eval_samples_per_second": 6.635,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.001,
	"step": 7917
	},
	{
	"epoch": 29.304029304029303,
	"grad_norm": 0.1599486619234085,
	"learning_rate": 0.001,
	"loss": 0.1685,
	"step": 8000
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.24982674982674982,
	"eval_f1_macro": 0.5982833860845571,
	"eval_f1_micro": 0.7705324709843182,
	"eval_loss": 0.14549985527992249,
	"eval_roc_auc": 0.8366026732011344,
	"eval_runtime": 434.3329,
	"eval_samples_per_second": 6.645,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.001,
	"step": 8190
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.2532917532917533,
	"eval_f1_macro": 0.6068619458731248,
	"eval_f1_micro": 0.7784728768532008,
	"eval_loss": 0.14541107416152954,
	"eval_roc_auc": 0.8494949988142239,
	"eval_runtime": 435.6219,
	"eval_samples_per_second": 6.625,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.001,
	"step": 8463
	},
	{
	"epoch": 31.135531135531135,
	"grad_norm": 0.1950293928384781,
	"learning_rate": 0.001,
	"loss": 0.1687,
	"step": 8500
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.24532224532224534,
	"eval_f1_macro": 0.6145316287096297,
	"eval_f1_micro": 0.7746102833519939,
	"eval_loss": 0.14657220244407654,
	"eval_roc_auc": 0.8460955499587395,
	"eval_runtime": 434.8949,
	"eval_samples_per_second": 6.636,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.001,
	"step": 8736
	},
	{
	"epoch": 32.967032967032964,
	"grad_norm": 0.18405263125896454,
	"learning_rate": 0.001,
	"loss": 0.1679,
	"step": 9000
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.253984753984754,
	"eval_f1_macro": 0.6124691593400795,
	"eval_f1_micro": 0.777031154551008,
	"eval_loss": 0.14459234476089478,
	"eval_roc_auc": 0.843919167617255,
	"eval_runtime": 440.1591,
	"eval_samples_per_second": 6.557,
	"eval_steps_per_second": 0.207,
	"learning_rate": 0.001,
	"step": 9009
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.24462924462924462,
	"eval_f1_macro": 0.6168054796129936,
	"eval_f1_micro": 0.7781283769180896,
	"eval_loss": 0.1468168944120407,
	"eval_roc_auc": 0.8469846407097918,
	"eval_runtime": 438.6105,
	"eval_samples_per_second": 6.58,
	"eval_steps_per_second": 0.207,
	"learning_rate": 0.001,
	"step": 9282
	},
	{
	"epoch": 34.798534798534796,
	"grad_norm": 0.17146140336990356,
	"learning_rate": 0.001,
	"loss": 0.168,
	"step": 9500
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.2494802494802495,
	"eval_f1_macro": 0.6193343400891848,
	"eval_f1_micro": 0.7766880749869814,
	"eval_loss": 0.14858707785606384,
	"eval_roc_auc": 0.8451765062846143,
	"eval_runtime": 434.5802,
	"eval_samples_per_second": 6.641,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.001,
	"step": 9555
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.24878724878724878,
	"eval_f1_macro": 0.6092667253949349,
	"eval_f1_micro": 0.7718835224773468,
	"eval_loss": 0.14637114107608795,
	"eval_roc_auc": 0.8391158347811251,
	"eval_runtime": 439.3197,
	"eval_samples_per_second": 6.569,
	"eval_steps_per_second": 0.207,
	"learning_rate": 0.001,
	"step": 9828
	},
	{
	"epoch": 36.63003663003663,
	"grad_norm": 0.16876503825187683,
	"learning_rate": 0.001,
	"loss": 0.169,
	"step": 10000
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.24982674982674982,
	"eval_f1_macro": 0.6127183895875491,
	"eval_f1_micro": 0.7733602776435442,
	"eval_loss": 0.1448281705379486,
	"eval_roc_auc": 0.8402195590843876,
	"eval_runtime": 437.3035,
	"eval_samples_per_second": 6.6,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.001,
	"step": 10101
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.25225225225225223,
	"eval_f1_macro": 0.6109962510638844,
	"eval_f1_micro": 0.7814896880859042,
	"eval_loss": 0.1450735628604889,
	"eval_roc_auc": 0.8526187412743501,
	"eval_runtime": 437.7229,
	"eval_samples_per_second": 6.593,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.001,
	"step": 10374
	},
	{
	"epoch": 38.46153846153846,
	"grad_norm": 0.19475676119327545,
	"learning_rate": 0.001,
	"loss": 0.167,
	"step": 10500
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.24982674982674982,
	"eval_f1_macro": 0.6272196317832909,
	"eval_f1_micro": 0.7824146207942057,
	"eval_loss": 0.14469724893569946,
	"eval_roc_auc": 0.8563424677452759,
	"eval_runtime": 435.4486,
	"eval_samples_per_second": 6.628,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.001,
	"step": 10647
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.25363825363825365,
	"eval_f1_macro": 0.6265963634718456,
	"eval_f1_micro": 0.7836651178652115,
	"eval_loss": 0.14824891090393066,
	"eval_roc_auc": 0.853692740688437,
	"eval_runtime": 435.8824,
	"eval_samples_per_second": 6.621,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 10920
	},
	{
	"epoch": 40.29304029304029,
	"grad_norm": 0.15533967316150665,
	"learning_rate": 0.0001,
	"loss": 0.1652,
	"step": 11000
	},
	{
	"epoch": 41.0,
	"eval_accuracy": 0.2616077616077616,
	"eval_f1_macro": 0.6323784470247855,
	"eval_f1_micro": 0.7833456473553827,
	"eval_loss": 0.14141727983951569,
	"eval_roc_auc": 0.8483120796798727,
	"eval_runtime": 435.7344,
	"eval_samples_per_second": 6.623,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 11193
	},
	{
	"epoch": 42.0,
	"eval_accuracy": 0.26195426195426197,
	"eval_f1_macro": 0.6371841233046203,
	"eval_f1_micro": 0.7884351407000686,
	"eval_loss": 0.13979895412921906,
	"eval_roc_auc": 0.8545567611245666,
	"eval_runtime": 438.4508,
	"eval_samples_per_second": 6.582,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 11466
	},
	{
	"epoch": 42.124542124542124,
	"grad_norm": 0.1733330935239792,
	"learning_rate": 0.0001,
	"loss": 0.1608,
	"step": 11500
	},
	{
	"epoch": 43.0,
	"eval_accuracy": 0.26403326403326405,
	"eval_f1_macro": 0.6366820358518588,
	"eval_f1_micro": 0.7871061893724783,
	"eval_loss": 0.14107641577720642,
	"eval_roc_auc": 0.853678548931782,
	"eval_runtime": 434.1211,
	"eval_samples_per_second": 6.648,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 11739
	},
	{
	"epoch": 43.956043956043956,
	"grad_norm": 0.19694675505161285,
	"learning_rate": 0.0001,
	"loss": 0.1596,
	"step": 12000
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.26126126126126126,
	"eval_f1_macro": 0.6256922069455233,
	"eval_f1_micro": 0.787878787878788,
	"eval_loss": 0.13898694515228271,
	"eval_roc_auc": 0.8537086091649239,
	"eval_runtime": 434.0073,
	"eval_samples_per_second": 6.65,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 12012
	},
	{
	"epoch": 45.0,
	"eval_accuracy": 0.2664587664587665,
	"eval_f1_macro": 0.6421056073559387,
	"eval_f1_micro": 0.7894011202068074,
	"eval_loss": 0.13859130442142487,
	"eval_roc_auc": 0.8538817942028954,
	"eval_runtime": 432.4865,
	"eval_samples_per_second": 6.673,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 12285
	},
	{
	"epoch": 45.78754578754579,
	"grad_norm": 0.18810147047042847,
	"learning_rate": 0.0001,
	"loss": 0.1582,
	"step": 12500
	},
	{
	"epoch": 46.0,
	"eval_accuracy": 0.2664587664587665,
	"eval_f1_macro": 0.6283048537279357,
	"eval_f1_micro": 0.7873893327575039,
	"eval_loss": 0.139601469039917,
	"eval_roc_auc": 0.8521625527563127,
	"eval_runtime": 421.9429,
	"eval_samples_per_second": 6.84,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.0001,
	"step": 12558
	},
	{
	"epoch": 47.0,
	"eval_accuracy": 0.2636867636867637,
	"eval_f1_macro": 0.6286555138094179,
	"eval_f1_micro": 0.7863567238757333,
	"eval_loss": 0.13869330286979675,
	"eval_roc_auc": 0.8499808451526433,
	"eval_runtime": 424.0306,
	"eval_samples_per_second": 6.806,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 12831
	},
	{
	"epoch": 47.61904761904762,
	"grad_norm": 0.15351006388664246,
	"learning_rate": 0.0001,
	"loss": 0.1584,
	"step": 13000
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.26784476784476785,
	"eval_f1_macro": 0.6334934953582803,
	"eval_f1_micro": 0.7913177234660741,
	"eval_loss": 0.13777127861976624,
	"eval_roc_auc": 0.8571892112602602,
	"eval_runtime": 419.9652,
	"eval_samples_per_second": 6.872,
	"eval_steps_per_second": 0.217,
	"learning_rate": 0.0001,
	"step": 13104
	},
	{
	"epoch": 49.0,
	"eval_accuracy": 0.26403326403326405,
	"eval_f1_macro": 0.6381777921693204,
	"eval_f1_micro": 0.7933989479042932,
	"eval_loss": 0.1377096027135849,
	"eval_roc_auc": 0.8602965218660363,
	"eval_runtime": 431.2306,
	"eval_samples_per_second": 6.692,
	"eval_steps_per_second": 0.211,
	"learning_rate": 0.0001,
	"step": 13377
	},
	{
	"epoch": 49.45054945054945,
	"grad_norm": 0.1798904836177826,
	"learning_rate": 0.0001,
	"loss": 0.157,
	"step": 13500
	},
	{
	"epoch": 50.0,
	"eval_accuracy": 0.2674982674982675,
	"eval_f1_macro": 0.6362718007605523,
	"eval_f1_micro": 0.7918342891380639,
	"eval_loss": 0.13755330443382263,
	"eval_roc_auc": 0.8570210161405075,
	"eval_runtime": 429.5809,
	"eval_samples_per_second": 6.718,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.0001,
	"step": 13650
	},
	{
	"epoch": 51.0,
	"eval_accuracy": 0.2661122661122661,
	"eval_f1_macro": 0.6426825970872383,
	"eval_f1_micro": 0.7928808087673094,
	"eval_loss": 0.13754987716674805,
	"eval_roc_auc": 0.8596608706709776,
	"eval_runtime": 429.3766,
	"eval_samples_per_second": 6.721,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.0001,
	"step": 13923
	},
	{
	"epoch": 51.282051282051285,
	"grad_norm": 0.20376506447792053,
	"learning_rate": 0.0001,
	"loss": 0.1567,
	"step": 14000
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.26576576576576577,
	"eval_f1_macro": 0.6367912909960436,
	"eval_f1_micro": 0.7871186146434616,
	"eval_loss": 0.13771678507328033,
	"eval_roc_auc": 0.8506886757830149,
	"eval_runtime": 424.3804,
	"eval_samples_per_second": 6.801,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 14196
	},
	{
	"epoch": 53.0,
	"eval_accuracy": 0.2692307692307692,
	"eval_f1_macro": 0.640555047060403,
	"eval_f1_micro": 0.7928592630284527,
	"eval_loss": 0.13740690052509308,
	"eval_roc_auc": 0.8601326459765699,
	"eval_runtime": 434.4832,
	"eval_samples_per_second": 6.642,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 14469
	},
	{
	"epoch": 53.11355311355312,
	"grad_norm": 0.16348811984062195,
	"learning_rate": 0.0001,
	"loss": 0.1571,
	"step": 14500
	},
	{
	"epoch": 54.0,
	"eval_accuracy": 0.27165627165627165,
	"eval_f1_macro": 0.6412320555565514,
	"eval_f1_micro": 0.7920979171140219,
	"eval_loss": 0.1368684023618698,
	"eval_roc_auc": 0.8562094300869534,
	"eval_runtime": 425.2932,
	"eval_samples_per_second": 6.786,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 14742
	},
	{
	"epoch": 54.94505494505494,
	"grad_norm": 0.20431332290172577,
	"learning_rate": 0.0001,
	"loss": 0.1548,
	"step": 15000
	},
	{
	"epoch": 55.0,
	"eval_accuracy": 0.2702702702702703,
	"eval_f1_macro": 0.6377616721633446,
	"eval_f1_micro": 0.7914089347079037,
	"eval_loss": 0.13703426718711853,
	"eval_roc_auc": 0.8557803910164303,
	"eval_runtime": 424.9893,
	"eval_samples_per_second": 6.791,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 15015
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.2643797643797644,
	"eval_f1_macro": 0.6425003998141597,
	"eval_f1_micro": 0.7931107623128156,
	"eval_loss": 0.1364637017250061,
	"eval_roc_auc": 0.8601515459625123,
	"eval_runtime": 423.7139,
	"eval_samples_per_second": 6.811,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 15288
	},
	{
	"epoch": 56.776556776556774,
	"grad_norm": 0.19714656472206116,
	"learning_rate": 0.0001,
	"loss": 0.155,
	"step": 15500
	},
	{
	"epoch": 57.0,
	"eval_accuracy": 0.2674982674982675,
	"eval_f1_macro": 0.6381793578718891,
	"eval_f1_micro": 0.7926408585665006,
	"eval_loss": 0.13675515353679657,
	"eval_roc_auc": 0.8588114846455387,
	"eval_runtime": 426.4919,
	"eval_samples_per_second": 6.767,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 15561
	},
	{
	"epoch": 58.0,
	"eval_accuracy": 0.2674982674982675,
	"eval_f1_macro": 0.637380953089336,
	"eval_f1_micro": 0.791562634524322,
	"eval_loss": 0.1364695280790329,
	"eval_roc_auc": 0.855274853280308,
	"eval_runtime": 425.8426,
	"eval_samples_per_second": 6.777,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 15834
	},
	{
	"epoch": 58.608058608058606,
	"grad_norm": 0.19042669236660004,
	"learning_rate": 0.0001,
	"loss": 0.155,
	"step": 16000
	},
	{
	"epoch": 59.0,
	"eval_accuracy": 0.2674982674982675,
	"eval_f1_macro": 0.6428884521567982,
	"eval_f1_micro": 0.7922245108135942,
	"eval_loss": 0.13641765713691711,
	"eval_roc_auc": 0.8565012329926954,
	"eval_runtime": 423.8693,
	"eval_samples_per_second": 6.809,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 16107
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.26507276507276506,
	"eval_f1_macro": 0.6357999016219877,
	"eval_f1_micro": 0.7882888744307093,
	"eval_loss": 0.13687649369239807,
	"eval_roc_auc": 0.8514745744887481,
	"eval_runtime": 423.4928,
	"eval_samples_per_second": 6.815,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 16380
	},
	{
	"epoch": 60.43956043956044,
	"grad_norm": 0.18568764626979828,
	"learning_rate": 0.0001,
	"loss": 0.1546,
	"step": 16500
	},
	{
	"epoch": 61.0,
	"eval_accuracy": 0.2713097713097713,
	"eval_f1_macro": 0.6503848519713329,
	"eval_f1_micro": 0.7945638702508654,
	"eval_loss": 0.13638463616371155,
	"eval_roc_auc": 0.8588833823919201,
	"eval_runtime": 425.9119,
	"eval_samples_per_second": 6.776,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 16653
	},
	{
	"epoch": 62.0,
	"eval_accuracy": 0.2751212751212751,
	"eval_f1_macro": 0.6441767594174573,
	"eval_f1_micro": 0.7931640039405492,
	"eval_loss": 0.13563227653503418,
	"eval_roc_auc": 0.8575138778747027,
	"eval_runtime": 422.0661,
	"eval_samples_per_second": 6.838,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.0001,
	"step": 16926
	},
	{
	"epoch": 62.27106227106227,
	"grad_norm": 0.19402863085269928,
	"learning_rate": 0.0001,
	"loss": 0.1536,
	"step": 17000
	},
	{
	"epoch": 63.0,
	"eval_accuracy": 0.27373527373527373,
	"eval_f1_macro": 0.6515952055035917,
	"eval_f1_micro": 0.7966116124638174,
	"eval_loss": 0.1355270892381668,
	"eval_roc_auc": 0.8610939161629354,
	"eval_runtime": 426.9279,
	"eval_samples_per_second": 6.76,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 17199
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.26784476784476785,
	"eval_f1_macro": 0.6450040026439422,
	"eval_f1_micro": 0.7934075342465754,
	"eval_loss": 0.13592010736465454,
	"eval_roc_auc": 0.8577985580745997,
	"eval_runtime": 426.0816,
	"eval_samples_per_second": 6.773,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 17472
	},
	{
	"epoch": 64.1025641025641,
	"grad_norm": 0.22000150382518768,
	"learning_rate": 0.0001,
	"loss": 0.1544,
	"step": 17500
	},
	{
	"epoch": 65.0,
	"eval_accuracy": 0.27061677061677064,
	"eval_f1_macro": 0.64551501310817,
	"eval_f1_micro": 0.7936467053015668,
	"eval_loss": 0.13569533824920654,
	"eval_roc_auc": 0.857159821715051,
	"eval_runtime": 424.6551,
	"eval_samples_per_second": 6.796,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 17745
	},
	{
	"epoch": 65.93406593406593,
	"grad_norm": 0.19799016416072845,
	"learning_rate": 0.0001,
	"loss": 0.1529,
	"step": 18000
	},
	{
	"epoch": 66.0,
	"eval_accuracy": 0.2713097713097713,
	"eval_f1_macro": 0.6477176853690674,
	"eval_f1_micro": 0.794643237940888,
	"eval_loss": 0.13565082848072052,
	"eval_roc_auc": 0.8594942449609874,
	"eval_runtime": 425.0795,
	"eval_samples_per_second": 6.789,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 18018
	},
	{
	"epoch": 67.0,
	"eval_accuracy": 0.27546777546777546,
	"eval_f1_macro": 0.6544361257862924,
	"eval_f1_micro": 0.7965922095536813,
	"eval_loss": 0.13533934950828552,
	"eval_roc_auc": 0.8622831129363361,
	"eval_runtime": 424.6762,
	"eval_samples_per_second": 6.796,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 18291
	},
	{
	"epoch": 67.76556776556777,
	"grad_norm": 0.2619948983192444,
	"learning_rate": 0.0001,
	"loss": 0.1528,
	"step": 18500
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.2733887733887734,
	"eval_f1_macro": 0.6519486064773884,
	"eval_f1_micro": 0.7955772910907932,
	"eval_loss": 0.1353396475315094,
	"eval_roc_auc": 0.8608058154545816,
	"eval_runtime": 421.8067,
	"eval_samples_per_second": 6.842,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.0001,
	"step": 18564
	},
	{
	"epoch": 69.0,
	"eval_accuracy": 0.26992376992376993,
	"eval_f1_macro": 0.6515714856354324,
	"eval_f1_micro": 0.7966188524590164,
	"eval_loss": 0.13474246859550476,
	"eval_roc_auc": 0.8602900698481241,
	"eval_runtime": 423.2901,
	"eval_samples_per_second": 6.818,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 18837
	},
	{
	"epoch": 69.59706959706959,
	"grad_norm": 0.18048201501369476,
	"learning_rate": 0.0001,
	"loss": 0.1528,
	"step": 19000
	},
	{
	"epoch": 70.0,
	"eval_accuracy": 0.272002772002772,
	"eval_f1_macro": 0.6441608871918139,
	"eval_f1_micro": 0.7944687795241776,
	"eval_loss": 0.13504748046398163,
	"eval_roc_auc": 0.8574953132327267,
	"eval_runtime": 423.3844,
	"eval_samples_per_second": 6.817,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 19110
	},
	{
	"epoch": 71.0,
	"eval_accuracy": 0.27234927234927236,
	"eval_f1_macro": 0.6441889860402124,
	"eval_f1_micro": 0.7933057280883367,
	"eval_loss": 0.13502468168735504,
	"eval_roc_auc": 0.8556664277229126,
	"eval_runtime": 422.6912,
	"eval_samples_per_second": 6.828,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 19383
	},
	{
	"epoch": 71.42857142857143,
	"grad_norm": 0.24162879586219788,
	"learning_rate": 0.0001,
	"loss": 0.1522,
	"step": 19500
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.2758142758142758,
	"eval_f1_macro": 0.6484748365424647,
	"eval_f1_micro": 0.7969950486597234,
	"eval_loss": 0.1344645917415619,
	"eval_roc_auc": 0.8605409876174911,
	"eval_runtime": 426.5755,
	"eval_samples_per_second": 6.766,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 19656
	},
	{
	"epoch": 73.0,
	"eval_accuracy": 0.27616077616077617,
	"eval_f1_macro": 0.6518769914193778,
	"eval_f1_micro": 0.7977006599957419,
	"eval_loss": 0.1341526359319687,
	"eval_roc_auc": 0.8616010233088203,
	"eval_runtime": 420.7226,
	"eval_samples_per_second": 6.86,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.0001,
	"step": 19929
	},
	{
	"epoch": 73.26007326007326,
	"grad_norm": 0.22451983392238617,
	"learning_rate": 0.0001,
	"loss": 0.1523,
	"step": 20000
	},
	{
	"epoch": 74.0,
	"eval_accuracy": 0.2751212751212751,
	"eval_f1_macro": 0.641334935505441,
	"eval_f1_micro": 0.7914797229603171,
	"eval_loss": 0.13499116897583008,
	"eval_roc_auc": 0.8520198169504839,
	"eval_runtime": 428.7922,
	"eval_samples_per_second": 6.731,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.0001,
	"step": 20202
	},
	{
	"epoch": 75.0,
	"eval_accuracy": 0.2751212751212751,
	"eval_f1_macro": 0.6485229770180625,
	"eval_f1_micro": 0.7946678133734681,
	"eval_loss": 0.13461369276046753,
	"eval_roc_auc": 0.8572354216588205,
	"eval_runtime": 427.8784,
	"eval_samples_per_second": 6.745,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 20475
	},
	{
	"epoch": 75.0915750915751,
	"grad_norm": 0.22029711306095123,
	"learning_rate": 0.0001,
	"loss": 0.1521,
	"step": 20500
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.2758142758142758,
	"eval_f1_macro": 0.6478195810395848,
	"eval_f1_micro": 0.7964594201659113,
	"eval_loss": 0.13438266515731812,
	"eval_roc_auc": 0.8597526207801657,
	"eval_runtime": 424.3142,
	"eval_samples_per_second": 6.802,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 20748
	},
	{
	"epoch": 76.92307692307692,
	"grad_norm": 0.2415299415588379,
	"learning_rate": 0.0001,
	"loss": 0.1515,
	"step": 21000
	},
	{
	"epoch": 77.0,
	"eval_accuracy": 0.27754677754677753,
	"eval_f1_macro": 0.6536737916153181,
	"eval_f1_micro": 0.7977742853502102,
	"eval_loss": 0.13460540771484375,
	"eval_roc_auc": 0.8623314561225224,
	"eval_runtime": 422.8083,
	"eval_samples_per_second": 6.826,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 21021
	},
	{
	"epoch": 78.0,
	"eval_accuracy": 0.27754677754677753,
	"eval_f1_macro": 0.6543115985953537,
	"eval_f1_micro": 0.7978169818504888,
	"eval_loss": 0.13411369919776917,
	"eval_roc_auc": 0.8634738791194995,
	"eval_runtime": 428.5067,
	"eval_samples_per_second": 6.735,
	"eval_steps_per_second": 0.212,
	"learning_rate": 0.0001,
	"step": 21294
	},
	{
	"epoch": 78.75457875457876,
	"grad_norm": 0.2636328637599945,
	"learning_rate": 0.0001,
	"loss": 0.1514,
	"step": 21500
	},
	{
	"epoch": 79.0,
	"eval_accuracy": 0.2740817740817741,
	"eval_f1_macro": 0.6523004018612216,
	"eval_f1_micro": 0.7953020134228188,
	"eval_loss": 0.13399606943130493,
	"eval_roc_auc": 0.8574454542918126,
	"eval_runtime": 436.7976,
	"eval_samples_per_second": 6.607,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 21567
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.27823977823977825,
	"eval_f1_macro": 0.6545582038870168,
	"eval_f1_micro": 0.7993085420355848,
	"eval_loss": 0.1344238668680191,
	"eval_roc_auc": 0.8652547567870936,
	"eval_runtime": 431.9941,
	"eval_samples_per_second": 6.681,
	"eval_steps_per_second": 0.211,
	"learning_rate": 0.0001,
	"step": 21840
	},
	{
	"epoch": 80.58608058608058,
	"grad_norm": 0.23601791262626648,
	"learning_rate": 0.0001,
	"loss": 0.1516,
	"step": 22000
	},
	{
	"epoch": 81.0,
	"eval_accuracy": 0.2758142758142758,
	"eval_f1_macro": 0.6559691700651434,
	"eval_f1_micro": 0.7966715529878418,
	"eval_loss": 0.13405664265155792,
	"eval_roc_auc": 0.8575861109650502,
	"eval_runtime": 436.6356,
	"eval_samples_per_second": 6.61,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 22113
	},
	{
	"epoch": 82.0,
	"eval_accuracy": 0.2765072765072765,
	"eval_f1_macro": 0.6453669674995801,
	"eval_f1_micro": 0.7947541551246537,
	"eval_loss": 0.13407430052757263,
	"eval_roc_auc": 0.8554945304057716,
	"eval_runtime": 436.5794,
	"eval_samples_per_second": 6.61,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 22386
	},
	{
	"epoch": 82.41758241758242,
	"grad_norm": 0.19588124752044678,
	"learning_rate": 0.0001,
	"loss": 0.149,
	"step": 22500
	},
	{
	"epoch": 83.0,
	"eval_accuracy": 0.2702702702702703,
	"eval_f1_macro": 0.645966570658811,
	"eval_f1_micro": 0.7924365020985678,
	"eval_loss": 0.1350804716348648,
	"eval_roc_auc": 0.8543412288505268,
	"eval_runtime": 433.6987,
	"eval_samples_per_second": 6.654,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 22659
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.27546777546777546,
	"eval_f1_macro": 0.6512285101875886,
	"eval_f1_micro": 0.7957293542577825,
	"eval_loss": 0.13387472927570343,
	"eval_roc_auc": 0.8585996545688873,
	"eval_runtime": 432.4386,
	"eval_samples_per_second": 6.674,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 22932
	},
	{
	"epoch": 84.24908424908425,
	"grad_norm": 0.2560372054576874,
	"learning_rate": 0.0001,
	"loss": 0.1515,
	"step": 23000
	},
	{
	"epoch": 85.0,
	"eval_accuracy": 0.27927927927927926,
	"eval_f1_macro": 0.6531817491521362,
	"eval_f1_micro": 0.7990622335890879,
	"eval_loss": 0.13341927528381348,
	"eval_roc_auc": 0.8620406055936447,
	"eval_runtime": 432.3488,
	"eval_samples_per_second": 6.675,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 23205
	},
	{
	"epoch": 86.0,
	"eval_accuracy": 0.2747747747747748,
	"eval_f1_macro": 0.6595866427349153,
	"eval_f1_micro": 0.7988261313371896,
	"eval_loss": 0.13337253034114838,
	"eval_roc_auc": 0.8625331319838734,
	"eval_runtime": 435.2436,
	"eval_samples_per_second": 6.631,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 23478
	},
	{
	"epoch": 86.08058608058609,
	"grad_norm": 0.28640052676200867,
	"learning_rate": 0.0001,
	"loss": 0.1495,
	"step": 23500
	},
	{
	"epoch": 87.0,
	"eval_accuracy": 0.27442827442827444,
	"eval_f1_macro": 0.6467323251879672,
	"eval_f1_micro": 0.7956179390619651,
	"eval_loss": 0.1339845359325409,
	"eval_roc_auc": 0.8590850582532711,
	"eval_runtime": 438.7375,
	"eval_samples_per_second": 6.578,
	"eval_steps_per_second": 0.207,
	"learning_rate": 0.0001,
	"step": 23751
	},
	{
	"epoch": 87.91208791208791,
	"grad_norm": 0.23546907305717468,
	"learning_rate": 0.0001,
	"loss": 0.1496,
	"step": 24000
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.2747747747747748,
	"eval_f1_macro": 0.648318545746826,
	"eval_f1_micro": 0.7981612326551459,
	"eval_loss": 0.13357459008693695,
	"eval_roc_auc": 0.8619578829440303,
	"eval_runtime": 432.3449,
	"eval_samples_per_second": 6.675,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 24024
	},
	{
	"epoch": 89.0,
	"eval_accuracy": 0.2806652806652807,
	"eval_f1_macro": 0.6585340844298272,
	"eval_f1_micro": 0.8014968675104065,
	"eval_loss": 0.13366733491420746,
	"eval_roc_auc": 0.8672320387088881,
	"eval_runtime": 431.6296,
	"eval_samples_per_second": 6.686,
	"eval_steps_per_second": 0.211,
	"learning_rate": 0.0001,
	"step": 24297
	},
	{
	"epoch": 89.74358974358974,
	"grad_norm": 0.24246211349964142,
	"learning_rate": 0.0001,
	"loss": 0.1493,
	"step": 24500
	},
	{
	"epoch": 90.0,
	"eval_accuracy": 0.2772002772002772,
	"eval_f1_macro": 0.66211749340029,
	"eval_f1_micro": 0.8010798042854732,
	"eval_loss": 0.1332736760377884,
	"eval_roc_auc": 0.8661044781564988,
	"eval_runtime": 425.5723,
	"eval_samples_per_second": 6.781,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 24570
	},
	{
	"epoch": 91.0,
	"eval_accuracy": 0.27823977823977825,
	"eval_f1_macro": 0.6528573832362276,
	"eval_f1_micro": 0.7956933454403943,
	"eval_loss": 0.13367226719856262,
	"eval_roc_auc": 0.8562680347985093,
	"eval_runtime": 443.8961,
	"eval_samples_per_second": 6.502,
	"eval_steps_per_second": 0.205,
	"learning_rate": 0.0001,
	"step": 24843
	},
	{
	"epoch": 91.57509157509158,
	"grad_norm": 0.22026851773262024,
	"learning_rate": 0.0001,
	"loss": 0.1496,
	"step": 25000
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.27546777546777546,
	"eval_f1_macro": 0.6513649424471982,
	"eval_f1_micro": 0.796086375587259,
	"eval_loss": 0.13348612189292908,
	"eval_roc_auc": 0.8573559442803198,
	"eval_runtime": 443.9031,
	"eval_samples_per_second": 6.501,
	"eval_steps_per_second": 0.205,
	"learning_rate": 0.0001,
	"step": 25116
	},
	{
	"epoch": 93.0,
	"eval_accuracy": 0.2758142758142758,
	"eval_f1_macro": 0.6559763883082907,
	"eval_f1_micro": 0.8001861094662043,
	"eval_loss": 0.1330718696117401,
	"eval_roc_auc": 0.8648260530605368,
	"eval_runtime": 436.5725,
	"eval_samples_per_second": 6.611,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 25389
	},
	{
	"epoch": 93.4065934065934,
	"grad_norm": 0.28630152344703674,
	"learning_rate": 0.0001,
	"loss": 0.1493,
	"step": 25500
	},
	{
	"epoch": 94.0,
	"eval_accuracy": 0.2758142758142758,
	"eval_f1_macro": 0.6553585917255438,
	"eval_f1_micro": 0.7995090362720617,
	"eval_loss": 0.13329002261161804,
	"eval_roc_auc": 0.864277443745379,
	"eval_runtime": 442.8808,
	"eval_samples_per_second": 6.516,
	"eval_steps_per_second": 0.205,
	"learning_rate": 0.0001,
	"step": 25662
	},
	{
	"epoch": 95.0,
	"eval_accuracy": 0.2758142758142758,
	"eval_f1_macro": 0.6579543710907207,
	"eval_f1_micro": 0.7979651162790697,
	"eval_loss": 0.13314621150493622,
	"eval_roc_auc": 0.8606367216129991,
	"eval_runtime": 436.3942,
	"eval_samples_per_second": 6.613,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 25935
	},
	{
	"epoch": 95.23809523809524,
	"grad_norm": 0.25194719433784485,
	"learning_rate": 0.0001,
	"loss": 0.1482,
	"step": 26000
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.2751212751212751,
	"eval_f1_macro": 0.6556445954379041,
	"eval_f1_micro": 0.7992523999660183,
	"eval_loss": 0.13279949128627777,
	"eval_roc_auc": 0.8631226264354063,
	"eval_runtime": 426.8086,
	"eval_samples_per_second": 6.762,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 26208
	},
	{
	"epoch": 97.0,
	"eval_accuracy": 0.27823977823977825,
	"eval_f1_macro": 0.6492741904723621,
	"eval_f1_micro": 0.7977296181630549,
	"eval_loss": 0.1332886964082718,
	"eval_roc_auc": 0.8588905587527994,
	"eval_runtime": 441.9848,
	"eval_samples_per_second": 6.53,
	"eval_steps_per_second": 0.206,
	"learning_rate": 0.0001,
	"step": 26481
	},
	{
	"epoch": 97.06959706959707,
	"grad_norm": 0.27280953526496887,
	"learning_rate": 0.0001,
	"loss": 0.1497,
	"step": 26500
	},
	{
	"epoch": 98.0,
	"eval_accuracy": 0.27546777546777546,
	"eval_f1_macro": 0.6600105762308898,
	"eval_f1_micro": 0.799611141637432,
	"eval_loss": 0.13266970217227936,
	"eval_roc_auc": 0.864715456620441,
	"eval_runtime": 439.781,
	"eval_samples_per_second": 6.562,
	"eval_steps_per_second": 0.207,
	"learning_rate": 0.0001,
	"step": 26754
	},
	{
	"epoch": 98.9010989010989,
	"grad_norm": 0.30599892139434814,
	"learning_rate": 0.0001,
	"loss": 0.1489,
	"step": 27000
	},
	{
	"epoch": 99.0,
	"eval_accuracy": 0.27165627165627165,
	"eval_f1_macro": 0.6589970862385839,
	"eval_f1_micro": 0.7978809757764771,
	"eval_loss": 0.13253149390220642,
	"eval_roc_auc": 0.8607699202364255,
	"eval_runtime": 438.5456,
	"eval_samples_per_second": 6.581,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 27027
	},
	{
	"epoch": 100.0,
	"eval_accuracy": 0.27616077616077617,
	"eval_f1_macro": 0.6570195655430786,
	"eval_f1_micro": 0.797143840330351,
	"eval_loss": 0.1329408884048462,
	"eval_roc_auc": 0.8584810367011169,
	"eval_runtime": 434.9771,
	"eval_samples_per_second": 6.635,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 27300
	},
	{
	"epoch": 100.73260073260073,
	"grad_norm": 0.2732805013656616,
	"learning_rate": 0.0001,
	"loss": 0.1482,
	"step": 27500
	},
	{
	"epoch": 101.0,
	"eval_accuracy": 0.28205128205128205,
	"eval_f1_macro": 0.657951499975745,
	"eval_f1_micro": 0.7991615690636095,
	"eval_loss": 0.13274870812892914,
	"eval_roc_auc": 0.861103560655407,
	"eval_runtime": 435.4493,
	"eval_samples_per_second": 6.628,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 27573
	},
	{
	"epoch": 102.0,
	"eval_accuracy": 0.2817047817047817,
	"eval_f1_macro": 0.654306822863844,
	"eval_f1_micro": 0.7986821274228745,
	"eval_loss": 0.1326293796300888,
	"eval_roc_auc": 0.8607733407448822,
	"eval_runtime": 437.9645,
	"eval_samples_per_second": 6.59,
	"eval_steps_per_second": 0.208,
	"learning_rate": 0.0001,
	"step": 27846
	},
	{
	"epoch": 102.56410256410257,
	"grad_norm": 0.23533137142658234,
	"learning_rate": 0.0001,
	"loss": 0.1474,
	"step": 28000
	},
	{
	"epoch": 103.0,
	"eval_accuracy": 0.2803187803187803,
	"eval_f1_macro": 0.6518495856500403,
	"eval_f1_micro": 0.7993688968487486,
	"eval_loss": 0.13247379660606384,
	"eval_roc_auc": 0.8620991566501659,
	"eval_runtime": 426.0566,
	"eval_samples_per_second": 6.774,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 28119
	},
	{
	"epoch": 104.0,
	"eval_accuracy": 0.27754677754677753,
	"eval_f1_macro": 0.6612536009112525,
	"eval_f1_micro": 0.8010850676047981,
	"eval_loss": 0.13315415382385254,
	"eval_roc_auc": 0.864729420343199,
	"eval_runtime": 425.2679,
	"eval_samples_per_second": 6.786,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 28392
	},
	{
	"epoch": 104.3956043956044,
	"grad_norm": 0.2809629738330841,
	"learning_rate": 0.0001,
	"loss": 0.1472,
	"step": 28500
	},
	{
	"epoch": 105.0,
	"eval_accuracy": 0.2830907830907831,
	"eval_f1_macro": 0.6635718544409769,
	"eval_f1_micro": 0.8012698412698412,
	"eval_loss": 0.13218620419502258,
	"eval_roc_auc": 0.8652135899617869,
	"eval_runtime": 425.1586,
	"eval_samples_per_second": 6.788,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 28665
	},
	{
	"epoch": 106.0,
	"eval_accuracy": 0.2830907830907831,
	"eval_f1_macro": 0.6588128942023547,
	"eval_f1_micro": 0.800988243312319,
	"eval_loss": 0.13239973783493042,
	"eval_roc_auc": 0.8632750603887415,
	"eval_runtime": 427.5404,
	"eval_samples_per_second": 6.75,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 28938
	},
	{
	"epoch": 106.22710622710623,
	"grad_norm": 0.2568123936653137,
	"learning_rate": 0.0001,
	"loss": 0.148,
	"step": 29000
	},
	{
	"epoch": 107.0,
	"eval_accuracy": 0.2785862785862786,
	"eval_f1_macro": 0.650564106362156,
	"eval_f1_micro": 0.7985513421389007,
	"eval_loss": 0.13358280062675476,
	"eval_roc_auc": 0.8618832353771251,
	"eval_runtime": 425.2874,
	"eval_samples_per_second": 6.786,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 29211
	},
	{
	"epoch": 108.0,
	"eval_accuracy": 0.2796257796257796,
	"eval_f1_macro": 0.6501303094783896,
	"eval_f1_micro": 0.7995554225623049,
	"eval_loss": 0.13270235061645508,
	"eval_roc_auc": 0.8615071940670409,
	"eval_runtime": 432.9179,
	"eval_samples_per_second": 6.666,
	"eval_steps_per_second": 0.21,
	"learning_rate": 0.0001,
	"step": 29484
	},
	{
	"epoch": 108.05860805860806,
	"grad_norm": 0.29480934143066406,
	"learning_rate": 0.0001,
	"loss": 0.1477,
	"step": 29500
	},
	{
	"epoch": 109.0,
	"eval_accuracy": 0.2806652806652807,
	"eval_f1_macro": 0.6579556871315007,
	"eval_f1_micro": 0.8000342553738118,
	"eval_loss": 0.1318453699350357,
	"eval_roc_auc": 0.8612993478767093,
	"eval_runtime": 434.6895,
	"eval_samples_per_second": 6.639,
	"eval_steps_per_second": 0.209,
	"learning_rate": 0.0001,
	"step": 29757
	},
	{
	"epoch": 109.89010989010988,
	"grad_norm": 0.3718918561935425,
	"learning_rate": 0.0001,
	"loss": 0.1479,
	"step": 30000
	},
	{
	"epoch": 110.0,
	"eval_accuracy": 0.2803187803187803,
	"eval_f1_macro": 0.6582487839550253,
	"eval_f1_micro": 0.7997274043785672,
	"eval_loss": 0.13255637884140015,
	"eval_roc_auc": 0.8626158546334878,
	"eval_runtime": 427.7015,
	"eval_samples_per_second": 6.748,
	"eval_steps_per_second": 0.213,
	"learning_rate": 0.0001,
	"step": 30030
	},
	{
	"epoch": 111.0,
	"eval_accuracy": 0.2785862785862786,
	"eval_f1_macro": 0.6608614747058748,
	"eval_f1_micro": 0.8012935069355799,
	"eval_loss": 0.1319260448217392,
	"eval_roc_auc": 0.8637521073014844,
	"eval_runtime": 422.4227,
	"eval_samples_per_second": 6.832,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 30303
	},
	{
	"epoch": 111.72161172161172,
	"grad_norm": 0.3544025719165802,
	"learning_rate": 0.0001,
	"loss": 0.1466,
	"step": 30500
	},
	{
	"epoch": 112.0,
	"eval_accuracy": 0.28101178101178104,
	"eval_f1_macro": 0.6595016342799644,
	"eval_f1_micro": 0.8019278738426415,
	"eval_loss": 0.13223350048065186,
	"eval_roc_auc": 0.8659084092462648,
	"eval_runtime": 420.8235,
	"eval_samples_per_second": 6.858,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.0001,
	"step": 30576
	},
	{
	"epoch": 113.0,
	"eval_accuracy": 0.27997227997227997,
	"eval_f1_macro": 0.6592029124671744,
	"eval_f1_micro": 0.8024988392216453,
	"eval_loss": 0.13213913142681122,
	"eval_roc_auc": 0.8666766420318518,
	"eval_runtime": 423.8949,
	"eval_samples_per_second": 6.808,
	"eval_steps_per_second": 0.215,
	"learning_rate": 0.0001,
	"step": 30849
	},
	{
	"epoch": 113.55311355311355,
	"grad_norm": 0.35069116950035095,
	"learning_rate": 0.0001,
	"loss": 0.1474,
	"step": 31000
	},
	{
	"epoch": 114.0,
	"eval_accuracy": 0.2823977823977824,
	"eval_f1_macro": 0.663088095209859,
	"eval_f1_micro": 0.8025030654094965,
	"eval_loss": 0.13204564154148102,
	"eval_roc_auc": 0.8661983610533127,
	"eval_runtime": 421.2287,
	"eval_samples_per_second": 6.851,
	"eval_steps_per_second": 0.216,
	"learning_rate": 0.0001,
	"step": 31122
	},
	{
	"epoch": 115.0,
	"eval_accuracy": 0.28378378378378377,
	"eval_f1_macro": 0.659797224924612,
	"eval_f1_micro": 0.8004266211604096,
	"eval_loss": 0.1319342404603958,
	"eval_roc_auc": 0.8625399730007867,
	"eval_runtime": 424.6871,
	"eval_samples_per_second": 6.796,
	"eval_steps_per_second": 0.214,
	"learning_rate": 0.0001,
	"step": 31395
	},
	{
	"epoch": 115.38461538461539,
	"grad_norm": 0.29624369740486145,
	"learning_rate": 1e-05,
	"loss": 0.1468,
	"step": 31500
	},
	{
	"epoch": 116.0,
	"eval_accuracy": 0.2844767844767845,
	"eval_f1_macro": 0.6627361818946377,
	"eval_f1_micro": 0.8022295974810655,
	"eval_loss": 0.13186337053775787,
	"eval_roc_auc": 0.8642598314802673,
	"eval_runtime": 423.8673,
	"eval_samples_per_second": 6.809,
	"eval_steps_per_second": 0.215,
	"learning_rate": 1e-05,
	"step": 31668
	},
	{
	"epoch": 117.0,
	"eval_accuracy": 0.28205128205128205,
	"eval_f1_macro": 0.6604165936303265,
	"eval_f1_micro": 0.8012607547491268,
	"eval_loss": 0.1317850947380066,
	"eval_roc_auc": 0.8634466760169507,
	"eval_runtime": 419.012,
	"eval_samples_per_second": 6.888,
	"eval_steps_per_second": 0.217,
	"learning_rate": 1e-05,
	"step": 31941
	},
	{
	"epoch": 117.21611721611721,
	"grad_norm": 0.28633400797843933,
	"learning_rate": 1e-05,
	"loss": 0.1455,
	"step": 32000
	},
	{
	"epoch": 118.0,
	"eval_accuracy": 0.2796257796257796,
	"eval_f1_macro": 0.6590147410119703,
	"eval_f1_micro": 0.8002395926924228,
	"eval_loss": 0.13159342110157013,
	"eval_roc_auc": 0.8616373075259771,
	"eval_runtime": 419.8006,
	"eval_samples_per_second": 6.875,
	"eval_steps_per_second": 0.217,
	"learning_rate": 1e-05,
	"step": 32214
	},
	{
	"epoch": 119.0,
	"eval_accuracy": 0.28274428274428276,
	"eval_f1_macro": 0.6608406822787987,
	"eval_f1_micro": 0.8036745185622182,
	"eval_loss": 0.1319129317998886,
	"eval_roc_auc": 0.8678011174197509,
	"eval_runtime": 423.7674,
	"eval_samples_per_second": 6.81,
	"eval_steps_per_second": 0.215,
	"learning_rate": 1e-05,
	"step": 32487
	},
	{
	"epoch": 119.04761904761905,
	"grad_norm": 0.31120315194129944,
	"learning_rate": 1e-05,
	"loss": 0.1451,
	"step": 32500
	},
	{
	"epoch": 120.0,
	"eval_accuracy": 0.28135828135828134,
	"eval_f1_macro": 0.6614581971670047,
	"eval_f1_micro": 0.803593372600534,
	"eval_loss": 0.13164088129997253,
	"eval_roc_auc": 0.8661674020983411,
	"eval_runtime": 420.709,
	"eval_samples_per_second": 6.86,
	"eval_steps_per_second": 0.216,
	"learning_rate": 1e-05,
	"step": 32760
	},
	{
	"epoch": 120.87912087912088,
	"grad_norm": 0.31770700216293335,
	"learning_rate": 1e-05,
	"loss": 0.1454,
	"step": 33000
	},
	{
	"epoch": 121.0,
	"eval_accuracy": 0.28101178101178104,
	"eval_f1_macro": 0.6610641151618838,
	"eval_f1_micro": 0.8012604863092451,
	"eval_loss": 0.13184630870819092,
	"eval_roc_auc": 0.8635064611392681,
	"eval_runtime": 422.0264,
	"eval_samples_per_second": 6.838,
	"eval_steps_per_second": 0.216,
	"learning_rate": 1e-05,
	"step": 33033
	},
	{
	"epoch": 122.0,
	"eval_accuracy": 0.2817047817047817,
	"eval_f1_macro": 0.6647378818356079,
	"eval_f1_micro": 0.8049611099432415,
	"eval_loss": 0.13215216994285583,
	"eval_roc_auc": 0.8691576105910745,
	"eval_runtime": 436.9114,
	"eval_samples_per_second": 6.605,
	"eval_steps_per_second": 0.208,
	"learning_rate": 1e-05,
	"step": 33306
	},
	{
	"epoch": 122.71062271062272,
	"grad_norm": 0.22290275990962982,
	"learning_rate": 1e-05,
	"loss": 0.145,
	"step": 33500
	},
	{
	"epoch": 123.0,
	"eval_accuracy": 0.2817047817047817,
	"eval_f1_macro": 0.6604978306251739,
	"eval_f1_micro": 0.8010107932156931,
	"eval_loss": 0.13187836110591888,
	"eval_roc_auc": 0.8617537926061216,
	"eval_runtime": 431.3938,
	"eval_samples_per_second": 6.69,
	"eval_steps_per_second": 0.211,
	"learning_rate": 1e-05,
	"step": 33579
	},
	{
	"epoch": 124.0,
	"eval_accuracy": 0.2806652806652807,
	"eval_f1_macro": 0.6621515776947642,
	"eval_f1_micro": 0.8018739352640545,
	"eval_loss": 0.13141389191150665,
	"eval_roc_auc": 0.8638029186192627,
	"eval_runtime": 430.2675,
	"eval_samples_per_second": 6.707,
	"eval_steps_per_second": 0.211,
	"learning_rate": 1e-05,
	"step": 33852
	},
	{
	"epoch": 124.54212454212454,
	"grad_norm": 0.27631625533103943,
	"learning_rate": 1e-05,
	"loss": 0.1459,
	"step": 34000
	},
	{
	"epoch": 125.0,
	"eval_accuracy": 0.2862092862092862,
	"eval_f1_macro": 0.6640721616133445,
	"eval_f1_micro": 0.804345987993574,
	"eval_loss": 0.13139639794826508,
	"eval_roc_auc": 0.8672404491355638,
	"eval_runtime": 432.0509,
	"eval_samples_per_second": 6.68,
	"eval_steps_per_second": 0.211,
	"learning_rate": 1e-05,
	"step": 34125
	},
	{
	"epoch": 126.0,
	"eval_accuracy": 0.2862092862092862,
	"eval_f1_macro": 0.663003919720051,
	"eval_f1_micro": 0.804212663367593,
	"eval_loss": 0.13103623688220978,
	"eval_roc_auc": 0.8670350710768244,
	"eval_runtime": 432.4499,
	"eval_samples_per_second": 6.674,
	"eval_steps_per_second": 0.21,
	"learning_rate": 1e-05,
	"step": 34398
	},
	{
	"epoch": 126.37362637362638,
	"grad_norm": 0.3177105188369751,
	"learning_rate": 1e-05,
	"loss": 0.1439,
	"step": 34500
	},
	{
	"epoch": 127.0,
	"eval_accuracy": 0.28586278586278585,
	"eval_f1_macro": 0.6597731906072118,
	"eval_f1_micro": 0.8038346213944846,
	"eval_loss": 0.13152988255023956,
	"eval_roc_auc": 0.8672624342859965,
	"eval_runtime": 431.3827,
	"eval_samples_per_second": 6.69,
	"eval_steps_per_second": 0.211,
	"learning_rate": 1e-05,
	"step": 34671
	},
	{
	"epoch": 128.0,
	"eval_accuracy": 0.2869022869022869,
	"eval_f1_macro": 0.668197478893632,
	"eval_f1_micro": 0.8042412977357216,
	"eval_loss": 0.13113313913345337,
	"eval_roc_auc": 0.8674002874836755,
	"eval_runtime": 439.4627,
	"eval_samples_per_second": 6.567,
	"eval_steps_per_second": 0.207,
	"learning_rate": 1e-05,
	"step": 34944
	},
	{
	"epoch": 128.2051282051282,
	"grad_norm": 0.2520149350166321,
	"learning_rate": 1e-05,
	"loss": 0.1446,
	"step": 35000
	},
	{
	"epoch": 129.0,
	"eval_accuracy": 0.28274428274428276,
	"eval_f1_macro": 0.6652814888251478,
	"eval_f1_micro": 0.8034694309287074,
	"eval_loss": 0.13096605241298676,
	"eval_roc_auc": 0.8665332355380903,
	"eval_runtime": 443.7844,
	"eval_samples_per_second": 6.503,
	"eval_steps_per_second": 0.205,
	"learning_rate": 1e-05,
	"step": 35217
	},
	{
	"epoch": 130.0,
	"eval_accuracy": 0.28655578655578656,
	"eval_f1_macro": 0.6657375892895663,
	"eval_f1_micro": 0.8034491503931017,
	"eval_loss": 0.1310083270072937,
	"eval_roc_auc": 0.866799015752045,
	"eval_runtime": 440.6588,
	"eval_samples_per_second": 6.549,
	"eval_steps_per_second": 0.207,
	"learning_rate": 1e-05,
	"step": 35490
	},
	{
	"epoch": 130.03663003663004,
	"grad_norm": 0.2916598916053772,
	"learning_rate": 1e-05,
	"loss": 0.1449,
	"step": 35500
	},
	{
	"epoch": 131.0,
	"eval_accuracy": 0.2834372834372834,
	"eval_f1_macro": 0.6709132204127336,
	"eval_f1_micro": 0.8052362171687506,
	"eval_loss": 0.13133247196674347,
	"eval_roc_auc": 0.8699004377177725,
	"eval_runtime": 446.7612,
	"eval_samples_per_second": 6.46,
	"eval_steps_per_second": 0.204,
	"learning_rate": 1e-05,
	"step": 35763
	},
	{
	"epoch": 131.86813186813185,
	"grad_norm": 0.3473760783672333,
	"learning_rate": 1e-05,
	"loss": 0.1442,
	"step": 36000
	},
	{
	"epoch": 132.0,
	"eval_accuracy": 0.2806652806652807,
	"eval_f1_macro": 0.6557913726655867,
	"eval_f1_micro": 0.7985562048814026,
	"eval_loss": 0.13149647414684296,
	"eval_roc_auc": 0.8595249758820619,
	"eval_runtime": 447.0484,
	"eval_samples_per_second": 6.456,
	"eval_steps_per_second": 0.204,
	"learning_rate": 1e-05,
	"step": 36036
	},
	{
	"epoch": 133.0,
	"eval_accuracy": 0.28794178794178793,
	"eval_f1_macro": 0.6689392948255155,
	"eval_f1_micro": 0.8051816958277256,
	"eval_loss": 0.1311328113079071,
	"eval_roc_auc": 0.8691700049040701,
	"eval_runtime": 444.1217,
	"eval_samples_per_second": 6.498,
	"eval_steps_per_second": 0.205,
	"learning_rate": 1e-05,
	"step": 36309
	},
	{
	"epoch": 133.6996336996337,
	"grad_norm": 0.2959079444408417,
	"learning_rate": 1e-05,
	"loss": 0.1443,
	"step": 36500
	},
	{
	"epoch": 134.0,
	"eval_accuracy": 0.28274428274428276,
	"eval_f1_macro": 0.6648386499372343,
	"eval_f1_micro": 0.802060714437774,
	"eval_loss": 0.1308571696281433,
	"eval_roc_auc": 0.8639881626262637,
	"eval_runtime": 444.917,
	"eval_samples_per_second": 6.487,
	"eval_steps_per_second": 0.205,
	"learning_rate": 1e-05,
	"step": 36582
	},
	{
	"epoch": 135.0,
	"eval_accuracy": 0.2869022869022869,
	"eval_f1_macro": 0.6684163123065296,
	"eval_f1_micro": 0.8038277511961722,
	"eval_loss": 0.13148072361946106,
	"eval_roc_auc": 0.8665118674205556,
	"eval_runtime": 437.5153,
	"eval_samples_per_second": 6.596,
	"eval_steps_per_second": 0.208,
	"learning_rate": 1e-05,
	"step": 36855
	},
	{
	"epoch": 135.53113553113553,
	"grad_norm": 0.3723543882369995,
	"learning_rate": 1e-05,
	"loss": 0.1438,
	"step": 37000
	},
	{
	"epoch": 136.0,
	"eval_accuracy": 0.28274428274428276,
	"eval_f1_macro": 0.659009971789042,
	"eval_f1_micro": 0.8024591213764248,
	"eval_loss": 0.13150115311145782,
	"eval_roc_auc": 0.8634352340808195,
	"eval_runtime": 444.5109,
	"eval_samples_per_second": 6.493,
	"eval_steps_per_second": 0.205,
	"learning_rate": 1e-05,
	"step": 37128
	},
	{
	"epoch": 137.0,
	"eval_accuracy": 0.28586278586278585,
	"eval_f1_macro": 0.6666808903899752,
	"eval_f1_micro": 0.8035592643051771,
	"eval_loss": 0.1310679018497467,
	"eval_roc_auc": 0.8648124783367798,
	"eval_runtime": 434.2661,
	"eval_samples_per_second": 6.646,
	"eval_steps_per_second": 0.21,
	"learning_rate": 1e-05,
	"step": 37401
	},
	{
	"epoch": 137.36263736263737,
	"grad_norm": 0.36766815185546875,
	"learning_rate": 1e-05,
	"loss": 0.1452,
	"step": 37500
	},
	{
	"epoch": 138.0,
	"eval_accuracy": 0.2844767844767845,
	"eval_f1_macro": 0.6665598962110765,
	"eval_f1_micro": 0.8035426731078905,
	"eval_loss": 0.13124705851078033,
	"eval_roc_auc": 0.8661277510277622,
	"eval_runtime": 434.1413,
	"eval_samples_per_second": 6.648,
	"eval_steps_per_second": 0.21,
	"learning_rate": 1e-05,
	"step": 37674
	},
	{
	"epoch": 139.0,
	"eval_accuracy": 0.28967428967428965,
	"eval_f1_macro": 0.6661043989752415,
	"eval_f1_micro": 0.8052538519828238,
	"eval_loss": 0.13104070723056793,
	"eval_roc_auc": 0.8689438757606943,
	"eval_runtime": 433.2581,
	"eval_samples_per_second": 6.661,
	"eval_steps_per_second": 0.21,
	"learning_rate": 1e-05,
	"step": 37947
	},
	{
	"epoch": 139.19413919413918,
	"grad_norm": 0.35373228788375854,
	"learning_rate": 1e-05,
	"loss": 0.144,
	"step": 38000
	},
	{
	"epoch": 140.0,
	"eval_accuracy": 0.2834372834372834,
	"eval_f1_macro": 0.663466069531375,
	"eval_f1_micro": 0.8020416843896214,
	"eval_loss": 0.13169734179973602,
	"eval_roc_auc": 0.8642539428402185,
	"eval_runtime": 435.0147,
	"eval_samples_per_second": 6.634,
	"eval_steps_per_second": 0.209,
	"learning_rate": 1e-05,
	"step": 38220
	},
	{
	"epoch": 141.0,
	"eval_accuracy": 0.2875952875952876,
	"eval_f1_macro": 0.6687691213000826,
	"eval_f1_micro": 0.8046521463311481,
	"eval_loss": 0.13089434802532196,
	"eval_roc_auc": 0.867299000192085,
	"eval_runtime": 429.8469,
	"eval_samples_per_second": 6.714,
	"eval_steps_per_second": 0.212,
	"learning_rate": 1.0000000000000002e-06,
	"step": 38493
	},
	{
	"epoch": 141.02564102564102,
	"grad_norm": 0.2815115451812744,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.1445,
	"step": 38500
	},
	{
	"epoch": 142.0,
	"eval_accuracy": 0.28586278586278585,
	"eval_f1_macro": 0.6642894279153319,
	"eval_f1_micro": 0.8041640110473762,
	"eval_loss": 0.13103386759757996,
	"eval_roc_auc": 0.8657067870399482,
	"eval_runtime": 425.5573,
	"eval_samples_per_second": 6.782,
	"eval_steps_per_second": 0.214,
	"learning_rate": 1.0000000000000002e-06,
	"step": 38766
	},
	{
	"epoch": 142.85714285714286,
	"grad_norm": 0.3381010890007019,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.1441,
	"step": 39000
	},
	{
	"epoch": 143.0,
	"eval_accuracy": 0.2872487872487873,
	"eval_f1_macro": 0.6623287859816251,
	"eval_f1_micro": 0.8019270122783083,
	"eval_loss": 0.13144278526306152,
	"eval_roc_auc": 0.8635436440782548,
	"eval_runtime": 433.7658,
	"eval_samples_per_second": 6.653,
	"eval_steps_per_second": 0.21,
	"learning_rate": 1.0000000000000002e-06,
	"step": 39039
	},
	{
	"epoch": 144.0,
	"eval_accuracy": 0.28378378378378377,
	"eval_f1_macro": 0.6647534218687892,
	"eval_f1_micro": 0.8024974515800204,
	"eval_loss": 0.1311902105808258,
	"eval_roc_auc": 0.8649097280870156,
	"eval_runtime": 446.8955,
	"eval_samples_per_second": 6.458,
	"eval_steps_per_second": 0.204,
	"learning_rate": 1.0000000000000002e-06,
	"step": 39312
	},
	{
	"epoch": 144.0,
	"learning_rate": 1.0000000000000002e-06,
	"step": 39312,
	"total_flos": 1.3598709030716368e+20,
	"train_loss": 0.157796386979584,
	"train_runtime": 249885.5342,
	"train_samples_per_second": 5.232,
	"train_steps_per_second": 0.164
	}
	],
	"logging_steps": 500,
	"max_steps": 40950,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 150,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3598709030716368e+20,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}