End of training

aef37d4 verified 27 days ago

37.1 kB

	{
	"best_metric": 0.15389865636825562,
	"best_model_checkpoint": "mobilevitv2-1.0-imagenet1k-256-finetuned_v2024-10-21-frost/checkpoint-1000",
	"epoch": 30.0,
	"eval_steps": 100,
	"global_step": 1710,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.17543859649122806,
	"grad_norm": 0.3124828040599823,
	"learning_rate": 1.1695906432748537e-05,
	"loss": 0.6955,
	"step": 10
	},
	{
	"epoch": 0.3508771929824561,
	"grad_norm": 0.24917739629745483,
	"learning_rate": 2.3391812865497074e-05,
	"loss": 0.6942,
	"step": 20
	},
	{
	"epoch": 0.5263157894736842,
	"grad_norm": 0.2268371284008026,
	"learning_rate": 3.508771929824561e-05,
	"loss": 0.6939,
	"step": 30
	},
	{
	"epoch": 0.7017543859649122,
	"grad_norm": 0.2435961812734604,
	"learning_rate": 4.678362573099415e-05,
	"loss": 0.6918,
	"step": 40
	},
	{
	"epoch": 0.8771929824561403,
	"grad_norm": 0.24638999998569489,
	"learning_rate": 5.847953216374269e-05,
	"loss": 0.6889,
	"step": 50
	},
	{
	"epoch": 1.0526315789473684,
	"grad_norm": 0.2426590472459793,
	"learning_rate": 7.017543859649122e-05,
	"loss": 0.6854,
	"step": 60
	},
	{
	"epoch": 1.2280701754385965,
	"grad_norm": 0.26534757018089294,
	"learning_rate": 8.187134502923976e-05,
	"loss": 0.6803,
	"step": 70
	},
	{
	"epoch": 1.4035087719298245,
	"grad_norm": 0.2573549449443817,
	"learning_rate": 9.35672514619883e-05,
	"loss": 0.6763,
	"step": 80
	},
	{
	"epoch": 1.5789473684210527,
	"grad_norm": 0.2639031410217285,
	"learning_rate": 0.00010526315789473685,
	"loss": 0.6701,
	"step": 90
	},
	{
	"epoch": 1.7543859649122808,
	"grad_norm": 0.26114630699157715,
	"learning_rate": 0.00011695906432748539,
	"loss": 0.6635,
	"step": 100
	},
	{
	"epoch": 1.7543859649122808,
	"eval_accuracy": 0.7604444444444445,
	"eval_f1": 0.5705179282868525,
	"eval_loss": 0.6512863039970398,
	"eval_precision": 0.43552311435523117,
	"eval_recall": 0.8267898383371824,
	"eval_runtime": 2.9095,
	"eval_samples_per_second": 77.332,
	"eval_steps_per_second": 9.967,
	"step": 100
	},
	{
	"epoch": 1.9298245614035088,
	"grad_norm": 0.3371104896068573,
	"learning_rate": 0.0001286549707602339,
	"loss": 0.6502,
	"step": 110
	},
	{
	"epoch": 2.1052631578947367,
	"grad_norm": 0.31244638562202454,
	"learning_rate": 0.00014035087719298245,
	"loss": 0.6343,
	"step": 120
	},
	{
	"epoch": 2.280701754385965,
	"grad_norm": 0.47065746784210205,
	"learning_rate": 0.00015204678362573098,
	"loss": 0.6161,
	"step": 130
	},
	{
	"epoch": 2.456140350877193,
	"grad_norm": 0.41640815138816833,
	"learning_rate": 0.00016374269005847952,
	"loss": 0.588,
	"step": 140
	},
	{
	"epoch": 2.6315789473684212,
	"grad_norm": 0.34670090675354004,
	"learning_rate": 0.00017543859649122806,
	"loss": 0.5565,
	"step": 150
	},
	{
	"epoch": 2.807017543859649,
	"grad_norm": 0.384328693151474,
	"learning_rate": 0.0001871345029239766,
	"loss": 0.5242,
	"step": 160
	},
	{
	"epoch": 2.982456140350877,
	"grad_norm": 0.4133964478969574,
	"learning_rate": 0.00019883040935672513,
	"loss": 0.5158,
	"step": 170
	},
	{
	"epoch": 3.1578947368421053,
	"grad_norm": 0.4693595767021179,
	"learning_rate": 0.00019883040935672513,
	"loss": 0.4658,
	"step": 180
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 0.41811782121658325,
	"learning_rate": 0.00019753086419753085,
	"loss": 0.4297,
	"step": 190
	},
	{
	"epoch": 3.5087719298245617,
	"grad_norm": 0.8540976643562317,
	"learning_rate": 0.00019623131903833657,
	"loss": 0.4461,
	"step": 200
	},
	{
	"epoch": 3.5087719298245617,
	"eval_accuracy": 0.8768888888888889,
	"eval_f1": 0.729227761485826,
	"eval_loss": 0.3972250819206238,
	"eval_precision": 0.6322033898305085,
	"eval_recall": 0.8614318706697459,
	"eval_runtime": 1.766,
	"eval_samples_per_second": 127.406,
	"eval_steps_per_second": 16.421,
	"step": 200
	},
	{
	"epoch": 3.6842105263157894,
	"grad_norm": 0.8259305357933044,
	"learning_rate": 0.0001949317738791423,
	"loss": 0.3914,
	"step": 210
	},
	{
	"epoch": 3.8596491228070176,
	"grad_norm": 0.8546284437179565,
	"learning_rate": 0.00019363222871994802,
	"loss": 0.384,
	"step": 220
	},
	{
	"epoch": 4.035087719298246,
	"grad_norm": 0.3827027678489685,
	"learning_rate": 0.00019233268356075374,
	"loss": 0.3497,
	"step": 230
	},
	{
	"epoch": 4.2105263157894735,
	"grad_norm": 0.6248043775558472,
	"learning_rate": 0.00019103313840155946,
	"loss": 0.3648,
	"step": 240
	},
	{
	"epoch": 4.385964912280702,
	"grad_norm": 0.5684685111045837,
	"learning_rate": 0.00018973359324236518,
	"loss": 0.3112,
	"step": 250
	},
	{
	"epoch": 4.56140350877193,
	"grad_norm": 0.5080260634422302,
	"learning_rate": 0.0001884340480831709,
	"loss": 0.3059,
	"step": 260
	},
	{
	"epoch": 4.7368421052631575,
	"grad_norm": 0.5282370448112488,
	"learning_rate": 0.0001871345029239766,
	"loss": 0.2922,
	"step": 270
	},
	{
	"epoch": 4.912280701754386,
	"grad_norm": 0.7253307104110718,
	"learning_rate": 0.00018583495776478232,
	"loss": 0.2909,
	"step": 280
	},
	{
	"epoch": 5.087719298245614,
	"grad_norm": 0.7058104276657104,
	"learning_rate": 0.00018453541260558804,
	"loss": 0.2922,
	"step": 290
	},
	{
	"epoch": 5.2631578947368425,
	"grad_norm": 1.1993378400802612,
	"learning_rate": 0.00018323586744639376,
	"loss": 0.2599,
	"step": 300
	},
	{
	"epoch": 5.2631578947368425,
	"eval_accuracy": 0.9226666666666666,
	"eval_f1": 0.804932735426009,
	"eval_loss": 0.2404223531484604,
	"eval_precision": 0.7821350762527233,
	"eval_recall": 0.8290993071593533,
	"eval_runtime": 2.7313,
	"eval_samples_per_second": 82.378,
	"eval_steps_per_second": 10.618,
	"step": 300
	},
	{
	"epoch": 5.43859649122807,
	"grad_norm": 0.8134835362434387,
	"learning_rate": 0.00018193632228719948,
	"loss": 0.2645,
	"step": 310
	},
	{
	"epoch": 5.614035087719298,
	"grad_norm": 0.7742730975151062,
	"learning_rate": 0.0001806367771280052,
	"loss": 0.2345,
	"step": 320
	},
	{
	"epoch": 5.7894736842105265,
	"grad_norm": 0.5191880464553833,
	"learning_rate": 0.00017933723196881092,
	"loss": 0.2504,
	"step": 330
	},
	{
	"epoch": 5.964912280701754,
	"grad_norm": 0.7682189345359802,
	"learning_rate": 0.00017803768680961664,
	"loss": 0.2654,
	"step": 340
	},
	{
	"epoch": 6.140350877192983,
	"grad_norm": 0.7704707384109497,
	"learning_rate": 0.00017673814165042236,
	"loss": 0.2431,
	"step": 350
	},
	{
	"epoch": 6.315789473684211,
	"grad_norm": 0.9333469867706299,
	"learning_rate": 0.00017543859649122806,
	"loss": 0.2382,
	"step": 360
	},
	{
	"epoch": 6.491228070175438,
	"grad_norm": 0.8412513136863708,
	"learning_rate": 0.00017413905133203378,
	"loss": 0.2207,
	"step": 370
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 0.7568041086196899,
	"learning_rate": 0.0001728395061728395,
	"loss": 0.2271,
	"step": 380
	},
	{
	"epoch": 6.842105263157895,
	"grad_norm": 0.689445436000824,
	"learning_rate": 0.00017153996101364522,
	"loss": 0.2076,
	"step": 390
	},
	{
	"epoch": 7.017543859649122,
	"grad_norm": 0.7390238046646118,
	"learning_rate": 0.00017024041585445094,
	"loss": 0.2074,
	"step": 400
	},
	{
	"epoch": 7.017543859649122,
	"eval_accuracy": 0.9346666666666666,
	"eval_f1": 0.8256227758007118,
	"eval_loss": 0.1941838562488556,
	"eval_precision": 0.848780487804878,
	"eval_recall": 0.8036951501154734,
	"eval_runtime": 1.7733,
	"eval_samples_per_second": 126.88,
	"eval_steps_per_second": 16.353,
	"step": 400
	},
	{
	"epoch": 7.192982456140351,
	"grad_norm": 0.4645775258541107,
	"learning_rate": 0.00016894087069525666,
	"loss": 0.2233,
	"step": 410
	},
	{
	"epoch": 7.368421052631579,
	"grad_norm": 0.6826916337013245,
	"learning_rate": 0.00016764132553606238,
	"loss": 0.1846,
	"step": 420
	},
	{
	"epoch": 7.543859649122807,
	"grad_norm": 0.6299170851707458,
	"learning_rate": 0.0001663417803768681,
	"loss": 0.1807,
	"step": 430
	},
	{
	"epoch": 7.719298245614035,
	"grad_norm": 0.40688008069992065,
	"learning_rate": 0.00016504223521767383,
	"loss": 0.1925,
	"step": 440
	},
	{
	"epoch": 7.894736842105263,
	"grad_norm": 0.8310642242431641,
	"learning_rate": 0.00016374269005847952,
	"loss": 0.1906,
	"step": 450
	},
	{
	"epoch": 8.070175438596491,
	"grad_norm": 0.7561126351356506,
	"learning_rate": 0.00016244314489928524,
	"loss": 0.2537,
	"step": 460
	},
	{
	"epoch": 8.24561403508772,
	"grad_norm": 1.5505608320236206,
	"learning_rate": 0.00016114359974009096,
	"loss": 0.2134,
	"step": 470
	},
	{
	"epoch": 8.421052631578947,
	"grad_norm": 0.5844523310661316,
	"learning_rate": 0.00015984405458089668,
	"loss": 0.1927,
	"step": 480
	},
	{
	"epoch": 8.596491228070175,
	"grad_norm": 0.6846328377723694,
	"learning_rate": 0.0001585445094217024,
	"loss": 0.1843,
	"step": 490
	},
	{
	"epoch": 8.771929824561404,
	"grad_norm": 0.5246126651763916,
	"learning_rate": 0.00015724496426250813,
	"loss": 0.167,
	"step": 500
	},
	{
	"epoch": 8.771929824561404,
	"eval_accuracy": 0.9364444444444444,
	"eval_f1": 0.8354430379746836,
	"eval_loss": 0.17720411717891693,
	"eval_precision": 0.8325688073394495,
	"eval_recall": 0.8383371824480369,
	"eval_runtime": 2.7456,
	"eval_samples_per_second": 81.95,
	"eval_steps_per_second": 10.562,
	"step": 500
	},
	{
	"epoch": 8.947368421052632,
	"grad_norm": 0.9557002782821655,
	"learning_rate": 0.00015594541910331385,
	"loss": 0.1752,
	"step": 510
	},
	{
	"epoch": 9.12280701754386,
	"grad_norm": 1.115300178527832,
	"learning_rate": 0.00015464587394411957,
	"loss": 0.2,
	"step": 520
	},
	{
	"epoch": 9.298245614035087,
	"grad_norm": 0.6540657877922058,
	"learning_rate": 0.00015334632878492526,
	"loss": 0.158,
	"step": 530
	},
	{
	"epoch": 9.473684210526315,
	"grad_norm": 0.8491069078445435,
	"learning_rate": 0.00015204678362573098,
	"loss": 0.1813,
	"step": 540
	},
	{
	"epoch": 9.649122807017545,
	"grad_norm": 1.3543705940246582,
	"learning_rate": 0.0001507472384665367,
	"loss": 0.1951,
	"step": 550
	},
	{
	"epoch": 9.824561403508772,
	"grad_norm": 0.8627998232841492,
	"learning_rate": 0.00014944769330734243,
	"loss": 0.1945,
	"step": 560
	},
	{
	"epoch": 10.0,
	"grad_norm": 1.2822953462600708,
	"learning_rate": 0.00014814814814814815,
	"loss": 0.1591,
	"step": 570
	},
	{
	"epoch": 10.175438596491228,
	"grad_norm": 0.6904670596122742,
	"learning_rate": 0.00014684860298895387,
	"loss": 0.1545,
	"step": 580
	},
	{
	"epoch": 10.350877192982455,
	"grad_norm": 1.3155221939086914,
	"learning_rate": 0.0001455490578297596,
	"loss": 0.1385,
	"step": 590
	},
	{
	"epoch": 10.526315789473685,
	"grad_norm": 0.8683547973632812,
	"learning_rate": 0.0001442495126705653,
	"loss": 0.1661,
	"step": 600
	},
	{
	"epoch": 10.526315789473685,
	"eval_accuracy": 0.9342222222222222,
	"eval_f1": 0.8258823529411765,
	"eval_loss": 0.16532927751541138,
	"eval_precision": 0.841726618705036,
	"eval_recall": 0.8106235565819861,
	"eval_runtime": 1.7784,
	"eval_samples_per_second": 126.515,
	"eval_steps_per_second": 16.306,
	"step": 600
	},
	{
	"epoch": 10.701754385964913,
	"grad_norm": 0.7406933307647705,
	"learning_rate": 0.00014294996751137103,
	"loss": 0.1569,
	"step": 610
	},
	{
	"epoch": 10.87719298245614,
	"grad_norm": 1.5100739002227783,
	"learning_rate": 0.00014165042235217672,
	"loss": 0.1873,
	"step": 620
	},
	{
	"epoch": 11.052631578947368,
	"grad_norm": 0.8658424019813538,
	"learning_rate": 0.00014035087719298245,
	"loss": 0.1771,
	"step": 630
	},
	{
	"epoch": 11.228070175438596,
	"grad_norm": 0.761426568031311,
	"learning_rate": 0.00013905133203378817,
	"loss": 0.1522,
	"step": 640
	},
	{
	"epoch": 11.403508771929825,
	"grad_norm": 0.6994770765304565,
	"learning_rate": 0.0001377517868745939,
	"loss": 0.1462,
	"step": 650
	},
	{
	"epoch": 11.578947368421053,
	"grad_norm": 0.6044259071350098,
	"learning_rate": 0.0001364522417153996,
	"loss": 0.1688,
	"step": 660
	},
	{
	"epoch": 11.75438596491228,
	"grad_norm": 0.6377450227737427,
	"learning_rate": 0.00013515269655620533,
	"loss": 0.1726,
	"step": 670
	},
	{
	"epoch": 11.929824561403509,
	"grad_norm": 0.45792627334594727,
	"learning_rate": 0.00013385315139701105,
	"loss": 0.1578,
	"step": 680
	},
	{
	"epoch": 12.105263157894736,
	"grad_norm": 0.5658883452415466,
	"learning_rate": 0.00013255360623781677,
	"loss": 0.1528,
	"step": 690
	},
	{
	"epoch": 12.280701754385966,
	"grad_norm": 0.568031370639801,
	"learning_rate": 0.0001312540610786225,
	"loss": 0.1603,
	"step": 700
	},
	{
	"epoch": 12.280701754385966,
	"eval_accuracy": 0.9408888888888889,
	"eval_f1": 0.8473019517795637,
	"eval_loss": 0.16492225229740143,
	"eval_precision": 0.8424657534246576,
	"eval_recall": 0.8521939953810623,
	"eval_runtime": 2.4488,
	"eval_samples_per_second": 91.883,
	"eval_steps_per_second": 11.843,
	"step": 700
	},
	{
	"epoch": 12.456140350877194,
	"grad_norm": 0.8529219031333923,
	"learning_rate": 0.0001299545159194282,
	"loss": 0.1438,
	"step": 710
	},
	{
	"epoch": 12.631578947368421,
	"grad_norm": 0.7960824370384216,
	"learning_rate": 0.0001286549707602339,
	"loss": 0.1245,
	"step": 720
	},
	{
	"epoch": 12.807017543859649,
	"grad_norm": 0.8270284533500671,
	"learning_rate": 0.00012748538011695908,
	"loss": 0.1775,
	"step": 730
	},
	{
	"epoch": 12.982456140350877,
	"grad_norm": 0.407463014125824,
	"learning_rate": 0.0001261858349577648,
	"loss": 0.1583,
	"step": 740
	},
	{
	"epoch": 13.157894736842104,
	"grad_norm": 1.2405822277069092,
	"learning_rate": 0.0001248862897985705,
	"loss": 0.1412,
	"step": 750
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 0.7762990593910217,
	"learning_rate": 0.00012358674463937622,
	"loss": 0.137,
	"step": 760
	},
	{
	"epoch": 13.508771929824562,
	"grad_norm": 0.7772154808044434,
	"learning_rate": 0.00012228719948018194,
	"loss": 0.1618,
	"step": 770
	},
	{
	"epoch": 13.68421052631579,
	"grad_norm": 0.3346017599105835,
	"learning_rate": 0.00012098765432098766,
	"loss": 0.1276,
	"step": 780
	},
	{
	"epoch": 13.859649122807017,
	"grad_norm": 0.7661828994750977,
	"learning_rate": 0.00011968810916179338,
	"loss": 0.1606,
	"step": 790
	},
	{
	"epoch": 14.035087719298245,
	"grad_norm": 1.2454911470413208,
	"learning_rate": 0.0001183885640025991,
	"loss": 0.1523,
	"step": 800
	},
	{
	"epoch": 14.035087719298245,
	"eval_accuracy": 0.9466666666666667,
	"eval_f1": 0.8591549295774648,
	"eval_loss": 0.15682315826416016,
	"eval_precision": 0.8735083532219571,
	"eval_recall": 0.8452655889145496,
	"eval_runtime": 1.8011,
	"eval_samples_per_second": 124.926,
	"eval_steps_per_second": 16.102,
	"step": 800
	},
	{
	"epoch": 14.210526315789474,
	"grad_norm": 3.0044612884521484,
	"learning_rate": 0.00011708901884340481,
	"loss": 0.1331,
	"step": 810
	},
	{
	"epoch": 14.385964912280702,
	"grad_norm": 0.7117482423782349,
	"learning_rate": 0.00011578947368421053,
	"loss": 0.1619,
	"step": 820
	},
	{
	"epoch": 14.56140350877193,
	"grad_norm": 0.6939218044281006,
	"learning_rate": 0.00011448992852501626,
	"loss": 0.1531,
	"step": 830
	},
	{
	"epoch": 14.736842105263158,
	"grad_norm": 0.5622960329055786,
	"learning_rate": 0.00011319038336582198,
	"loss": 0.131,
	"step": 840
	},
	{
	"epoch": 14.912280701754385,
	"grad_norm": 0.9399430155754089,
	"learning_rate": 0.0001118908382066277,
	"loss": 0.1276,
	"step": 850
	},
	{
	"epoch": 15.087719298245615,
	"grad_norm": 1.6480320692062378,
	"learning_rate": 0.0001105912930474334,
	"loss": 0.1656,
	"step": 860
	},
	{
	"epoch": 15.263157894736842,
	"grad_norm": 0.7238647937774658,
	"learning_rate": 0.00010929174788823913,
	"loss": 0.1261,
	"step": 870
	},
	{
	"epoch": 15.43859649122807,
	"grad_norm": 1.0423846244812012,
	"learning_rate": 0.00010799220272904485,
	"loss": 0.1328,
	"step": 880
	},
	{
	"epoch": 15.614035087719298,
	"grad_norm": 1.1374431848526,
	"learning_rate": 0.00010669265756985057,
	"loss": 0.1427,
	"step": 890
	},
	{
	"epoch": 15.789473684210526,
	"grad_norm": 0.7375030517578125,
	"learning_rate": 0.00010539311241065628,
	"loss": 0.1506,
	"step": 900
	},
	{
	"epoch": 15.789473684210526,
	"eval_accuracy": 0.9431111111111111,
	"eval_f1": 0.8494117647058823,
	"eval_loss": 0.15481138229370117,
	"eval_precision": 0.8657074340527577,
	"eval_recall": 0.8337182448036952,
	"eval_runtime": 1.8243,
	"eval_samples_per_second": 123.334,
	"eval_steps_per_second": 15.896,
	"step": 900
	},
	{
	"epoch": 15.964912280701755,
	"grad_norm": 0.7035567164421082,
	"learning_rate": 0.000104093567251462,
	"loss": 0.1324,
	"step": 910
	},
	{
	"epoch": 16.140350877192983,
	"grad_norm": 0.6969211101531982,
	"learning_rate": 0.00010279402209226772,
	"loss": 0.1257,
	"step": 920
	},
	{
	"epoch": 16.31578947368421,
	"grad_norm": 0.3633826673030853,
	"learning_rate": 0.00010149447693307344,
	"loss": 0.1306,
	"step": 930
	},
	{
	"epoch": 16.49122807017544,
	"grad_norm": 0.8118802309036255,
	"learning_rate": 0.00010019493177387915,
	"loss": 0.1091,
	"step": 940
	},
	{
	"epoch": 16.666666666666668,
	"grad_norm": 0.6684471964836121,
	"learning_rate": 9.889538661468485e-05,
	"loss": 0.1323,
	"step": 950
	},
	{
	"epoch": 16.842105263157894,
	"grad_norm": 0.6080668568611145,
	"learning_rate": 9.759584145549058e-05,
	"loss": 0.1168,
	"step": 960
	},
	{
	"epoch": 17.017543859649123,
	"grad_norm": 0.7799493670463562,
	"learning_rate": 9.62962962962963e-05,
	"loss": 0.141,
	"step": 970
	},
	{
	"epoch": 17.19298245614035,
	"grad_norm": 0.5670738816261292,
	"learning_rate": 9.499675113710202e-05,
	"loss": 0.1244,
	"step": 980
	},
	{
	"epoch": 17.36842105263158,
	"grad_norm": 0.9652756452560425,
	"learning_rate": 9.369720597790773e-05,
	"loss": 0.1354,
	"step": 990
	},
	{
	"epoch": 17.54385964912281,
	"grad_norm": 0.8537412881851196,
	"learning_rate": 9.239766081871345e-05,
	"loss": 0.1485,
	"step": 1000
	},
	{
	"epoch": 17.54385964912281,
	"eval_accuracy": 0.9444444444444444,
	"eval_f1": 0.8544819557625145,
	"eval_loss": 0.15389865636825562,
	"eval_precision": 0.8615023474178404,
	"eval_recall": 0.8475750577367206,
	"eval_runtime": 1.7887,
	"eval_samples_per_second": 125.789,
	"eval_steps_per_second": 16.213,
	"step": 1000
	},
	{
	"epoch": 17.719298245614034,
	"grad_norm": 0.9258742928504944,
	"learning_rate": 9.109811565951917e-05,
	"loss": 0.1284,
	"step": 1010
	},
	{
	"epoch": 17.894736842105264,
	"grad_norm": 0.6817509531974792,
	"learning_rate": 8.979857050032489e-05,
	"loss": 0.1226,
	"step": 1020
	},
	{
	"epoch": 18.07017543859649,
	"grad_norm": 0.8437041640281677,
	"learning_rate": 8.849902534113061e-05,
	"loss": 0.1527,
	"step": 1030
	},
	{
	"epoch": 18.24561403508772,
	"grad_norm": 1.2362749576568604,
	"learning_rate": 8.719948018193632e-05,
	"loss": 0.1224,
	"step": 1040
	},
	{
	"epoch": 18.42105263157895,
	"grad_norm": 0.4136218726634979,
	"learning_rate": 8.589993502274204e-05,
	"loss": 0.1293,
	"step": 1050
	},
	{
	"epoch": 18.596491228070175,
	"grad_norm": 0.8913040161132812,
	"learning_rate": 8.460038986354776e-05,
	"loss": 0.1305,
	"step": 1060
	},
	{
	"epoch": 18.771929824561404,
	"grad_norm": 1.0768448114395142,
	"learning_rate": 8.330084470435348e-05,
	"loss": 0.1134,
	"step": 1070
	},
	{
	"epoch": 18.94736842105263,
	"grad_norm": 0.9289010763168335,
	"learning_rate": 8.200129954515919e-05,
	"loss": 0.1551,
	"step": 1080
	},
	{
	"epoch": 19.12280701754386,
	"grad_norm": 0.4481465220451355,
	"learning_rate": 8.070175438596491e-05,
	"loss": 0.1263,
	"step": 1090
	},
	{
	"epoch": 19.29824561403509,
	"grad_norm": 0.7408900260925293,
	"learning_rate": 7.940220922677063e-05,
	"loss": 0.1263,
	"step": 1100
	},
	{
	"epoch": 19.29824561403509,
	"eval_accuracy": 0.944,
	"eval_f1": 0.8534883720930233,
	"eval_loss": 0.15210777521133423,
	"eval_precision": 0.8594847775175644,
	"eval_recall": 0.8475750577367206,
	"eval_runtime": 1.7885,
	"eval_samples_per_second": 125.802,
	"eval_steps_per_second": 16.214,
	"step": 1100
	},
	{
	"epoch": 19.473684210526315,
	"grad_norm": 0.8939012289047241,
	"learning_rate": 7.810266406757635e-05,
	"loss": 0.1206,
	"step": 1110
	},
	{
	"epoch": 19.649122807017545,
	"grad_norm": 0.6809560656547546,
	"learning_rate": 7.680311890838207e-05,
	"loss": 0.1225,
	"step": 1120
	},
	{
	"epoch": 19.82456140350877,
	"grad_norm": 1.1481623649597168,
	"learning_rate": 7.550357374918778e-05,
	"loss": 0.1291,
	"step": 1130
	},
	{
	"epoch": 20.0,
	"grad_norm": 2.0011980533599854,
	"learning_rate": 7.42040285899935e-05,
	"loss": 0.1482,
	"step": 1140
	},
	{
	"epoch": 20.17543859649123,
	"grad_norm": 0.6619019508361816,
	"learning_rate": 7.290448343079922e-05,
	"loss": 0.1123,
	"step": 1150
	},
	{
	"epoch": 20.350877192982455,
	"grad_norm": 0.796700656414032,
	"learning_rate": 7.160493827160494e-05,
	"loss": 0.1166,
	"step": 1160
	},
	{
	"epoch": 20.526315789473685,
	"grad_norm": 0.9634900689125061,
	"learning_rate": 7.030539311241065e-05,
	"loss": 0.1263,
	"step": 1170
	},
	{
	"epoch": 20.70175438596491,
	"grad_norm": 0.505535900592804,
	"learning_rate": 6.900584795321637e-05,
	"loss": 0.1117,
	"step": 1180
	},
	{
	"epoch": 20.87719298245614,
	"grad_norm": 0.5166471600532532,
	"learning_rate": 6.770630279402209e-05,
	"loss": 0.1279,
	"step": 1190
	},
	{
	"epoch": 21.05263157894737,
	"grad_norm": 1.2773476839065552,
	"learning_rate": 6.640675763482781e-05,
	"loss": 0.1444,
	"step": 1200
	},
	{
	"epoch": 21.05263157894737,
	"eval_accuracy": 0.9417777777777778,
	"eval_f1": 0.8471411901983664,
	"eval_loss": 0.155166357755661,
	"eval_precision": 0.8561320754716981,
	"eval_recall": 0.8383371824480369,
	"eval_runtime": 2.37,
	"eval_samples_per_second": 94.937,
	"eval_steps_per_second": 12.236,
	"step": 1200
	},
	{
	"epoch": 21.228070175438596,
	"grad_norm": 0.793021559715271,
	"learning_rate": 6.510721247563352e-05,
	"loss": 0.1168,
	"step": 1210
	},
	{
	"epoch": 21.403508771929825,
	"grad_norm": 1.2551689147949219,
	"learning_rate": 6.380766731643924e-05,
	"loss": 0.1089,
	"step": 1220
	},
	{
	"epoch": 21.57894736842105,
	"grad_norm": 0.6803563237190247,
	"learning_rate": 6.250812215724496e-05,
	"loss": 0.1186,
	"step": 1230
	},
	{
	"epoch": 21.75438596491228,
	"grad_norm": 1.2632770538330078,
	"learning_rate": 6.120857699805068e-05,
	"loss": 0.1116,
	"step": 1240
	},
	{
	"epoch": 21.92982456140351,
	"grad_norm": 0.525141716003418,
	"learning_rate": 5.99090318388564e-05,
	"loss": 0.0979,
	"step": 1250
	},
	{
	"epoch": 22.105263157894736,
	"grad_norm": 0.5942980647087097,
	"learning_rate": 5.860948667966212e-05,
	"loss": 0.1483,
	"step": 1260
	},
	{
	"epoch": 22.280701754385966,
	"grad_norm": 1.0624207258224487,
	"learning_rate": 5.7309941520467835e-05,
	"loss": 0.1155,
	"step": 1270
	},
	{
	"epoch": 22.45614035087719,
	"grad_norm": 0.6244792938232422,
	"learning_rate": 5.6010396361273556e-05,
	"loss": 0.1159,
	"step": 1280
	},
	{
	"epoch": 22.63157894736842,
	"grad_norm": 1.9767743349075317,
	"learning_rate": 5.471085120207927e-05,
	"loss": 0.1165,
	"step": 1290
	},
	{
	"epoch": 22.80701754385965,
	"grad_norm": 2.270113468170166,
	"learning_rate": 5.341130604288499e-05,
	"loss": 0.1133,
	"step": 1300
	},
	{
	"epoch": 22.80701754385965,
	"eval_accuracy": 0.9448888888888889,
	"eval_f1": 0.8561484918793504,
	"eval_loss": 0.1531468778848648,
	"eval_precision": 0.8601398601398601,
	"eval_recall": 0.8521939953810623,
	"eval_runtime": 4.5112,
	"eval_samples_per_second": 49.875,
	"eval_steps_per_second": 6.428,
	"step": 1300
	},
	{
	"epoch": 22.982456140350877,
	"grad_norm": 2.3252851963043213,
	"learning_rate": 5.2111760883690706e-05,
	"loss": 0.1018,
	"step": 1310
	},
	{
	"epoch": 23.157894736842106,
	"grad_norm": 1.3282454013824463,
	"learning_rate": 5.081221572449643e-05,
	"loss": 0.1194,
	"step": 1320
	},
	{
	"epoch": 23.333333333333332,
	"grad_norm": 0.652642548084259,
	"learning_rate": 4.951267056530214e-05,
	"loss": 0.1016,
	"step": 1330
	},
	{
	"epoch": 23.50877192982456,
	"grad_norm": 1.584074854850769,
	"learning_rate": 4.821312540610786e-05,
	"loss": 0.1109,
	"step": 1340
	},
	{
	"epoch": 23.68421052631579,
	"grad_norm": 0.5799722075462341,
	"learning_rate": 4.691358024691358e-05,
	"loss": 0.0901,
	"step": 1350
	},
	{
	"epoch": 23.859649122807017,
	"grad_norm": 1.9589979648590088,
	"learning_rate": 4.56140350877193e-05,
	"loss": 0.1195,
	"step": 1360
	},
	{
	"epoch": 24.035087719298247,
	"grad_norm": 0.784710705280304,
	"learning_rate": 4.431448992852502e-05,
	"loss": 0.1318,
	"step": 1370
	},
	{
	"epoch": 24.210526315789473,
	"grad_norm": 1.0715792179107666,
	"learning_rate": 4.301494476933073e-05,
	"loss": 0.1236,
	"step": 1380
	},
	{
	"epoch": 24.385964912280702,
	"grad_norm": 0.8761755228042603,
	"learning_rate": 4.1715399610136454e-05,
	"loss": 0.1076,
	"step": 1390
	},
	{
	"epoch": 24.56140350877193,
	"grad_norm": 0.8874859809875488,
	"learning_rate": 4.041585445094217e-05,
	"loss": 0.1019,
	"step": 1400
	},
	{
	"epoch": 24.56140350877193,
	"eval_accuracy": 0.9431111111111111,
	"eval_f1": 0.8490566037735849,
	"eval_loss": 0.15768744051456451,
	"eval_precision": 0.8674698795180723,
	"eval_recall": 0.8314087759815243,
	"eval_runtime": 1.817,
	"eval_samples_per_second": 123.828,
	"eval_steps_per_second": 15.96,
	"step": 1400
	},
	{
	"epoch": 24.736842105263158,
	"grad_norm": 0.569615364074707,
	"learning_rate": 3.911630929174789e-05,
	"loss": 0.1114,
	"step": 1410
	},
	{
	"epoch": 24.912280701754387,
	"grad_norm": 0.4636388123035431,
	"learning_rate": 3.7816764132553604e-05,
	"loss": 0.1016,
	"step": 1420
	},
	{
	"epoch": 25.087719298245613,
	"grad_norm": 0.7966068983078003,
	"learning_rate": 3.6517218973359325e-05,
	"loss": 0.1181,
	"step": 1430
	},
	{
	"epoch": 25.263157894736842,
	"grad_norm": 0.7331326603889465,
	"learning_rate": 3.521767381416504e-05,
	"loss": 0.1037,
	"step": 1440
	},
	{
	"epoch": 25.43859649122807,
	"grad_norm": 1.1376439332962036,
	"learning_rate": 3.391812865497076e-05,
	"loss": 0.091,
	"step": 1450
	},
	{
	"epoch": 25.614035087719298,
	"grad_norm": 0.43491020798683167,
	"learning_rate": 3.2618583495776475e-05,
	"loss": 0.102,
	"step": 1460
	},
	{
	"epoch": 25.789473684210527,
	"grad_norm": 0.9410120844841003,
	"learning_rate": 3.1319038336582196e-05,
	"loss": 0.1108,
	"step": 1470
	},
	{
	"epoch": 25.964912280701753,
	"grad_norm": 0.9321810603141785,
	"learning_rate": 3.0019493177387914e-05,
	"loss": 0.1059,
	"step": 1480
	},
	{
	"epoch": 26.140350877192983,
	"grad_norm": 0.5571371912956238,
	"learning_rate": 2.871994801819363e-05,
	"loss": 0.0926,
	"step": 1490
	},
	{
	"epoch": 26.31578947368421,
	"grad_norm": 1.9081007242202759,
	"learning_rate": 2.742040285899935e-05,
	"loss": 0.1141,
	"step": 1500
	},
	{
	"epoch": 26.31578947368421,
	"eval_accuracy": 0.9413333333333334,
	"eval_f1": 0.8472222222222222,
	"eval_loss": 0.15601032972335815,
	"eval_precision": 0.8491879350348028,
	"eval_recall": 0.8452655889145496,
	"eval_runtime": 1.867,
	"eval_samples_per_second": 120.511,
	"eval_steps_per_second": 15.533,
	"step": 1500
	},
	{
	"epoch": 26.49122807017544,
	"grad_norm": 0.8356673121452332,
	"learning_rate": 2.6120857699805067e-05,
	"loss": 0.1077,
	"step": 1510
	},
	{
	"epoch": 26.666666666666668,
	"grad_norm": 1.3644295930862427,
	"learning_rate": 2.4821312540610784e-05,
	"loss": 0.1212,
	"step": 1520
	},
	{
	"epoch": 26.842105263157894,
	"grad_norm": 0.779222309589386,
	"learning_rate": 2.3521767381416506e-05,
	"loss": 0.1229,
	"step": 1530
	},
	{
	"epoch": 27.017543859649123,
	"grad_norm": 0.5873481631278992,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 0.0998,
	"step": 1540
	},
	{
	"epoch": 27.19298245614035,
	"grad_norm": 0.9948704242706299,
	"learning_rate": 2.092267706302794e-05,
	"loss": 0.1435,
	"step": 1550
	},
	{
	"epoch": 27.36842105263158,
	"grad_norm": 0.32820120453834534,
	"learning_rate": 1.962313190383366e-05,
	"loss": 0.0992,
	"step": 1560
	},
	{
	"epoch": 27.54385964912281,
	"grad_norm": 1.0797744989395142,
	"learning_rate": 1.8323586744639376e-05,
	"loss": 0.1095,
	"step": 1570
	},
	{
	"epoch": 27.719298245614034,
	"grad_norm": 1.5036197900772095,
	"learning_rate": 1.7024041585445094e-05,
	"loss": 0.119,
	"step": 1580
	},
	{
	"epoch": 27.894736842105264,
	"grad_norm": 1.0871007442474365,
	"learning_rate": 1.5724496426250812e-05,
	"loss": 0.0974,
	"step": 1590
	},
	{
	"epoch": 28.07017543859649,
	"grad_norm": 0.6861986517906189,
	"learning_rate": 1.442495126705653e-05,
	"loss": 0.1087,
	"step": 1600
	},
	{
	"epoch": 28.07017543859649,
	"eval_accuracy": 0.9422222222222222,
	"eval_f1": 0.8491879350348028,
	"eval_loss": 0.15734025835990906,
	"eval_precision": 0.8531468531468531,
	"eval_recall": 0.8452655889145496,
	"eval_runtime": 3.5904,
	"eval_samples_per_second": 62.668,
	"eval_steps_per_second": 8.077,
	"step": 1600
	},
	{
	"epoch": 28.24561403508772,
	"grad_norm": 1.5399742126464844,
	"learning_rate": 1.3125406107862247e-05,
	"loss": 0.1243,
	"step": 1610
	},
	{
	"epoch": 28.42105263157895,
	"grad_norm": 0.7721771001815796,
	"learning_rate": 1.1825860948667967e-05,
	"loss": 0.0965,
	"step": 1620
	},
	{
	"epoch": 28.596491228070175,
	"grad_norm": 1.040131688117981,
	"learning_rate": 1.0526315789473684e-05,
	"loss": 0.1133,
	"step": 1630
	},
	{
	"epoch": 28.771929824561404,
	"grad_norm": 0.9755656123161316,
	"learning_rate": 9.226770630279402e-06,
	"loss": 0.0885,
	"step": 1640
	},
	{
	"epoch": 28.94736842105263,
	"grad_norm": 0.5838367342948914,
	"learning_rate": 7.92722547108512e-06,
	"loss": 0.1134,
	"step": 1650
	},
	{
	"epoch": 29.12280701754386,
	"grad_norm": 1.698116421699524,
	"learning_rate": 6.6276803118908384e-06,
	"loss": 0.1278,
	"step": 1660
	},
	{
	"epoch": 29.29824561403509,
	"grad_norm": 0.581572413444519,
	"learning_rate": 5.328135152696556e-06,
	"loss": 0.1209,
	"step": 1670
	},
	{
	"epoch": 29.473684210526315,
	"grad_norm": 0.4100797772407532,
	"learning_rate": 4.028589993502274e-06,
	"loss": 0.1108,
	"step": 1680
	},
	{
	"epoch": 29.649122807017545,
	"grad_norm": 1.5013538599014282,
	"learning_rate": 2.729044834307992e-06,
	"loss": 0.1195,
	"step": 1690
	},
	{
	"epoch": 29.82456140350877,
	"grad_norm": 1.0121512413024902,
	"learning_rate": 1.4294996751137102e-06,
	"loss": 0.1015,
	"step": 1700
	},
	{
	"epoch": 29.82456140350877,
	"eval_accuracy": 0.9422222222222222,
	"eval_f1": 0.8488372093023255,
	"eval_loss": 0.15452326834201813,
	"eval_precision": 0.8548009367681498,
	"eval_recall": 0.8429561200923787,
	"eval_runtime": 1.8193,
	"eval_samples_per_second": 123.672,
	"eval_steps_per_second": 15.94,
	"step": 1700
	},
	{
	"epoch": 30.0,
	"grad_norm": 2.770343780517578,
	"learning_rate": 1.299545159194282e-07,
	"loss": 0.1342,
	"step": 1710
	},
	{
	"epoch": 30.0,
	"step": 1710,
	"total_flos": 1.77124415883264e+17,
	"train_loss": 0.20865077226482637,
	"train_runtime": 373.9101,
	"train_samples_per_second": 72.21,
	"train_steps_per_second": 4.573
	}
	],
	"logging_steps": 10,
	"max_steps": 1710,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 30,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.77124415883264e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}