autotrain-mb2mv-qdf75 / checkpoint-3839 /trainer_state.json

Upload folder using huggingface_hub

268998a verified 9 months ago

47.2 kB

	{
	"best_metric": 0.011031342670321465,
	"best_model_checkpoint": "autotrain-mb2mv-qdf75/checkpoint-3839",
	"epoch": 11.0,
	"eval_steps": 500,
	"global_step": 3839,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04871060171919771,
	"grad_norm": 12.027495384216309,
	"learning_rate": 2.028639618138425e-06,
	"loss": 4.4947,
	"step": 17
	},
	{
	"epoch": 0.09742120343839542,
	"grad_norm": 11.511441230773926,
	"learning_rate": 4.05727923627685e-06,
	"loss": 4.4912,
	"step": 34
	},
	{
	"epoch": 0.14613180515759314,
	"grad_norm": 12.500868797302246,
	"learning_rate": 5.966587112171838e-06,
	"loss": 4.4842,
	"step": 51
	},
	{
	"epoch": 0.19484240687679083,
	"grad_norm": 11.219860076904297,
	"learning_rate": 7.995226730310263e-06,
	"loss": 4.4186,
	"step": 68
	},
	{
	"epoch": 0.24355300859598855,
	"grad_norm": 11.510499000549316,
	"learning_rate": 1.0023866348448688e-05,
	"loss": 4.5182,
	"step": 85
	},
	{
	"epoch": 0.2922636103151863,
	"grad_norm": 12.528426170349121,
	"learning_rate": 1.2052505966587113e-05,
	"loss": 4.4535,
	"step": 102
	},
	{
	"epoch": 0.34097421203438394,
	"grad_norm": 11.191871643066406,
	"learning_rate": 1.4081145584725539e-05,
	"loss": 4.4233,
	"step": 119
	},
	{
	"epoch": 0.38968481375358166,
	"grad_norm": 13.019774436950684,
	"learning_rate": 1.6109785202863962e-05,
	"loss": 4.3845,
	"step": 136
	},
	{
	"epoch": 0.4383954154727794,
	"grad_norm": 11.506011962890625,
	"learning_rate": 1.8138424821002386e-05,
	"loss": 4.3334,
	"step": 153
	},
	{
	"epoch": 0.4871060171919771,
	"grad_norm": 11.238750457763672,
	"learning_rate": 2.0167064439140813e-05,
	"loss": 4.2554,
	"step": 170
	},
	{
	"epoch": 0.5358166189111748,
	"grad_norm": 11.771519660949707,
	"learning_rate": 2.2195704057279237e-05,
	"loss": 4.2028,
	"step": 187
	},
	{
	"epoch": 0.5845272206303725,
	"grad_norm": 12.988870620727539,
	"learning_rate": 2.4224343675417664e-05,
	"loss": 4.0815,
	"step": 204
	},
	{
	"epoch": 0.6332378223495702,
	"grad_norm": 12.157154083251953,
	"learning_rate": 2.6252983293556088e-05,
	"loss": 4.1055,
	"step": 221
	},
	{
	"epoch": 0.6819484240687679,
	"grad_norm": 12.214086532592773,
	"learning_rate": 2.828162291169451e-05,
	"loss": 3.9383,
	"step": 238
	},
	{
	"epoch": 0.7306590257879656,
	"grad_norm": 11.511253356933594,
	"learning_rate": 3.031026252983294e-05,
	"loss": 3.9894,
	"step": 255
	},
	{
	"epoch": 0.7793696275071633,
	"grad_norm": 13.291036605834961,
	"learning_rate": 3.233890214797136e-05,
	"loss": 3.7944,
	"step": 272
	},
	{
	"epoch": 0.828080229226361,
	"grad_norm": 13.204787254333496,
	"learning_rate": 3.424821002386635e-05,
	"loss": 3.7806,
	"step": 289
	},
	{
	"epoch": 0.8767908309455588,
	"grad_norm": 13.473506927490234,
	"learning_rate": 3.627684964200477e-05,
	"loss": 3.6716,
	"step": 306
	},
	{
	"epoch": 0.9255014326647565,
	"grad_norm": 12.780734062194824,
	"learning_rate": 3.83054892601432e-05,
	"loss": 3.4641,
	"step": 323
	},
	{
	"epoch": 0.9742120343839542,
	"grad_norm": 20.36208724975586,
	"learning_rate": 4.0334128878281626e-05,
	"loss": 3.3018,
	"step": 340
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.43902439024390244,
	"eval_f1_macro": 0.3762682151157721,
	"eval_f1_micro": 0.43902439024390244,
	"eval_f1_weighted": 0.38500671624754507,
	"eval_loss": 2.9648730754852295,
	"eval_precision_macro": 0.5231114557498497,
	"eval_precision_micro": 0.43902439024390244,
	"eval_precision_weighted": 0.5343145132587477,
	"eval_recall_macro": 0.41928580121351205,
	"eval_recall_micro": 0.43902439024390244,
	"eval_recall_weighted": 0.43902439024390244,
	"eval_runtime": 3.4206,
	"eval_samples_per_second": 203.767,
	"eval_steps_per_second": 12.863,
	"step": 349
	},
	{
	"epoch": 1.0229226361031518,
	"grad_norm": 11.021674156188965,
	"learning_rate": 4.236276849642005e-05,
	"loss": 3.1839,
	"step": 357
	},
	{
	"epoch": 1.0716332378223496,
	"grad_norm": 12.111454963684082,
	"learning_rate": 4.4391408114558474e-05,
	"loss": 3.0222,
	"step": 374
	},
	{
	"epoch": 1.1203438395415473,
	"grad_norm": 12.602492332458496,
	"learning_rate": 4.64200477326969e-05,
	"loss": 2.8135,
	"step": 391
	},
	{
	"epoch": 1.1690544412607449,
	"grad_norm": 11.924349784851074,
	"learning_rate": 4.844868735083533e-05,
	"loss": 2.6733,
	"step": 408
	},
	{
	"epoch": 1.2177650429799427,
	"grad_norm": 11.714224815368652,
	"learning_rate": 4.9946935526664904e-05,
	"loss": 2.4497,
	"step": 425
	},
	{
	"epoch": 1.2664756446991405,
	"grad_norm": 13.355523109436035,
	"learning_rate": 4.972141151499072e-05,
	"loss": 2.3633,
	"step": 442
	},
	{
	"epoch": 1.3151862464183381,
	"grad_norm": 11.773361206054688,
	"learning_rate": 4.949588750331653e-05,
	"loss": 2.2063,
	"step": 459
	},
	{
	"epoch": 1.3638968481375358,
	"grad_norm": 12.601265907287598,
	"learning_rate": 4.9270363491642345e-05,
	"loss": 2.2622,
	"step": 476
	},
	{
	"epoch": 1.4126074498567336,
	"grad_norm": 11.489968299865723,
	"learning_rate": 4.9044839479968165e-05,
	"loss": 2.0349,
	"step": 493
	},
	{
	"epoch": 1.4613180515759312,
	"grad_norm": 11.553853034973145,
	"learning_rate": 4.881931546829398e-05,
	"loss": 1.8452,
	"step": 510
	},
	{
	"epoch": 1.5100286532951288,
	"grad_norm": 13.461709976196289,
	"learning_rate": 4.85937914566198e-05,
	"loss": 1.7711,
	"step": 527
	},
	{
	"epoch": 1.5587392550143266,
	"grad_norm": 11.289037704467773,
	"learning_rate": 4.8368267444945606e-05,
	"loss": 1.562,
	"step": 544
	},
	{
	"epoch": 1.6074498567335245,
	"grad_norm": 9.85034465789795,
	"learning_rate": 4.814274343327143e-05,
	"loss": 1.4258,
	"step": 561
	},
	{
	"epoch": 1.656160458452722,
	"grad_norm": 8.626704216003418,
	"learning_rate": 4.791721942159724e-05,
	"loss": 1.2561,
	"step": 578
	},
	{
	"epoch": 1.7048710601719197,
	"grad_norm": 8.728435516357422,
	"learning_rate": 4.769169540992306e-05,
	"loss": 1.229,
	"step": 595
	},
	{
	"epoch": 1.7535816618911175,
	"grad_norm": 11.541463851928711,
	"learning_rate": 4.7466171398248875e-05,
	"loss": 1.175,
	"step": 612
	},
	{
	"epoch": 1.8022922636103151,
	"grad_norm": 11.69316291809082,
	"learning_rate": 4.724064738657469e-05,
	"loss": 1.2961,
	"step": 629
	},
	{
	"epoch": 1.8510028653295127,
	"grad_norm": 7.8675737380981445,
	"learning_rate": 4.70151233749005e-05,
	"loss": 0.9699,
	"step": 646
	},
	{
	"epoch": 1.8997134670487106,
	"grad_norm": 7.240268230438232,
	"learning_rate": 4.678959936322632e-05,
	"loss": 1.235,
	"step": 663
	},
	{
	"epoch": 1.9484240687679084,
	"grad_norm": 6.3042426109313965,
	"learning_rate": 4.6564075351552136e-05,
	"loss": 1.1121,
	"step": 680
	},
	{
	"epoch": 1.997134670487106,
	"grad_norm": 8.941567420959473,
	"learning_rate": 4.633855133987796e-05,
	"loss": 0.9363,
	"step": 697
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.945480631276901,
	"eval_f1_macro": 0.9425017115213628,
	"eval_f1_micro": 0.945480631276901,
	"eval_f1_weighted": 0.9445694655877982,
	"eval_loss": 0.5551677346229553,
	"eval_precision_macro": 0.9567204214794576,
	"eval_precision_micro": 0.945480631276901,
	"eval_precision_weighted": 0.9597403513113699,
	"eval_recall_macro": 0.94451833307255,
	"eval_recall_micro": 0.945480631276901,
	"eval_recall_weighted": 0.945480631276901,
	"eval_runtime": 3.3936,
	"eval_samples_per_second": 205.389,
	"eval_steps_per_second": 12.966,
	"step": 698
	},
	{
	"epoch": 2.0458452722063036,
	"grad_norm": 4.50822114944458,
	"learning_rate": 4.611302732820377e-05,
	"loss": 1.0456,
	"step": 714
	},
	{
	"epoch": 2.0945558739255015,
	"grad_norm": 5.0435686111450195,
	"learning_rate": 4.5887503316529584e-05,
	"loss": 0.5131,
	"step": 731
	},
	{
	"epoch": 2.1432664756446993,
	"grad_norm": 5.728665351867676,
	"learning_rate": 4.5661979304855405e-05,
	"loss": 0.705,
	"step": 748
	},
	{
	"epoch": 2.1919770773638967,
	"grad_norm": 4.446041584014893,
	"learning_rate": 4.543645529318122e-05,
	"loss": 0.6504,
	"step": 765
	},
	{
	"epoch": 2.2406876790830945,
	"grad_norm": 5.601328372955322,
	"learning_rate": 4.521093128150703e-05,
	"loss": 0.6361,
	"step": 782
	},
	{
	"epoch": 2.2893982808022924,
	"grad_norm": 6.830723285675049,
	"learning_rate": 4.4985407269832846e-05,
	"loss": 0.7554,
	"step": 799
	},
	{
	"epoch": 2.3381088825214897,
	"grad_norm": 9.851592063903809,
	"learning_rate": 4.4759883258158666e-05,
	"loss": 0.6952,
	"step": 816
	},
	{
	"epoch": 2.3868194842406876,
	"grad_norm": 12.239367485046387,
	"learning_rate": 4.453435924648448e-05,
	"loss": 0.7793,
	"step": 833
	},
	{
	"epoch": 2.4355300859598854,
	"grad_norm": 4.4265360832214355,
	"learning_rate": 4.43088352348103e-05,
	"loss": 0.5841,
	"step": 850
	},
	{
	"epoch": 2.4842406876790832,
	"grad_norm": 11.818037986755371,
	"learning_rate": 4.4083311223136114e-05,
	"loss": 0.6259,
	"step": 867
	},
	{
	"epoch": 2.532951289398281,
	"grad_norm": 13.520539283752441,
	"learning_rate": 4.385778721146193e-05,
	"loss": 0.674,
	"step": 884
	},
	{
	"epoch": 2.5816618911174785,
	"grad_norm": 12.981139183044434,
	"learning_rate": 4.363226319978774e-05,
	"loss": 0.7362,
	"step": 901
	},
	{
	"epoch": 2.6303724928366763,
	"grad_norm": 12.412555694580078,
	"learning_rate": 4.340673918811356e-05,
	"loss": 0.557,
	"step": 918
	},
	{
	"epoch": 2.6790830945558737,
	"grad_norm": 7.840790748596191,
	"learning_rate": 4.3181215176439375e-05,
	"loss": 0.6293,
	"step": 935
	},
	{
	"epoch": 2.7277936962750715,
	"grad_norm": 4.981259822845459,
	"learning_rate": 4.2955691164765196e-05,
	"loss": 0.5793,
	"step": 952
	},
	{
	"epoch": 2.7765042979942693,
	"grad_norm": 7.165767669677734,
	"learning_rate": 4.2730167153091e-05,
	"loss": 0.5705,
	"step": 969
	},
	{
	"epoch": 2.825214899713467,
	"grad_norm": 6.7298736572265625,
	"learning_rate": 4.250464314141682e-05,
	"loss": 0.5446,
	"step": 986
	},
	{
	"epoch": 2.873925501432665,
	"grad_norm": 7.268840789794922,
	"learning_rate": 4.227911912974264e-05,
	"loss": 0.4438,
	"step": 1003
	},
	{
	"epoch": 2.9226361031518624,
	"grad_norm": 1.802043080329895,
	"learning_rate": 4.205359511806846e-05,
	"loss": 0.4892,
	"step": 1020
	},
	{
	"epoch": 2.9713467048710602,
	"grad_norm": 10.247010231018066,
	"learning_rate": 4.182807110639427e-05,
	"loss": 0.4922,
	"step": 1037
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9727403156384505,
	"eval_f1_macro": 0.9705769072502259,
	"eval_f1_micro": 0.9727403156384505,
	"eval_f1_weighted": 0.9719785983620151,
	"eval_loss": 0.17863501608371735,
	"eval_precision_macro": 0.9795910916392845,
	"eval_precision_micro": 0.9727403156384505,
	"eval_precision_weighted": 0.9787328087184615,
	"eval_recall_macro": 0.969774335436986,
	"eval_recall_micro": 0.9727403156384505,
	"eval_recall_weighted": 0.9727403156384505,
	"eval_runtime": 3.4979,
	"eval_samples_per_second": 199.263,
	"eval_steps_per_second": 12.579,
	"step": 1047
	},
	{
	"epoch": 3.020057306590258,
	"grad_norm": 9.481998443603516,
	"learning_rate": 4.1602547094720085e-05,
	"loss": 0.5422,
	"step": 1054
	},
	{
	"epoch": 3.0687679083094554,
	"grad_norm": 9.671106338500977,
	"learning_rate": 4.13770230830459e-05,
	"loss": 0.408,
	"step": 1071
	},
	{
	"epoch": 3.1174785100286533,
	"grad_norm": 1.3068506717681885,
	"learning_rate": 4.115149907137172e-05,
	"loss": 0.404,
	"step": 1088
	},
	{
	"epoch": 3.166189111747851,
	"grad_norm": 8.020153045654297,
	"learning_rate": 4.092597505969753e-05,
	"loss": 0.4022,
	"step": 1105
	},
	{
	"epoch": 3.2148997134670485,
	"grad_norm": 9.03290843963623,
	"learning_rate": 4.070045104802335e-05,
	"loss": 0.4726,
	"step": 1122
	},
	{
	"epoch": 3.2636103151862463,
	"grad_norm": 8.347646713256836,
	"learning_rate": 4.047492703634917e-05,
	"loss": 0.4158,
	"step": 1139
	},
	{
	"epoch": 3.312320916905444,
	"grad_norm": 9.76726245880127,
	"learning_rate": 4.024940302467498e-05,
	"loss": 0.3523,
	"step": 1156
	},
	{
	"epoch": 3.361031518624642,
	"grad_norm": 8.464173316955566,
	"learning_rate": 4.00238790130008e-05,
	"loss": 0.5155,
	"step": 1173
	},
	{
	"epoch": 3.4097421203438394,
	"grad_norm": 4.331398963928223,
	"learning_rate": 3.9798355001326615e-05,
	"loss": 0.395,
	"step": 1190
	},
	{
	"epoch": 3.458452722063037,
	"grad_norm": 7.228985786437988,
	"learning_rate": 3.9572830989652435e-05,
	"loss": 0.3984,
	"step": 1207
	},
	{
	"epoch": 3.507163323782235,
	"grad_norm": 10.442928314208984,
	"learning_rate": 3.934730697797824e-05,
	"loss": 0.4143,
	"step": 1224
	},
	{
	"epoch": 3.555873925501433,
	"grad_norm": 8.429516792297363,
	"learning_rate": 3.912178296630406e-05,
	"loss": 0.3767,
	"step": 1241
	},
	{
	"epoch": 3.6045845272206303,
	"grad_norm": 12.501051902770996,
	"learning_rate": 3.8896258954629876e-05,
	"loss": 0.3507,
	"step": 1258
	},
	{
	"epoch": 3.653295128939828,
	"grad_norm": 7.7675652503967285,
	"learning_rate": 3.86707349429557e-05,
	"loss": 0.395,
	"step": 1275
	},
	{
	"epoch": 3.702005730659026,
	"grad_norm": 4.184613227844238,
	"learning_rate": 3.844521093128151e-05,
	"loss": 0.2874,
	"step": 1292
	},
	{
	"epoch": 3.7507163323782233,
	"grad_norm": 10.189749717712402,
	"learning_rate": 3.8219686919607324e-05,
	"loss": 0.3396,
	"step": 1309
	},
	{
	"epoch": 3.799426934097421,
	"grad_norm": 2.022300958633423,
	"learning_rate": 3.799416290793314e-05,
	"loss": 0.2436,
	"step": 1326
	},
	{
	"epoch": 3.848137535816619,
	"grad_norm": 8.71822452545166,
	"learning_rate": 3.776863889625896e-05,
	"loss": 0.3773,
	"step": 1343
	},
	{
	"epoch": 3.896848137535817,
	"grad_norm": 7.879873752593994,
	"learning_rate": 3.754311488458477e-05,
	"loss": 0.4686,
	"step": 1360
	},
	{
	"epoch": 3.945558739255014,
	"grad_norm": 1.0487672090530396,
	"learning_rate": 3.731759087291059e-05,
	"loss": 0.3921,
	"step": 1377
	},
	{
	"epoch": 3.994269340974212,
	"grad_norm": 8.260384559631348,
	"learning_rate": 3.70920668612364e-05,
	"loss": 0.2956,
	"step": 1394
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9885222381635581,
	"eval_f1_macro": 0.9872476382417075,
	"eval_f1_micro": 0.9885222381635581,
	"eval_f1_weighted": 0.9882948425801252,
	"eval_loss": 0.09004738181829453,
	"eval_precision_macro": 0.9903644882560545,
	"eval_precision_micro": 0.9885222381635581,
	"eval_precision_weighted": 0.9902174543135807,
	"eval_recall_macro": 0.9865557467967108,
	"eval_recall_micro": 0.9885222381635581,
	"eval_recall_weighted": 0.9885222381635581,
	"eval_runtime": 3.3411,
	"eval_samples_per_second": 208.616,
	"eval_steps_per_second": 13.169,
	"step": 1396
	},
	{
	"epoch": 4.042979942693409,
	"grad_norm": 6.5528106689453125,
	"learning_rate": 3.686654284956222e-05,
	"loss": 0.4403,
	"step": 1411
	},
	{
	"epoch": 4.091690544412607,
	"grad_norm": 3.8414504528045654,
	"learning_rate": 3.6641018837888034e-05,
	"loss": 0.2637,
	"step": 1428
	},
	{
	"epoch": 4.140401146131805,
	"grad_norm": 16.609180450439453,
	"learning_rate": 3.6415494826213854e-05,
	"loss": 0.3618,
	"step": 1445
	},
	{
	"epoch": 4.189111747851003,
	"grad_norm": 2.179348945617676,
	"learning_rate": 3.618997081453967e-05,
	"loss": 0.4447,
	"step": 1462
	},
	{
	"epoch": 4.237822349570201,
	"grad_norm": 3.5908546447753906,
	"learning_rate": 3.596444680286548e-05,
	"loss": 0.2905,
	"step": 1479
	},
	{
	"epoch": 4.286532951289399,
	"grad_norm": 7.550769805908203,
	"learning_rate": 3.5738922791191295e-05,
	"loss": 0.2448,
	"step": 1496
	},
	{
	"epoch": 4.3352435530085955,
	"grad_norm": 0.7109397649765015,
	"learning_rate": 3.5513398779517116e-05,
	"loss": 0.2127,
	"step": 1513
	},
	{
	"epoch": 4.383954154727793,
	"grad_norm": 1.54320228099823,
	"learning_rate": 3.528787476784293e-05,
	"loss": 0.2202,
	"step": 1530
	},
	{
	"epoch": 4.432664756446991,
	"grad_norm": 10.156286239624023,
	"learning_rate": 3.506235075616875e-05,
	"loss": 0.3263,
	"step": 1547
	},
	{
	"epoch": 4.481375358166189,
	"grad_norm": 11.149276733398438,
	"learning_rate": 3.4836826744494563e-05,
	"loss": 0.213,
	"step": 1564
	},
	{
	"epoch": 4.530085959885387,
	"grad_norm": 14.087788581848145,
	"learning_rate": 3.461130273282038e-05,
	"loss": 0.3907,
	"step": 1581
	},
	{
	"epoch": 4.578796561604585,
	"grad_norm": 6.006841659545898,
	"learning_rate": 3.43857787211462e-05,
	"loss": 0.4959,
	"step": 1598
	},
	{
	"epoch": 4.6275071633237825,
	"grad_norm": 6.818835258483887,
	"learning_rate": 3.416025470947201e-05,
	"loss": 0.3309,
	"step": 1615
	},
	{
	"epoch": 4.6762177650429795,
	"grad_norm": 1.0696688890457153,
	"learning_rate": 3.393473069779783e-05,
	"loss": 0.2245,
	"step": 1632
	},
	{
	"epoch": 4.724928366762177,
	"grad_norm": 11.383952140808105,
	"learning_rate": 3.370920668612364e-05,
	"loss": 0.3473,
	"step": 1649
	},
	{
	"epoch": 4.773638968481375,
	"grad_norm": 7.438843727111816,
	"learning_rate": 3.348368267444946e-05,
	"loss": 0.2508,
	"step": 1666
	},
	{
	"epoch": 4.822349570200573,
	"grad_norm": 1.553702473640442,
	"learning_rate": 3.325815866277527e-05,
	"loss": 0.2669,
	"step": 1683
	},
	{
	"epoch": 4.871060171919771,
	"grad_norm": 5.968568325042725,
	"learning_rate": 3.303263465110109e-05,
	"loss": 0.1219,
	"step": 1700
	},
	{
	"epoch": 4.919770773638969,
	"grad_norm": 0.3757087290287018,
	"learning_rate": 3.280711063942691e-05,
	"loss": 0.2749,
	"step": 1717
	},
	{
	"epoch": 4.9684813753581665,
	"grad_norm": 7.143729209899902,
	"learning_rate": 3.258158662775272e-05,
	"loss": 0.1591,
	"step": 1734
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9885222381635581,
	"eval_f1_macro": 0.9880046003912989,
	"eval_f1_micro": 0.9885222381635581,
	"eval_f1_weighted": 0.9883902987879117,
	"eval_loss": 0.05691728740930557,
	"eval_precision_macro": 0.9900693683826214,
	"eval_precision_micro": 0.9885222381635581,
	"eval_precision_weighted": 0.9900236221613553,
	"eval_recall_macro": 0.9879231210556513,
	"eval_recall_micro": 0.9885222381635581,
	"eval_recall_weighted": 0.9885222381635581,
	"eval_runtime": 3.3973,
	"eval_samples_per_second": 205.165,
	"eval_steps_per_second": 12.952,
	"step": 1745
	},
	{
	"epoch": 5.017191977077364,
	"grad_norm": 1.9127634763717651,
	"learning_rate": 3.2356062616078534e-05,
	"loss": 0.397,
	"step": 1751
	},
	{
	"epoch": 5.065902578796561,
	"grad_norm": 8.336675643920898,
	"learning_rate": 3.2130538604404355e-05,
	"loss": 0.2355,
	"step": 1768
	},
	{
	"epoch": 5.114613180515759,
	"grad_norm": 7.159496307373047,
	"learning_rate": 3.190501459273017e-05,
	"loss": 0.2086,
	"step": 1785
	},
	{
	"epoch": 5.163323782234957,
	"grad_norm": 6.03056526184082,
	"learning_rate": 3.167949058105599e-05,
	"loss": 0.2212,
	"step": 1802
	},
	{
	"epoch": 5.212034383954155,
	"grad_norm": 7.681415557861328,
	"learning_rate": 3.1453966569381796e-05,
	"loss": 0.2721,
	"step": 1819
	},
	{
	"epoch": 5.260744985673353,
	"grad_norm": 1.4911251068115234,
	"learning_rate": 3.1228442557707616e-05,
	"loss": 0.1994,
	"step": 1836
	},
	{
	"epoch": 5.30945558739255,
	"grad_norm": 7.99345588684082,
	"learning_rate": 3.100291854603343e-05,
	"loss": 0.312,
	"step": 1853
	},
	{
	"epoch": 5.358166189111748,
	"grad_norm": 3.288712978363037,
	"learning_rate": 3.077739453435925e-05,
	"loss": 0.3002,
	"step": 1870
	},
	{
	"epoch": 5.406876790830945,
	"grad_norm": 0.1384359449148178,
	"learning_rate": 3.0551870522685064e-05,
	"loss": 0.1875,
	"step": 1887
	},
	{
	"epoch": 5.455587392550143,
	"grad_norm": 2.912055730819702,
	"learning_rate": 3.0326346511010878e-05,
	"loss": 0.1617,
	"step": 1904
	},
	{
	"epoch": 5.504297994269341,
	"grad_norm": 9.510294914245605,
	"learning_rate": 3.0100822499336695e-05,
	"loss": 0.1553,
	"step": 1921
	},
	{
	"epoch": 5.553008595988539,
	"grad_norm": 5.520040988922119,
	"learning_rate": 2.9875298487662512e-05,
	"loss": 0.1949,
	"step": 1938
	},
	{
	"epoch": 5.6017191977077365,
	"grad_norm": 0.39325079321861267,
	"learning_rate": 2.964977447598833e-05,
	"loss": 0.2814,
	"step": 1955
	},
	{
	"epoch": 5.650429799426934,
	"grad_norm": 0.1934385895729065,
	"learning_rate": 2.942425046431414e-05,
	"loss": 0.3251,
	"step": 1972
	},
	{
	"epoch": 5.699140401146132,
	"grad_norm": 5.8890533447265625,
	"learning_rate": 2.9198726452639957e-05,
	"loss": 0.1652,
	"step": 1989
	},
	{
	"epoch": 5.747851002865329,
	"grad_norm": 5.028823375701904,
	"learning_rate": 2.8973202440965774e-05,
	"loss": 0.305,
	"step": 2006
	},
	{
	"epoch": 5.796561604584527,
	"grad_norm": 0.35111504793167114,
	"learning_rate": 2.874767842929159e-05,
	"loss": 0.1684,
	"step": 2023
	},
	{
	"epoch": 5.845272206303725,
	"grad_norm": 1.910530686378479,
	"learning_rate": 2.8522154417617408e-05,
	"loss": 0.2535,
	"step": 2040
	},
	{
	"epoch": 5.893982808022923,
	"grad_norm": 5.5074334144592285,
	"learning_rate": 2.8296630405943218e-05,
	"loss": 0.2924,
	"step": 2057
	},
	{
	"epoch": 5.9426934097421205,
	"grad_norm": 6.081971645355225,
	"learning_rate": 2.8071106394269035e-05,
	"loss": 0.1663,
	"step": 2074
	},
	{
	"epoch": 5.991404011461318,
	"grad_norm": 1.7783217430114746,
	"learning_rate": 2.7845582382594852e-05,
	"loss": 0.1912,
	"step": 2091
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9971305595408895,
	"eval_f1_macro": 0.997156659844563,
	"eval_f1_micro": 0.9971305595408895,
	"eval_f1_weighted": 0.9971139798573604,
	"eval_loss": 0.031095275655388832,
	"eval_precision_macro": 0.9975660216624072,
	"eval_precision_micro": 0.9971305595408895,
	"eval_precision_weighted": 0.9974204020115067,
	"eval_recall_macro": 0.9970740103270225,
	"eval_recall_micro": 0.9971305595408895,
	"eval_recall_weighted": 0.9971305595408895,
	"eval_runtime": 3.3447,
	"eval_samples_per_second": 208.387,
	"eval_steps_per_second": 13.155,
	"step": 2094
	},
	{
	"epoch": 6.040114613180516,
	"grad_norm": 12.544295310974121,
	"learning_rate": 2.762005837092067e-05,
	"loss": 0.2401,
	"step": 2108
	},
	{
	"epoch": 6.088825214899713,
	"grad_norm": 0.36089888215065,
	"learning_rate": 2.7394534359246486e-05,
	"loss": 0.1197,
	"step": 2125
	},
	{
	"epoch": 6.137535816618911,
	"grad_norm": 3.824916124343872,
	"learning_rate": 2.71690103475723e-05,
	"loss": 0.2304,
	"step": 2142
	},
	{
	"epoch": 6.186246418338109,
	"grad_norm": 7.010196685791016,
	"learning_rate": 2.6943486335898117e-05,
	"loss": 0.2393,
	"step": 2159
	},
	{
	"epoch": 6.234957020057307,
	"grad_norm": 0.23738817870616913,
	"learning_rate": 2.6717962324223934e-05,
	"loss": 0.2878,
	"step": 2176
	},
	{
	"epoch": 6.283667621776504,
	"grad_norm": 6.685153961181641,
	"learning_rate": 2.649243831254975e-05,
	"loss": 0.23,
	"step": 2193
	},
	{
	"epoch": 6.332378223495702,
	"grad_norm": 9.155635833740234,
	"learning_rate": 2.626691430087557e-05,
	"loss": 0.127,
	"step": 2210
	},
	{
	"epoch": 6.3810888252149,
	"grad_norm": 1.8248714208602905,
	"learning_rate": 2.604139028920138e-05,
	"loss": 0.264,
	"step": 2227
	},
	{
	"epoch": 6.429799426934097,
	"grad_norm": 3.287179946899414,
	"learning_rate": 2.5815866277527196e-05,
	"loss": 0.2568,
	"step": 2244
	},
	{
	"epoch": 6.478510028653295,
	"grad_norm": 0.12249535322189331,
	"learning_rate": 2.5590342265853013e-05,
	"loss": 0.1211,
	"step": 2261
	},
	{
	"epoch": 6.527220630372493,
	"grad_norm": 9.649252891540527,
	"learning_rate": 2.536481825417883e-05,
	"loss": 0.2599,
	"step": 2278
	},
	{
	"epoch": 6.5759312320916905,
	"grad_norm": 8.501516342163086,
	"learning_rate": 2.5139294242504647e-05,
	"loss": 0.1997,
	"step": 2295
	},
	{
	"epoch": 6.624641833810888,
	"grad_norm": 6.785931587219238,
	"learning_rate": 2.491377023083046e-05,
	"loss": 0.1947,
	"step": 2312
	},
	{
	"epoch": 6.673352435530086,
	"grad_norm": 1.3328988552093506,
	"learning_rate": 2.4688246219156274e-05,
	"loss": 0.2236,
	"step": 2329
	},
	{
	"epoch": 6.722063037249284,
	"grad_norm": 9.384140014648438,
	"learning_rate": 2.446272220748209e-05,
	"loss": 0.2394,
	"step": 2346
	},
	{
	"epoch": 6.770773638968482,
	"grad_norm": 1.0058611631393433,
	"learning_rate": 2.423719819580791e-05,
	"loss": 0.1288,
	"step": 2363
	},
	{
	"epoch": 6.819484240687679,
	"grad_norm": 0.7905517816543579,
	"learning_rate": 2.4011674184133722e-05,
	"loss": 0.1528,
	"step": 2380
	},
	{
	"epoch": 6.868194842406877,
	"grad_norm": 10.827178955078125,
	"learning_rate": 2.378615017245954e-05,
	"loss": 0.1767,
	"step": 2397
	},
	{
	"epoch": 6.916905444126074,
	"grad_norm": 7.897141933441162,
	"learning_rate": 2.3560626160785353e-05,
	"loss": 0.1411,
	"step": 2414
	},
	{
	"epoch": 6.965616045845272,
	"grad_norm": 4.635827541351318,
	"learning_rate": 2.333510214911117e-05,
	"loss": 0.1712,
	"step": 2431
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9956958393113343,
	"eval_f1_macro": 0.9951431111442676,
	"eval_f1_micro": 0.9956958393113343,
	"eval_f1_weighted": 0.9956405011600654,
	"eval_loss": 0.024958999827504158,
	"eval_precision_macro": 0.995983935742972,
	"eval_precision_micro": 0.9956958393113343,
	"eval_precision_weighted": 0.9964929061055317,
	"eval_recall_macro": 0.9953528399311532,
	"eval_recall_micro": 0.9956958393113343,
	"eval_recall_weighted": 0.9956958393113343,
	"eval_runtime": 3.4628,
	"eval_samples_per_second": 201.281,
	"eval_steps_per_second": 12.706,
	"step": 2443
	},
	{
	"epoch": 7.01432664756447,
	"grad_norm": 0.12232652306556702,
	"learning_rate": 2.3109578137436987e-05,
	"loss": 0.2055,
	"step": 2448
	},
	{
	"epoch": 7.063037249283668,
	"grad_norm": 0.07312128692865372,
	"learning_rate": 2.28840541257628e-05,
	"loss": 0.1848,
	"step": 2465
	},
	{
	"epoch": 7.111747851002866,
	"grad_norm": 0.32181409001350403,
	"learning_rate": 2.2658530114088618e-05,
	"loss": 0.1364,
	"step": 2482
	},
	{
	"epoch": 7.160458452722063,
	"grad_norm": 0.7672788500785828,
	"learning_rate": 2.2433006102414432e-05,
	"loss": 0.072,
	"step": 2499
	},
	{
	"epoch": 7.2091690544412605,
	"grad_norm": 8.377331733703613,
	"learning_rate": 2.220748209074025e-05,
	"loss": 0.2638,
	"step": 2516
	},
	{
	"epoch": 7.257879656160458,
	"grad_norm": 9.670488357543945,
	"learning_rate": 2.1981958079066066e-05,
	"loss": 0.2495,
	"step": 2533
	},
	{
	"epoch": 7.306590257879656,
	"grad_norm": 0.24363534152507782,
	"learning_rate": 2.1756434067391883e-05,
	"loss": 0.2038,
	"step": 2550
	},
	{
	"epoch": 7.355300859598854,
	"grad_norm": 2.2357654571533203,
	"learning_rate": 2.15309100557177e-05,
	"loss": 0.2934,
	"step": 2567
	},
	{
	"epoch": 7.404011461318052,
	"grad_norm": 0.20546384155750275,
	"learning_rate": 2.1305386044043514e-05,
	"loss": 0.1834,
	"step": 2584
	},
	{
	"epoch": 7.45272206303725,
	"grad_norm": 0.32598844170570374,
	"learning_rate": 2.107986203236933e-05,
	"loss": 0.0821,
	"step": 2601
	},
	{
	"epoch": 7.501432664756447,
	"grad_norm": 8.553650856018066,
	"learning_rate": 2.0854338020695148e-05,
	"loss": 0.0992,
	"step": 2618
	},
	{
	"epoch": 7.5501432664756445,
	"grad_norm": 0.3119734525680542,
	"learning_rate": 2.062881400902096e-05,
	"loss": 0.2344,
	"step": 2635
	},
	{
	"epoch": 7.598853868194842,
	"grad_norm": 6.1670002937316895,
	"learning_rate": 2.040328999734678e-05,
	"loss": 0.1058,
	"step": 2652
	},
	{
	"epoch": 7.64756446991404,
	"grad_norm": 2.705218553543091,
	"learning_rate": 2.0177765985672592e-05,
	"loss": 0.1608,
	"step": 2669
	},
	{
	"epoch": 7.696275071633238,
	"grad_norm": 5.938003063201904,
	"learning_rate": 1.995224197399841e-05,
	"loss": 0.1554,
	"step": 2686
	},
	{
	"epoch": 7.744985673352436,
	"grad_norm": 0.41698479652404785,
	"learning_rate": 1.9726717962324227e-05,
	"loss": 0.0979,
	"step": 2703
	},
	{
	"epoch": 7.793696275071634,
	"grad_norm": 0.4503624141216278,
	"learning_rate": 1.950119395065004e-05,
	"loss": 0.1353,
	"step": 2720
	},
	{
	"epoch": 7.842406876790831,
	"grad_norm": 4.662674427032471,
	"learning_rate": 1.9275669938975857e-05,
	"loss": 0.1295,
	"step": 2737
	},
	{
	"epoch": 7.891117478510028,
	"grad_norm": 5.666357517242432,
	"learning_rate": 1.905014592730167e-05,
	"loss": 0.2144,
	"step": 2754
	},
	{
	"epoch": 7.939828080229226,
	"grad_norm": 0.6394052505493164,
	"learning_rate": 1.8824621915627488e-05,
	"loss": 0.178,
	"step": 2771
	},
	{
	"epoch": 7.988538681948424,
	"grad_norm": 9.961098670959473,
	"learning_rate": 1.8599097903953305e-05,
	"loss": 0.2561,
	"step": 2788
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9956958393113343,
	"eval_f1_macro": 0.9951431111442676,
	"eval_f1_micro": 0.9956958393113343,
	"eval_f1_weighted": 0.9956405011600654,
	"eval_loss": 0.023447172716259956,
	"eval_precision_macro": 0.995983935742972,
	"eval_precision_micro": 0.9956958393113343,
	"eval_precision_weighted": 0.9964929061055317,
	"eval_recall_macro": 0.9953528399311532,
	"eval_recall_micro": 0.9956958393113343,
	"eval_recall_weighted": 0.9956958393113343,
	"eval_runtime": 3.3596,
	"eval_samples_per_second": 207.466,
	"eval_steps_per_second": 13.097,
	"step": 2792
	},
	{
	"epoch": 8.037249283667622,
	"grad_norm": 10.93313217163086,
	"learning_rate": 1.837357389227912e-05,
	"loss": 0.11,
	"step": 2805
	},
	{
	"epoch": 8.085959885386819,
	"grad_norm": 0.05085707828402519,
	"learning_rate": 1.8148049880604936e-05,
	"loss": 0.0616,
	"step": 2822
	},
	{
	"epoch": 8.134670487106018,
	"grad_norm": 10.42803955078125,
	"learning_rate": 1.792252586893075e-05,
	"loss": 0.0648,
	"step": 2839
	},
	{
	"epoch": 8.183381088825215,
	"grad_norm": 1.379164457321167,
	"learning_rate": 1.7697001857256567e-05,
	"loss": 0.1706,
	"step": 2856
	},
	{
	"epoch": 8.232091690544413,
	"grad_norm": 8.783364295959473,
	"learning_rate": 1.7471477845582384e-05,
	"loss": 0.1954,
	"step": 2873
	},
	{
	"epoch": 8.28080229226361,
	"grad_norm": 1.5522698163986206,
	"learning_rate": 1.7245953833908197e-05,
	"loss": 0.2134,
	"step": 2890
	},
	{
	"epoch": 8.329512893982809,
	"grad_norm": 6.784268379211426,
	"learning_rate": 1.7020429822234015e-05,
	"loss": 0.1928,
	"step": 2907
	},
	{
	"epoch": 8.378223495702006,
	"grad_norm": 3.0361063480377197,
	"learning_rate": 1.679490581055983e-05,
	"loss": 0.3187,
	"step": 2924
	},
	{
	"epoch": 8.426934097421203,
	"grad_norm": 1.8513216972351074,
	"learning_rate": 1.6569381798885645e-05,
	"loss": 0.1319,
	"step": 2941
	},
	{
	"epoch": 8.475644699140402,
	"grad_norm": 0.5567758083343506,
	"learning_rate": 1.6343857787211462e-05,
	"loss": 0.136,
	"step": 2958
	},
	{
	"epoch": 8.524355300859598,
	"grad_norm": 2.810915231704712,
	"learning_rate": 1.611833377553728e-05,
	"loss": 0.0858,
	"step": 2975
	},
	{
	"epoch": 8.573065902578797,
	"grad_norm": 1.9855493307113647,
	"learning_rate": 1.5892809763863097e-05,
	"loss": 0.1732,
	"step": 2992
	},
	{
	"epoch": 8.621776504297994,
	"grad_norm": 0.1735798567533493,
	"learning_rate": 1.566728575218891e-05,
	"loss": 0.0911,
	"step": 3009
	},
	{
	"epoch": 8.670487106017191,
	"grad_norm": 0.19329993426799774,
	"learning_rate": 1.5441761740514727e-05,
	"loss": 0.1024,
	"step": 3026
	},
	{
	"epoch": 8.71919770773639,
	"grad_norm": 4.43624210357666,
	"learning_rate": 1.5216237728840543e-05,
	"loss": 0.1408,
	"step": 3043
	},
	{
	"epoch": 8.767908309455587,
	"grad_norm": 9.911310195922852,
	"learning_rate": 1.4990713717166358e-05,
	"loss": 0.1626,
	"step": 3060
	},
	{
	"epoch": 8.816618911174785,
	"grad_norm": 1.323052167892456,
	"learning_rate": 1.4765189705492175e-05,
	"loss": 0.1222,
	"step": 3077
	},
	{
	"epoch": 8.865329512893982,
	"grad_norm": 11.561975479125977,
	"learning_rate": 1.4539665693817989e-05,
	"loss": 0.1769,
	"step": 3094
	},
	{
	"epoch": 8.914040114613181,
	"grad_norm": 0.08104487508535385,
	"learning_rate": 1.4314141682143806e-05,
	"loss": 0.0953,
	"step": 3111
	},
	{
	"epoch": 8.962750716332378,
	"grad_norm": 0.04927730932831764,
	"learning_rate": 1.408861767046962e-05,
	"loss": 0.0574,
	"step": 3128
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9956958393113343,
	"eval_f1_macro": 0.9948504424939576,
	"eval_f1_micro": 0.9956958393113343,
	"eval_f1_weighted": 0.9956230754082893,
	"eval_loss": 0.017519734799861908,
	"eval_precision_macro": 0.995983935742972,
	"eval_precision_micro": 0.9956958393113343,
	"eval_precision_weighted": 0.9964929061055317,
	"eval_recall_macro": 0.9948364888123926,
	"eval_recall_micro": 0.9956958393113343,
	"eval_recall_weighted": 0.9956958393113343,
	"eval_runtime": 3.4072,
	"eval_samples_per_second": 204.565,
	"eval_steps_per_second": 12.914,
	"step": 3141
	},
	{
	"epoch": 9.011461318051577,
	"grad_norm": 0.3880198001861572,
	"learning_rate": 1.3863093658795437e-05,
	"loss": 0.1954,
	"step": 3145
	},
	{
	"epoch": 9.060171919770774,
	"grad_norm": 0.05076654255390167,
	"learning_rate": 1.3637569647121254e-05,
	"loss": 0.0797,
	"step": 3162
	},
	{
	"epoch": 9.10888252148997,
	"grad_norm": 6.032546043395996,
	"learning_rate": 1.3412045635447068e-05,
	"loss": 0.2393,
	"step": 3179
	},
	{
	"epoch": 9.15759312320917,
	"grad_norm": 11.056164741516113,
	"learning_rate": 1.3186521623772885e-05,
	"loss": 0.1001,
	"step": 3196
	},
	{
	"epoch": 9.206303724928366,
	"grad_norm": 0.19840994477272034,
	"learning_rate": 1.29609976120987e-05,
	"loss": 0.0743,
	"step": 3213
	},
	{
	"epoch": 9.255014326647565,
	"grad_norm": 4.645060062408447,
	"learning_rate": 1.2735473600424515e-05,
	"loss": 0.1446,
	"step": 3230
	},
	{
	"epoch": 9.303724928366762,
	"grad_norm": 9.013117790222168,
	"learning_rate": 1.2509949588750332e-05,
	"loss": 0.1288,
	"step": 3247
	},
	{
	"epoch": 9.35243553008596,
	"grad_norm": 1.7711181640625,
	"learning_rate": 1.228442557707615e-05,
	"loss": 0.0835,
	"step": 3264
	},
	{
	"epoch": 9.401146131805158,
	"grad_norm": 5.3366379737854,
	"learning_rate": 1.2058901565401965e-05,
	"loss": 0.1201,
	"step": 3281
	},
	{
	"epoch": 9.449856733524355,
	"grad_norm": 3.4900286197662354,
	"learning_rate": 1.183337755372778e-05,
	"loss": 0.1026,
	"step": 3298
	},
	{
	"epoch": 9.498567335243553,
	"grad_norm": 0.059569913893938065,
	"learning_rate": 1.1607853542053596e-05,
	"loss": 0.1123,
	"step": 3315
	},
	{
	"epoch": 9.54727793696275,
	"grad_norm": 8.251703262329102,
	"learning_rate": 1.1382329530379411e-05,
	"loss": 0.1441,
	"step": 3332
	},
	{
	"epoch": 9.595988538681949,
	"grad_norm": 1.078260064125061,
	"learning_rate": 1.1156805518705226e-05,
	"loss": 0.1191,
	"step": 3349
	},
	{
	"epoch": 9.644699140401146,
	"grad_norm": 7.364470958709717,
	"learning_rate": 1.0931281507031044e-05,
	"loss": 0.1539,
	"step": 3366
	},
	{
	"epoch": 9.693409742120345,
	"grad_norm": 2.354499101638794,
	"learning_rate": 1.0705757495356859e-05,
	"loss": 0.1502,
	"step": 3383
	},
	{
	"epoch": 9.742120343839542,
	"grad_norm": 10.193525314331055,
	"learning_rate": 1.0480233483682674e-05,
	"loss": 0.1199,
	"step": 3400
	},
	{
	"epoch": 9.790830945558739,
	"grad_norm": 2.536367893218994,
	"learning_rate": 1.025470947200849e-05,
	"loss": 0.2098,
	"step": 3417
	},
	{
	"epoch": 9.839541547277937,
	"grad_norm": 5.09243631362915,
	"learning_rate": 1.0029185460334307e-05,
	"loss": 0.2896,
	"step": 3434
	},
	{
	"epoch": 9.888252148997134,
	"grad_norm": 1.098929762840271,
	"learning_rate": 9.803661448660124e-06,
	"loss": 0.1017,
	"step": 3451
	},
	{
	"epoch": 9.936962750716333,
	"grad_norm": 0.1535651981830597,
	"learning_rate": 9.57813743698594e-06,
	"loss": 0.1077,
	"step": 3468
	},
	{
	"epoch": 9.98567335243553,
	"grad_norm": 0.5236210227012634,
	"learning_rate": 9.352613425311755e-06,
	"loss": 0.084,
	"step": 3485
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9956958393113343,
	"eval_f1_macro": 0.9949831411206324,
	"eval_f1_micro": 0.9956958393113343,
	"eval_f1_weighted": 0.9955771743939521,
	"eval_loss": 0.015395666472613811,
	"eval_precision_macro": 0.9964707314104905,
	"eval_precision_micro": 0.9956958393113343,
	"eval_precision_weighted": 0.9963769691172847,
	"eval_recall_macro": 0.9945496270797476,
	"eval_recall_micro": 0.9956958393113343,
	"eval_recall_weighted": 0.9956958393113343,
	"eval_runtime": 3.4096,
	"eval_samples_per_second": 204.424,
	"eval_steps_per_second": 12.905,
	"step": 3490
	},
	{
	"epoch": 10.034383954154729,
	"grad_norm": 0.10064805299043655,
	"learning_rate": 9.12708941363757e-06,
	"loss": 0.129,
	"step": 3502
	},
	{
	"epoch": 10.083094555873926,
	"grad_norm": 0.9957130551338196,
	"learning_rate": 8.901565401963385e-06,
	"loss": 0.0652,
	"step": 3519
	},
	{
	"epoch": 10.131805157593123,
	"grad_norm": 4.763299465179443,
	"learning_rate": 8.676041390289202e-06,
	"loss": 0.1531,
	"step": 3536
	},
	{
	"epoch": 10.180515759312321,
	"grad_norm": 0.9550924897193909,
	"learning_rate": 8.450517378615018e-06,
	"loss": 0.0548,
	"step": 3553
	},
	{
	"epoch": 10.229226361031518,
	"grad_norm": 0.5510568022727966,
	"learning_rate": 8.224993366940833e-06,
	"loss": 0.171,
	"step": 3570
	},
	{
	"epoch": 10.277936962750717,
	"grad_norm": 1.120082139968872,
	"learning_rate": 7.999469355266649e-06,
	"loss": 0.1506,
	"step": 3587
	},
	{
	"epoch": 10.326647564469914,
	"grad_norm": 8.000428199768066,
	"learning_rate": 7.773945343592464e-06,
	"loss": 0.0791,
	"step": 3604
	},
	{
	"epoch": 10.375358166189113,
	"grad_norm": 0.08897445350885391,
	"learning_rate": 7.548421331918282e-06,
	"loss": 0.1006,
	"step": 3621
	},
	{
	"epoch": 10.42406876790831,
	"grad_norm": 1.5076502561569214,
	"learning_rate": 7.322897320244097e-06,
	"loss": 0.1085,
	"step": 3638
	},
	{
	"epoch": 10.472779369627506,
	"grad_norm": 0.3444303870201111,
	"learning_rate": 7.097373308569913e-06,
	"loss": 0.0881,
	"step": 3655
	},
	{
	"epoch": 10.521489971346705,
	"grad_norm": 5.353268146514893,
	"learning_rate": 6.871849296895728e-06,
	"loss": 0.1233,
	"step": 3672
	},
	{
	"epoch": 10.570200573065902,
	"grad_norm": 6.925529479980469,
	"learning_rate": 6.646325285221544e-06,
	"loss": 0.1726,
	"step": 3689
	},
	{
	"epoch": 10.6189111747851,
	"grad_norm": 1.2398282289505005,
	"learning_rate": 6.42080127354736e-06,
	"loss": 0.1607,
	"step": 3706
	},
	{
	"epoch": 10.667621776504298,
	"grad_norm": 0.17667262256145477,
	"learning_rate": 6.195277261873176e-06,
	"loss": 0.1065,
	"step": 3723
	},
	{
	"epoch": 10.716332378223496,
	"grad_norm": 8.593550682067871,
	"learning_rate": 5.969753250198992e-06,
	"loss": 0.1598,
	"step": 3740
	},
	{
	"epoch": 10.765042979942693,
	"grad_norm": 6.634376049041748,
	"learning_rate": 5.744229238524808e-06,
	"loss": 0.214,
	"step": 3757
	},
	{
	"epoch": 10.81375358166189,
	"grad_norm": 0.12865765392780304,
	"learning_rate": 5.518705226850624e-06,
	"loss": 0.1079,
	"step": 3774
	},
	{
	"epoch": 10.862464183381089,
	"grad_norm": 0.4588039815425873,
	"learning_rate": 5.29318121517644e-06,
	"loss": 0.1218,
	"step": 3791
	},
	{
	"epoch": 10.911174785100286,
	"grad_norm": 8.046585083007812,
	"learning_rate": 5.0676572035022555e-06,
	"loss": 0.1618,
	"step": 3808
	},
	{
	"epoch": 10.959885386819485,
	"grad_norm": 0.34073105454444885,
	"learning_rate": 4.842133191828072e-06,
	"loss": 0.0788,
	"step": 3825
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 1.0,
	"eval_f1_macro": 1.0,
	"eval_f1_micro": 1.0,
	"eval_f1_weighted": 1.0,
	"eval_loss": 0.011031342670321465,
	"eval_precision_macro": 1.0,
	"eval_precision_micro": 1.0,
	"eval_precision_weighted": 1.0,
	"eval_recall_macro": 1.0,
	"eval_recall_micro": 1.0,
	"eval_recall_weighted": 1.0,
	"eval_runtime": 3.4121,
	"eval_samples_per_second": 204.275,
	"eval_steps_per_second": 12.895,
	"step": 3839
	}
	],
	"logging_steps": 17,
	"max_steps": 4188,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 12,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.01
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.3756905482586214e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}