Upload 4 files

cf4da91 verified 9 months ago

102 kB

	{
	"best_metric": 0.910958904109589,
	"best_model_checkpoint": "swinv2-tiny-patch4-window8-256-finetuned-5emotions\\checkpoint-5281",
	"epoch": 24.99881656804734,
	"eval_steps": 500,
	"global_step": 5281,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.047337278106508875,
	"grad_norm": 7.075885772705078,
	"learning_rate": 6.765899864682003e-07,
	"loss": 1.691,
	"step": 10
	},
	{
	"epoch": 0.09467455621301775,
	"grad_norm": 9.890098571777344,
	"learning_rate": 1.3531799729364006e-06,
	"loss": 1.6712,
	"step": 20
	},
	{
	"epoch": 0.14201183431952663,
	"grad_norm": 7.415971755981445,
	"learning_rate": 2.029769959404601e-06,
	"loss": 1.6787,
	"step": 30
	},
	{
	"epoch": 0.1893491124260355,
	"grad_norm": 6.3063764572143555,
	"learning_rate": 2.7063599458728013e-06,
	"loss": 1.6685,
	"step": 40
	},
	{
	"epoch": 0.23668639053254437,
	"grad_norm": 8.763900756835938,
	"learning_rate": 3.3829499323410016e-06,
	"loss": 1.6143,
	"step": 50
	},
	{
	"epoch": 0.28402366863905326,
	"grad_norm": 6.661700248718262,
	"learning_rate": 4.059539918809202e-06,
	"loss": 1.5849,
	"step": 60
	},
	{
	"epoch": 0.33136094674556216,
	"grad_norm": 7.178672790527344,
	"learning_rate": 4.736129905277402e-06,
	"loss": 1.5502,
	"step": 70
	},
	{
	"epoch": 0.378698224852071,
	"grad_norm": 5.857969284057617,
	"learning_rate": 5.4127198917456026e-06,
	"loss": 1.5274,
	"step": 80
	},
	{
	"epoch": 0.4260355029585799,
	"grad_norm": 6.652136325836182,
	"learning_rate": 6.089309878213803e-06,
	"loss": 1.4915,
	"step": 90
	},
	{
	"epoch": 0.47337278106508873,
	"grad_norm": 6.222568035125732,
	"learning_rate": 6.765899864682003e-06,
	"loss": 1.4063,
	"step": 100
	},
	{
	"epoch": 0.5207100591715976,
	"grad_norm": 6.365822792053223,
	"learning_rate": 7.442489851150203e-06,
	"loss": 1.3811,
	"step": 110
	},
	{
	"epoch": 0.5680473372781065,
	"grad_norm": 7.9343414306640625,
	"learning_rate": 8.119079837618404e-06,
	"loss": 1.3026,
	"step": 120
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 9.204723358154297,
	"learning_rate": 8.795669824086604e-06,
	"loss": 1.2516,
	"step": 130
	},
	{
	"epoch": 0.6627218934911243,
	"grad_norm": 7.836040496826172,
	"learning_rate": 9.472259810554804e-06,
	"loss": 1.1664,
	"step": 140
	},
	{
	"epoch": 0.7100591715976331,
	"grad_norm": 10.82960319519043,
	"learning_rate": 1.0148849797023005e-05,
	"loss": 1.182,
	"step": 150
	},
	{
	"epoch": 0.757396449704142,
	"grad_norm": 13.981669425964355,
	"learning_rate": 1.0825439783491205e-05,
	"loss": 1.0992,
	"step": 160
	},
	{
	"epoch": 0.8047337278106509,
	"grad_norm": 17.63448715209961,
	"learning_rate": 1.1502029769959405e-05,
	"loss": 1.036,
	"step": 170
	},
	{
	"epoch": 0.8520710059171598,
	"grad_norm": 13.67409610748291,
	"learning_rate": 1.2178619756427606e-05,
	"loss": 1.0372,
	"step": 180
	},
	{
	"epoch": 0.8994082840236687,
	"grad_norm": 10.486079216003418,
	"learning_rate": 1.2855209742895804e-05,
	"loss": 0.9888,
	"step": 190
	},
	{
	"epoch": 0.9467455621301775,
	"grad_norm": 10.388420104980469,
	"learning_rate": 1.3531799729364006e-05,
	"loss": 0.98,
	"step": 200
	},
	{
	"epoch": 0.9940828402366864,
	"grad_norm": 11.530645370483398,
	"learning_rate": 1.4208389715832207e-05,
	"loss": 0.9665,
	"step": 210
	},
	{
	"epoch": 0.9988165680473373,
	"eval_accuracy": 0.6835616438356165,
	"eval_loss": 0.8002648949623108,
	"eval_runtime": 6.3464,
	"eval_samples_per_second": 230.051,
	"eval_steps_per_second": 28.835,
	"step": 211
	},
	{
	"epoch": 1.0414201183431953,
	"grad_norm": 14.492610931396484,
	"learning_rate": 1.4884979702300405e-05,
	"loss": 0.9431,
	"step": 220
	},
	{
	"epoch": 1.0887573964497042,
	"grad_norm": 11.852544784545898,
	"learning_rate": 1.5561569688768607e-05,
	"loss": 0.8959,
	"step": 230
	},
	{
	"epoch": 1.136094674556213,
	"grad_norm": 11.708285331726074,
	"learning_rate": 1.6238159675236808e-05,
	"loss": 0.9688,
	"step": 240
	},
	{
	"epoch": 1.183431952662722,
	"grad_norm": 14.45132827758789,
	"learning_rate": 1.6914749661705008e-05,
	"loss": 0.8888,
	"step": 250
	},
	{
	"epoch": 1.2307692307692308,
	"grad_norm": 14.281059265136719,
	"learning_rate": 1.759133964817321e-05,
	"loss": 0.846,
	"step": 260
	},
	{
	"epoch": 1.2781065088757395,
	"grad_norm": 14.860888481140137,
	"learning_rate": 1.826792963464141e-05,
	"loss": 0.8906,
	"step": 270
	},
	{
	"epoch": 1.3254437869822486,
	"grad_norm": 10.605212211608887,
	"learning_rate": 1.894451962110961e-05,
	"loss": 0.8169,
	"step": 280
	},
	{
	"epoch": 1.3727810650887573,
	"grad_norm": 12.668191909790039,
	"learning_rate": 1.962110960757781e-05,
	"loss": 0.836,
	"step": 290
	},
	{
	"epoch": 1.4201183431952662,
	"grad_norm": 10.248248100280762,
	"learning_rate": 2.029769959404601e-05,
	"loss": 0.7644,
	"step": 300
	},
	{
	"epoch": 1.467455621301775,
	"grad_norm": 9.778542518615723,
	"learning_rate": 2.097428958051421e-05,
	"loss": 0.7755,
	"step": 310
	},
	{
	"epoch": 1.514792899408284,
	"grad_norm": 9.64427661895752,
	"learning_rate": 2.165087956698241e-05,
	"loss": 0.7387,
	"step": 320
	},
	{
	"epoch": 1.5621301775147929,
	"grad_norm": 10.04445743560791,
	"learning_rate": 2.232746955345061e-05,
	"loss": 0.7605,
	"step": 330
	},
	{
	"epoch": 1.6094674556213018,
	"grad_norm": 13.125927925109863,
	"learning_rate": 2.300405953991881e-05,
	"loss": 0.6781,
	"step": 340
	},
	{
	"epoch": 1.6568047337278107,
	"grad_norm": 13.797953605651855,
	"learning_rate": 2.368064952638701e-05,
	"loss": 0.6551,
	"step": 350
	},
	{
	"epoch": 1.7041420118343196,
	"grad_norm": 14.754645347595215,
	"learning_rate": 2.435723951285521e-05,
	"loss": 0.7542,
	"step": 360
	},
	{
	"epoch": 1.7514792899408285,
	"grad_norm": 13.914559364318848,
	"learning_rate": 2.5033829499323412e-05,
	"loss": 0.8104,
	"step": 370
	},
	{
	"epoch": 1.7988165680473371,
	"grad_norm": 11.46696662902832,
	"learning_rate": 2.571041948579161e-05,
	"loss": 0.6945,
	"step": 380
	},
	{
	"epoch": 1.8461538461538463,
	"grad_norm": 10.812294960021973,
	"learning_rate": 2.638700947225981e-05,
	"loss": 0.6711,
	"step": 390
	},
	{
	"epoch": 1.893491124260355,
	"grad_norm": 15.02450180053711,
	"learning_rate": 2.7063599458728013e-05,
	"loss": 0.7345,
	"step": 400
	},
	{
	"epoch": 1.940828402366864,
	"grad_norm": 11.53946590423584,
	"learning_rate": 2.7740189445196213e-05,
	"loss": 0.723,
	"step": 410
	},
	{
	"epoch": 1.9881656804733727,
	"grad_norm": 8.337069511413574,
	"learning_rate": 2.8416779431664413e-05,
	"loss": 0.6443,
	"step": 420
	},
	{
	"epoch": 1.9976331360946746,
	"eval_accuracy": 0.8246575342465754,
	"eval_loss": 0.4562951624393463,
	"eval_runtime": 6.3186,
	"eval_samples_per_second": 231.065,
	"eval_steps_per_second": 28.962,
	"step": 422
	},
	{
	"epoch": 2.035502958579882,
	"grad_norm": 9.038360595703125,
	"learning_rate": 2.9093369418132617e-05,
	"loss": 0.6256,
	"step": 430
	},
	{
	"epoch": 2.0828402366863905,
	"grad_norm": 12.379063606262207,
	"learning_rate": 2.976995940460081e-05,
	"loss": 0.5998,
	"step": 440
	},
	{
	"epoch": 2.1301775147928996,
	"grad_norm": 12.626445770263672,
	"learning_rate": 3.044654939106901e-05,
	"loss": 0.6456,
	"step": 450
	},
	{
	"epoch": 2.1775147928994083,
	"grad_norm": 10.665410995483398,
	"learning_rate": 3.1123139377537215e-05,
	"loss": 0.6145,
	"step": 460
	},
	{
	"epoch": 2.224852071005917,
	"grad_norm": 11.917645454406738,
	"learning_rate": 3.1799729364005415e-05,
	"loss": 0.6494,
	"step": 470
	},
	{
	"epoch": 2.272189349112426,
	"grad_norm": 14.427268981933594,
	"learning_rate": 3.2476319350473615e-05,
	"loss": 0.5967,
	"step": 480
	},
	{
	"epoch": 2.3195266272189348,
	"grad_norm": 14.22167682647705,
	"learning_rate": 3.3152909336941816e-05,
	"loss": 0.6356,
	"step": 490
	},
	{
	"epoch": 2.366863905325444,
	"grad_norm": 15.034667015075684,
	"learning_rate": 3.3829499323410016e-05,
	"loss": 0.6583,
	"step": 500
	},
	{
	"epoch": 2.4142011834319526,
	"grad_norm": 11.716626167297363,
	"learning_rate": 3.4506089309878216e-05,
	"loss": 0.5703,
	"step": 510
	},
	{
	"epoch": 2.4615384615384617,
	"grad_norm": 8.812618255615234,
	"learning_rate": 3.518267929634642e-05,
	"loss": 0.5495,
	"step": 520
	},
	{
	"epoch": 2.5088757396449703,
	"grad_norm": 19.886188507080078,
	"learning_rate": 3.585926928281462e-05,
	"loss": 0.7156,
	"step": 530
	},
	{
	"epoch": 2.556213017751479,
	"grad_norm": 10.014534950256348,
	"learning_rate": 3.653585926928282e-05,
	"loss": 0.7279,
	"step": 540
	},
	{
	"epoch": 2.603550295857988,
	"grad_norm": 8.2186861038208,
	"learning_rate": 3.721244925575101e-05,
	"loss": 0.6629,
	"step": 550
	},
	{
	"epoch": 2.6508875739644973,
	"grad_norm": 11.415748596191406,
	"learning_rate": 3.788903924221922e-05,
	"loss": 0.6031,
	"step": 560
	},
	{
	"epoch": 2.698224852071006,
	"grad_norm": 6.490344047546387,
	"learning_rate": 3.856562922868742e-05,
	"loss": 0.5158,
	"step": 570
	},
	{
	"epoch": 2.7455621301775146,
	"grad_norm": 10.63316822052002,
	"learning_rate": 3.924221921515562e-05,
	"loss": 0.6533,
	"step": 580
	},
	{
	"epoch": 2.7928994082840237,
	"grad_norm": 9.291253089904785,
	"learning_rate": 3.991880920162382e-05,
	"loss": 0.5501,
	"step": 590
	},
	{
	"epoch": 2.8402366863905324,
	"grad_norm": 10.60273551940918,
	"learning_rate": 4.059539918809202e-05,
	"loss": 0.5719,
	"step": 600
	},
	{
	"epoch": 2.8875739644970415,
	"grad_norm": 10.603645324707031,
	"learning_rate": 4.127198917456021e-05,
	"loss": 0.4905,
	"step": 610
	},
	{
	"epoch": 2.93491124260355,
	"grad_norm": 17.47416877746582,
	"learning_rate": 4.194857916102842e-05,
	"loss": 0.7037,
	"step": 620
	},
	{
	"epoch": 2.9822485207100593,
	"grad_norm": 9.434072494506836,
	"learning_rate": 4.262516914749662e-05,
	"loss": 0.5815,
	"step": 630
	},
	{
	"epoch": 2.996449704142012,
	"eval_accuracy": 0.8568493150684932,
	"eval_loss": 0.3556749224662781,
	"eval_runtime": 6.2074,
	"eval_samples_per_second": 235.204,
	"eval_steps_per_second": 29.481,
	"step": 633
	},
	{
	"epoch": 3.029585798816568,
	"grad_norm": 13.81190299987793,
	"learning_rate": 4.330175913396482e-05,
	"loss": 0.5877,
	"step": 640
	},
	{
	"epoch": 3.076923076923077,
	"grad_norm": 8.872483253479004,
	"learning_rate": 4.397834912043302e-05,
	"loss": 0.55,
	"step": 650
	},
	{
	"epoch": 3.1242603550295858,
	"grad_norm": 11.748785972595215,
	"learning_rate": 4.465493910690122e-05,
	"loss": 0.6155,
	"step": 660
	},
	{
	"epoch": 3.171597633136095,
	"grad_norm": 13.621400833129883,
	"learning_rate": 4.5331529093369415e-05,
	"loss": 0.5907,
	"step": 670
	},
	{
	"epoch": 3.2189349112426036,
	"grad_norm": 10.422270774841309,
	"learning_rate": 4.600811907983762e-05,
	"loss": 0.6022,
	"step": 680
	},
	{
	"epoch": 3.2662721893491122,
	"grad_norm": 12.192015647888184,
	"learning_rate": 4.668470906630582e-05,
	"loss": 0.558,
	"step": 690
	},
	{
	"epoch": 3.3136094674556213,
	"grad_norm": 5.769958972930908,
	"learning_rate": 4.736129905277402e-05,
	"loss": 0.5257,
	"step": 700
	},
	{
	"epoch": 3.36094674556213,
	"grad_norm": 11.664800643920898,
	"learning_rate": 4.803788903924222e-05,
	"loss": 0.6242,
	"step": 710
	},
	{
	"epoch": 3.408284023668639,
	"grad_norm": 10.007041931152344,
	"learning_rate": 4.871447902571042e-05,
	"loss": 0.5789,
	"step": 720
	},
	{
	"epoch": 3.455621301775148,
	"grad_norm": 18.98644256591797,
	"learning_rate": 4.9391069012178623e-05,
	"loss": 0.4632,
	"step": 730
	},
	{
	"epoch": 3.502958579881657,
	"grad_norm": 9.949424743652344,
	"learning_rate": 4.999247667770087e-05,
	"loss": 0.5657,
	"step": 740
	},
	{
	"epoch": 3.5502958579881656,
	"grad_norm": 7.471621513366699,
	"learning_rate": 4.99172434547096e-05,
	"loss": 0.4076,
	"step": 750
	},
	{
	"epoch": 3.5976331360946747,
	"grad_norm": 9.102510452270508,
	"learning_rate": 4.9842010231718327e-05,
	"loss": 0.532,
	"step": 760
	},
	{
	"epoch": 3.6449704142011834,
	"grad_norm": 9.587445259094238,
	"learning_rate": 4.976677700872706e-05,
	"loss": 0.5685,
	"step": 770
	},
	{
	"epoch": 3.6923076923076925,
	"grad_norm": 10.277064323425293,
	"learning_rate": 4.969154378573578e-05,
	"loss": 0.5004,
	"step": 780
	},
	{
	"epoch": 3.739644970414201,
	"grad_norm": 15.665764808654785,
	"learning_rate": 4.9616310562744514e-05,
	"loss": 0.5571,
	"step": 790
	},
	{
	"epoch": 3.78698224852071,
	"grad_norm": 9.643716812133789,
	"learning_rate": 4.954107733975324e-05,
	"loss": 0.5235,
	"step": 800
	},
	{
	"epoch": 3.834319526627219,
	"grad_norm": 12.600419044494629,
	"learning_rate": 4.9465844116761964e-05,
	"loss": 0.5579,
	"step": 810
	},
	{
	"epoch": 3.8816568047337277,
	"grad_norm": 9.6210298538208,
	"learning_rate": 4.939061089377069e-05,
	"loss": 0.4711,
	"step": 820
	},
	{
	"epoch": 3.9289940828402368,
	"grad_norm": 10.485040664672852,
	"learning_rate": 4.9315377670779414e-05,
	"loss": 0.4848,
	"step": 830
	},
	{
	"epoch": 3.9763313609467454,
	"grad_norm": 7.453371524810791,
	"learning_rate": 4.9240144447788145e-05,
	"loss": 0.474,
	"step": 840
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.8726027397260274,
	"eval_loss": 0.35826006531715393,
	"eval_runtime": 6.1388,
	"eval_samples_per_second": 237.833,
	"eval_steps_per_second": 29.811,
	"step": 845
	},
	{
	"epoch": 4.023668639053255,
	"grad_norm": 8.34096908569336,
	"learning_rate": 4.916491122479687e-05,
	"loss": 0.5093,
	"step": 850
	},
	{
	"epoch": 4.071005917159764,
	"grad_norm": 7.713958263397217,
	"learning_rate": 4.90896780018056e-05,
	"loss": 0.4608,
	"step": 860
	},
	{
	"epoch": 4.118343195266272,
	"grad_norm": 9.734159469604492,
	"learning_rate": 4.9014444778814326e-05,
	"loss": 0.4247,
	"step": 870
	},
	{
	"epoch": 4.165680473372781,
	"grad_norm": 7.637202739715576,
	"learning_rate": 4.893921155582306e-05,
	"loss": 0.554,
	"step": 880
	},
	{
	"epoch": 4.21301775147929,
	"grad_norm": 12.172405242919922,
	"learning_rate": 4.886397833283178e-05,
	"loss": 0.4859,
	"step": 890
	},
	{
	"epoch": 4.260355029585799,
	"grad_norm": 9.40637493133545,
	"learning_rate": 4.878874510984051e-05,
	"loss": 0.5068,
	"step": 900
	},
	{
	"epoch": 4.3076923076923075,
	"grad_norm": 5.2307209968566895,
	"learning_rate": 4.871351188684923e-05,
	"loss": 0.4318,
	"step": 910
	},
	{
	"epoch": 4.355029585798817,
	"grad_norm": 13.809428215026855,
	"learning_rate": 4.8638278663857964e-05,
	"loss": 0.5231,
	"step": 920
	},
	{
	"epoch": 4.402366863905326,
	"grad_norm": 9.841399192810059,
	"learning_rate": 4.856304544086669e-05,
	"loss": 0.4441,
	"step": 930
	},
	{
	"epoch": 4.449704142011834,
	"grad_norm": 7.034471035003662,
	"learning_rate": 4.8487812217875414e-05,
	"loss": 0.5421,
	"step": 940
	},
	{
	"epoch": 4.497041420118343,
	"grad_norm": 6.35905122756958,
	"learning_rate": 4.8412578994884145e-05,
	"loss": 0.5084,
	"step": 950
	},
	{
	"epoch": 4.544378698224852,
	"grad_norm": 8.407711029052734,
	"learning_rate": 4.833734577189287e-05,
	"loss": 0.4067,
	"step": 960
	},
	{
	"epoch": 4.591715976331361,
	"grad_norm": 7.5561113357543945,
	"learning_rate": 4.8262112548901595e-05,
	"loss": 0.4881,
	"step": 970
	},
	{
	"epoch": 4.6390532544378695,
	"grad_norm": 7.843471050262451,
	"learning_rate": 4.818687932591032e-05,
	"loss": 0.4175,
	"step": 980
	},
	{
	"epoch": 4.686390532544379,
	"grad_norm": 11.301685333251953,
	"learning_rate": 4.811164610291905e-05,
	"loss": 0.4423,
	"step": 990
	},
	{
	"epoch": 4.733727810650888,
	"grad_norm": 7.472105503082275,
	"learning_rate": 4.8036412879927776e-05,
	"loss": 0.4525,
	"step": 1000
	},
	{
	"epoch": 4.781065088757396,
	"grad_norm": 9.092314720153809,
	"learning_rate": 4.796117965693651e-05,
	"loss": 0.5699,
	"step": 1010
	},
	{
	"epoch": 4.828402366863905,
	"grad_norm": 12.238302230834961,
	"learning_rate": 4.788594643394523e-05,
	"loss": 0.4524,
	"step": 1020
	},
	{
	"epoch": 4.875739644970414,
	"grad_norm": 5.100959777832031,
	"learning_rate": 4.7810713210953964e-05,
	"loss": 0.3866,
	"step": 1030
	},
	{
	"epoch": 4.923076923076923,
	"grad_norm": 9.616569519042969,
	"learning_rate": 4.773547998796269e-05,
	"loss": 0.3577,
	"step": 1040
	},
	{
	"epoch": 4.970414201183432,
	"grad_norm": 9.995213508605957,
	"learning_rate": 4.7660246764971413e-05,
	"loss": 0.5819,
	"step": 1050
	},
	{
	"epoch": 4.998816568047337,
	"eval_accuracy": 0.8671232876712329,
	"eval_loss": 0.34042322635650635,
	"eval_runtime": 6.4475,
	"eval_samples_per_second": 226.444,
	"eval_steps_per_second": 28.383,
	"step": 1056
	},
	{
	"epoch": 5.017751479289941,
	"grad_norm": 6.531469345092773,
	"learning_rate": 4.758501354198014e-05,
	"loss": 0.4182,
	"step": 1060
	},
	{
	"epoch": 5.06508875739645,
	"grad_norm": 11.092623710632324,
	"learning_rate": 4.750978031898887e-05,
	"loss": 0.4458,
	"step": 1070
	},
	{
	"epoch": 5.112426035502959,
	"grad_norm": 12.276275634765625,
	"learning_rate": 4.7434547095997595e-05,
	"loss": 0.5101,
	"step": 1080
	},
	{
	"epoch": 5.159763313609467,
	"grad_norm": 10.82636833190918,
	"learning_rate": 4.735931387300632e-05,
	"loss": 0.4708,
	"step": 1090
	},
	{
	"epoch": 5.207100591715976,
	"grad_norm": 9.973958015441895,
	"learning_rate": 4.728408065001505e-05,
	"loss": 0.5191,
	"step": 1100
	},
	{
	"epoch": 5.254437869822485,
	"grad_norm": 9.460865020751953,
	"learning_rate": 4.7208847427023776e-05,
	"loss": 0.4285,
	"step": 1110
	},
	{
	"epoch": 5.3017751479289945,
	"grad_norm": 15.347735404968262,
	"learning_rate": 4.713361420403251e-05,
	"loss": 0.4579,
	"step": 1120
	},
	{
	"epoch": 5.349112426035503,
	"grad_norm": 14.214599609375,
	"learning_rate": 4.7058380981041225e-05,
	"loss": 0.4787,
	"step": 1130
	},
	{
	"epoch": 5.396449704142012,
	"grad_norm": 9.042417526245117,
	"learning_rate": 4.698314775804996e-05,
	"loss": 0.4146,
	"step": 1140
	},
	{
	"epoch": 5.443786982248521,
	"grad_norm": 8.627814292907715,
	"learning_rate": 4.690791453505868e-05,
	"loss": 0.394,
	"step": 1150
	},
	{
	"epoch": 5.491124260355029,
	"grad_norm": 8.060114860534668,
	"learning_rate": 4.683268131206741e-05,
	"loss": 0.412,
	"step": 1160
	},
	{
	"epoch": 5.538461538461538,
	"grad_norm": 8.569971084594727,
	"learning_rate": 4.675744808907614e-05,
	"loss": 0.443,
	"step": 1170
	},
	{
	"epoch": 5.585798816568047,
	"grad_norm": 31.7719669342041,
	"learning_rate": 4.668221486608487e-05,
	"loss": 0.4424,
	"step": 1180
	},
	{
	"epoch": 5.633136094674557,
	"grad_norm": 10.994864463806152,
	"learning_rate": 4.6606981643093595e-05,
	"loss": 0.4072,
	"step": 1190
	},
	{
	"epoch": 5.680473372781065,
	"grad_norm": 12.489917755126953,
	"learning_rate": 4.653174842010232e-05,
	"loss": 0.4193,
	"step": 1200
	},
	{
	"epoch": 5.727810650887574,
	"grad_norm": 6.0672760009765625,
	"learning_rate": 4.6456515197111044e-05,
	"loss": 0.463,
	"step": 1210
	},
	{
	"epoch": 5.775147928994083,
	"grad_norm": 9.66230297088623,
	"learning_rate": 4.6381281974119776e-05,
	"loss": 0.3863,
	"step": 1220
	},
	{
	"epoch": 5.822485207100591,
	"grad_norm": 12.802431106567383,
	"learning_rate": 4.63060487511285e-05,
	"loss": 0.4471,
	"step": 1230
	},
	{
	"epoch": 5.8698224852071,
	"grad_norm": 10.842957496643066,
	"learning_rate": 4.6230815528137225e-05,
	"loss": 0.5186,
	"step": 1240
	},
	{
	"epoch": 5.9171597633136095,
	"grad_norm": 8.612702369689941,
	"learning_rate": 4.615558230514596e-05,
	"loss": 0.4908,
	"step": 1250
	},
	{
	"epoch": 5.964497041420119,
	"grad_norm": 8.768792152404785,
	"learning_rate": 4.608034908215468e-05,
	"loss": 0.4557,
	"step": 1260
	},
	{
	"epoch": 5.997633136094675,
	"eval_accuracy": 0.8993150684931507,
	"eval_loss": 0.2699526846408844,
	"eval_runtime": 6.396,
	"eval_samples_per_second": 228.266,
	"eval_steps_per_second": 28.611,
	"step": 1267
	},
	{
	"epoch": 6.011834319526627,
	"grad_norm": 6.778576374053955,
	"learning_rate": 4.600511585916341e-05,
	"loss": 0.4647,
	"step": 1270
	},
	{
	"epoch": 6.059171597633136,
	"grad_norm": 5.115172863006592,
	"learning_rate": 4.592988263617213e-05,
	"loss": 0.4053,
	"step": 1280
	},
	{
	"epoch": 6.106508875739645,
	"grad_norm": 7.163010120391846,
	"learning_rate": 4.585464941318086e-05,
	"loss": 0.4136,
	"step": 1290
	},
	{
	"epoch": 6.153846153846154,
	"grad_norm": 5.242615699768066,
	"learning_rate": 4.577941619018959e-05,
	"loss": 0.4233,
	"step": 1300
	},
	{
	"epoch": 6.201183431952662,
	"grad_norm": 7.148778915405273,
	"learning_rate": 4.570418296719832e-05,
	"loss": 0.3791,
	"step": 1310
	},
	{
	"epoch": 6.2485207100591715,
	"grad_norm": 6.911210060119629,
	"learning_rate": 4.5628949744207044e-05,
	"loss": 0.3933,
	"step": 1320
	},
	{
	"epoch": 6.295857988165681,
	"grad_norm": 7.753135681152344,
	"learning_rate": 4.5553716521215776e-05,
	"loss": 0.428,
	"step": 1330
	},
	{
	"epoch": 6.34319526627219,
	"grad_norm": 5.933778762817383,
	"learning_rate": 4.54784832982245e-05,
	"loss": 0.4668,
	"step": 1340
	},
	{
	"epoch": 6.390532544378698,
	"grad_norm": 7.8352556228637695,
	"learning_rate": 4.5403250075233225e-05,
	"loss": 0.3272,
	"step": 1350
	},
	{
	"epoch": 6.437869822485207,
	"grad_norm": 11.419840812683105,
	"learning_rate": 4.532801685224195e-05,
	"loss": 0.3954,
	"step": 1360
	},
	{
	"epoch": 6.485207100591716,
	"grad_norm": 9.681208610534668,
	"learning_rate": 4.5252783629250675e-05,
	"loss": 0.5153,
	"step": 1370
	},
	{
	"epoch": 6.5325443786982245,
	"grad_norm": 6.971587657928467,
	"learning_rate": 4.5177550406259406e-05,
	"loss": 0.4247,
	"step": 1380
	},
	{
	"epoch": 6.579881656804734,
	"grad_norm": 6.286644458770752,
	"learning_rate": 4.510231718326813e-05,
	"loss": 0.4618,
	"step": 1390
	},
	{
	"epoch": 6.627218934911243,
	"grad_norm": 11.171966552734375,
	"learning_rate": 4.502708396027686e-05,
	"loss": 0.4352,
	"step": 1400
	},
	{
	"epoch": 6.674556213017752,
	"grad_norm": 10.539188385009766,
	"learning_rate": 4.495185073728559e-05,
	"loss": 0.3841,
	"step": 1410
	},
	{
	"epoch": 6.72189349112426,
	"grad_norm": 5.127812385559082,
	"learning_rate": 4.487661751429432e-05,
	"loss": 0.3388,
	"step": 1420
	},
	{
	"epoch": 6.769230769230769,
	"grad_norm": 10.178089141845703,
	"learning_rate": 4.480138429130304e-05,
	"loss": 0.4024,
	"step": 1430
	},
	{
	"epoch": 6.816568047337278,
	"grad_norm": 5.93577766418457,
	"learning_rate": 4.472615106831177e-05,
	"loss": 0.4173,
	"step": 1440
	},
	{
	"epoch": 6.8639053254437865,
	"grad_norm": 5.2099609375,
	"learning_rate": 4.4650917845320493e-05,
	"loss": 0.3462,
	"step": 1450
	},
	{
	"epoch": 6.911242603550296,
	"grad_norm": 7.551539897918701,
	"learning_rate": 4.4575684622329225e-05,
	"loss": 0.4034,
	"step": 1460
	},
	{
	"epoch": 6.958579881656805,
	"grad_norm": 10.478506088256836,
	"learning_rate": 4.450045139933795e-05,
	"loss": 0.4021,
	"step": 1470
	},
	{
	"epoch": 6.9964497041420115,
	"eval_accuracy": 0.8917808219178082,
	"eval_loss": 0.3158508837223053,
	"eval_runtime": 6.1877,
	"eval_samples_per_second": 235.95,
	"eval_steps_per_second": 29.575,
	"step": 1478
	},
	{
	"epoch": 7.005917159763314,
	"grad_norm": 10.892561912536621,
	"learning_rate": 4.4425218176346675e-05,
	"loss": 0.3283,
	"step": 1480
	},
	{
	"epoch": 7.053254437869822,
	"grad_norm": 8.013442993164062,
	"learning_rate": 4.4349984953355406e-05,
	"loss": 0.4517,
	"step": 1490
	},
	{
	"epoch": 7.100591715976331,
	"grad_norm": 6.160177230834961,
	"learning_rate": 4.427475173036413e-05,
	"loss": 0.4099,
	"step": 1500
	},
	{
	"epoch": 7.14792899408284,
	"grad_norm": 8.48135757446289,
	"learning_rate": 4.4199518507372856e-05,
	"loss": 0.4019,
	"step": 1510
	},
	{
	"epoch": 7.195266272189349,
	"grad_norm": 10.302865982055664,
	"learning_rate": 4.412428528438158e-05,
	"loss": 0.3329,
	"step": 1520
	},
	{
	"epoch": 7.242603550295858,
	"grad_norm": 10.503307342529297,
	"learning_rate": 4.404905206139031e-05,
	"loss": 0.394,
	"step": 1530
	},
	{
	"epoch": 7.289940828402367,
	"grad_norm": 7.577216148376465,
	"learning_rate": 4.397381883839904e-05,
	"loss": 0.4075,
	"step": 1540
	},
	{
	"epoch": 7.337278106508876,
	"grad_norm": 12.196857452392578,
	"learning_rate": 4.389858561540777e-05,
	"loss": 0.3919,
	"step": 1550
	},
	{
	"epoch": 7.384615384615385,
	"grad_norm": 6.480340003967285,
	"learning_rate": 4.382335239241649e-05,
	"loss": 0.3562,
	"step": 1560
	},
	{
	"epoch": 7.431952662721893,
	"grad_norm": 4.814269542694092,
	"learning_rate": 4.3748119169425225e-05,
	"loss": 0.3232,
	"step": 1570
	},
	{
	"epoch": 7.479289940828402,
	"grad_norm": 8.813551902770996,
	"learning_rate": 4.367288594643394e-05,
	"loss": 0.3947,
	"step": 1580
	},
	{
	"epoch": 7.5266272189349115,
	"grad_norm": 10.225379943847656,
	"learning_rate": 4.3597652723442675e-05,
	"loss": 0.4059,
	"step": 1590
	},
	{
	"epoch": 7.57396449704142,
	"grad_norm": 9.415613174438477,
	"learning_rate": 4.35224195004514e-05,
	"loss": 0.3371,
	"step": 1600
	},
	{
	"epoch": 7.621301775147929,
	"grad_norm": 6.129647731781006,
	"learning_rate": 4.344718627746013e-05,
	"loss": 0.3652,
	"step": 1610
	},
	{
	"epoch": 7.668639053254438,
	"grad_norm": 9.19030475616455,
	"learning_rate": 4.3371953054468856e-05,
	"loss": 0.3562,
	"step": 1620
	},
	{
	"epoch": 7.715976331360947,
	"grad_norm": 12.973560333251953,
	"learning_rate": 4.329671983147758e-05,
	"loss": 0.3804,
	"step": 1630
	},
	{
	"epoch": 7.763313609467455,
	"grad_norm": 7.263617515563965,
	"learning_rate": 4.322148660848631e-05,
	"loss": 0.3808,
	"step": 1640
	},
	{
	"epoch": 7.810650887573964,
	"grad_norm": 6.532052516937256,
	"learning_rate": 4.314625338549504e-05,
	"loss": 0.468,
	"step": 1650
	},
	{
	"epoch": 7.8579881656804735,
	"grad_norm": 8.766283988952637,
	"learning_rate": 4.307102016250376e-05,
	"loss": 0.4145,
	"step": 1660
	},
	{
	"epoch": 7.905325443786982,
	"grad_norm": 5.956889629364014,
	"learning_rate": 4.2995786939512487e-05,
	"loss": 0.4047,
	"step": 1670
	},
	{
	"epoch": 7.952662721893491,
	"grad_norm": 6.531178951263428,
	"learning_rate": 4.292055371652122e-05,
	"loss": 0.3396,
	"step": 1680
	},
	{
	"epoch": 8.0,
	"grad_norm": 8.662644386291504,
	"learning_rate": 4.284532049352994e-05,
	"loss": 0.3209,
	"step": 1690
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.8972602739726028,
	"eval_loss": 0.3082219660282135,
	"eval_runtime": 6.2922,
	"eval_samples_per_second": 232.034,
	"eval_steps_per_second": 29.084,
	"step": 1690
	},
	{
	"epoch": 8.04733727810651,
	"grad_norm": 12.477700233459473,
	"learning_rate": 4.2770087270538674e-05,
	"loss": 0.3262,
	"step": 1700
	},
	{
	"epoch": 8.094674556213018,
	"grad_norm": 6.367954730987549,
	"learning_rate": 4.26948540475474e-05,
	"loss": 0.3579,
	"step": 1710
	},
	{
	"epoch": 8.142011834319527,
	"grad_norm": 7.339391708374023,
	"learning_rate": 4.261962082455613e-05,
	"loss": 0.3993,
	"step": 1720
	},
	{
	"epoch": 8.189349112426035,
	"grad_norm": 7.060799598693848,
	"learning_rate": 4.2544387601564856e-05,
	"loss": 0.3702,
	"step": 1730
	},
	{
	"epoch": 8.236686390532544,
	"grad_norm": 7.423877239227295,
	"learning_rate": 4.246915437857358e-05,
	"loss": 0.4548,
	"step": 1740
	},
	{
	"epoch": 8.284023668639053,
	"grad_norm": 7.742123603820801,
	"learning_rate": 4.2393921155582305e-05,
	"loss": 0.3914,
	"step": 1750
	},
	{
	"epoch": 8.331360946745562,
	"grad_norm": 3.941162109375,
	"learning_rate": 4.231868793259104e-05,
	"loss": 0.3953,
	"step": 1760
	},
	{
	"epoch": 8.378698224852071,
	"grad_norm": 7.15812349319458,
	"learning_rate": 4.224345470959976e-05,
	"loss": 0.3871,
	"step": 1770
	},
	{
	"epoch": 8.42603550295858,
	"grad_norm": 11.954395294189453,
	"learning_rate": 4.2168221486608486e-05,
	"loss": 0.3919,
	"step": 1780
	},
	{
	"epoch": 8.47337278106509,
	"grad_norm": 7.049565315246582,
	"learning_rate": 4.209298826361722e-05,
	"loss": 0.3539,
	"step": 1790
	},
	{
	"epoch": 8.520710059171599,
	"grad_norm": 8.527347564697266,
	"learning_rate": 4.201775504062594e-05,
	"loss": 0.3883,
	"step": 1800
	},
	{
	"epoch": 8.568047337278106,
	"grad_norm": 9.178783416748047,
	"learning_rate": 4.194252181763467e-05,
	"loss": 0.4226,
	"step": 1810
	},
	{
	"epoch": 8.615384615384615,
	"grad_norm": 10.065650939941406,
	"learning_rate": 4.186728859464339e-05,
	"loss": 0.3773,
	"step": 1820
	},
	{
	"epoch": 8.662721893491124,
	"grad_norm": 5.588104724884033,
	"learning_rate": 4.1792055371652124e-05,
	"loss": 0.3921,
	"step": 1830
	},
	{
	"epoch": 8.710059171597633,
	"grad_norm": 4.505855083465576,
	"learning_rate": 4.171682214866085e-05,
	"loss": 0.3483,
	"step": 1840
	},
	{
	"epoch": 8.757396449704142,
	"grad_norm": 10.081398963928223,
	"learning_rate": 4.164158892566958e-05,
	"loss": 0.3312,
	"step": 1850
	},
	{
	"epoch": 8.804733727810651,
	"grad_norm": 7.667760848999023,
	"learning_rate": 4.1566355702678305e-05,
	"loss": 0.2838,
	"step": 1860
	},
	{
	"epoch": 8.85207100591716,
	"grad_norm": 11.876665115356445,
	"learning_rate": 4.149112247968704e-05,
	"loss": 0.4328,
	"step": 1870
	},
	{
	"epoch": 8.899408284023668,
	"grad_norm": 7.79551887512207,
	"learning_rate": 4.141588925669576e-05,
	"loss": 0.4616,
	"step": 1880
	},
	{
	"epoch": 8.946745562130177,
	"grad_norm": 6.006857395172119,
	"learning_rate": 4.1340656033704486e-05,
	"loss": 0.3389,
	"step": 1890
	},
	{
	"epoch": 8.994082840236686,
	"grad_norm": 9.194988250732422,
	"learning_rate": 4.126542281071321e-05,
	"loss": 0.3479,
	"step": 1900
	},
	{
	"epoch": 8.998816568047337,
	"eval_accuracy": 0.9027397260273973,
	"eval_loss": 0.28129294514656067,
	"eval_runtime": 6.217,
	"eval_samples_per_second": 234.84,
	"eval_steps_per_second": 29.435,
	"step": 1901
	},
	{
	"epoch": 9.041420118343195,
	"grad_norm": 7.2297163009643555,
	"learning_rate": 4.1190189587721936e-05,
	"loss": 0.3223,
	"step": 1910
	},
	{
	"epoch": 9.088757396449704,
	"grad_norm": 9.67817211151123,
	"learning_rate": 4.111495636473067e-05,
	"loss": 0.3681,
	"step": 1920
	},
	{
	"epoch": 9.136094674556213,
	"grad_norm": 6.748856544494629,
	"learning_rate": 4.103972314173939e-05,
	"loss": 0.351,
	"step": 1930
	},
	{
	"epoch": 9.183431952662723,
	"grad_norm": 3.9139935970306396,
	"learning_rate": 4.0964489918748124e-05,
	"loss": 0.39,
	"step": 1940
	},
	{
	"epoch": 9.23076923076923,
	"grad_norm": 5.222900390625,
	"learning_rate": 4.088925669575685e-05,
	"loss": 0.3132,
	"step": 1950
	},
	{
	"epoch": 9.278106508875739,
	"grad_norm": 11.637986183166504,
	"learning_rate": 4.081402347276558e-05,
	"loss": 0.3373,
	"step": 1960
	},
	{
	"epoch": 9.325443786982248,
	"grad_norm": 10.712813377380371,
	"learning_rate": 4.07387902497743e-05,
	"loss": 0.3424,
	"step": 1970
	},
	{
	"epoch": 9.372781065088757,
	"grad_norm": 7.3563947677612305,
	"learning_rate": 4.066355702678303e-05,
	"loss": 0.3709,
	"step": 1980
	},
	{
	"epoch": 9.420118343195266,
	"grad_norm": 8.500737190246582,
	"learning_rate": 4.0588323803791755e-05,
	"loss": 0.3398,
	"step": 1990
	},
	{
	"epoch": 9.467455621301776,
	"grad_norm": 10.802979469299316,
	"learning_rate": 4.0513090580800486e-05,
	"loss": 0.308,
	"step": 2000
	},
	{
	"epoch": 9.514792899408285,
	"grad_norm": 7.362417697906494,
	"learning_rate": 4.043785735780921e-05,
	"loss": 0.3193,
	"step": 2010
	},
	{
	"epoch": 9.562130177514792,
	"grad_norm": 5.569155693054199,
	"learning_rate": 4.0362624134817936e-05,
	"loss": 0.3028,
	"step": 2020
	},
	{
	"epoch": 9.609467455621301,
	"grad_norm": 8.995447158813477,
	"learning_rate": 4.028739091182667e-05,
	"loss": 0.4206,
	"step": 2030
	},
	{
	"epoch": 9.65680473372781,
	"grad_norm": 5.864706993103027,
	"learning_rate": 4.021215768883539e-05,
	"loss": 0.2987,
	"step": 2040
	},
	{
	"epoch": 9.70414201183432,
	"grad_norm": 8.34255313873291,
	"learning_rate": 4.013692446584412e-05,
	"loss": 0.4161,
	"step": 2050
	},
	{
	"epoch": 9.751479289940828,
	"grad_norm": 8.392521858215332,
	"learning_rate": 4.006169124285284e-05,
	"loss": 0.4073,
	"step": 2060
	},
	{
	"epoch": 9.798816568047338,
	"grad_norm": 6.388725280761719,
	"learning_rate": 3.998645801986157e-05,
	"loss": 0.3513,
	"step": 2070
	},
	{
	"epoch": 9.846153846153847,
	"grad_norm": 5.696859836578369,
	"learning_rate": 3.99112247968703e-05,
	"loss": 0.3219,
	"step": 2080
	},
	{
	"epoch": 9.893491124260356,
	"grad_norm": 8.325499534606934,
	"learning_rate": 3.983599157387903e-05,
	"loss": 0.394,
	"step": 2090
	},
	{
	"epoch": 9.940828402366863,
	"grad_norm": 11.819910049438477,
	"learning_rate": 3.9760758350887755e-05,
	"loss": 0.4085,
	"step": 2100
	},
	{
	"epoch": 9.988165680473372,
	"grad_norm": 6.419707298278809,
	"learning_rate": 3.9685525127896486e-05,
	"loss": 0.3429,
	"step": 2110
	},
	{
	"epoch": 9.997633136094674,
	"eval_accuracy": 0.8924657534246575,
	"eval_loss": 0.3318786323070526,
	"eval_runtime": 6.1733,
	"eval_samples_per_second": 236.501,
	"eval_steps_per_second": 29.644,
	"step": 2112
	},
	{
	"epoch": 10.035502958579881,
	"grad_norm": 4.879507064819336,
	"learning_rate": 3.9610291904905204e-05,
	"loss": 0.2607,
	"step": 2120
	},
	{
	"epoch": 10.08284023668639,
	"grad_norm": 10.089688301086426,
	"learning_rate": 3.9535058681913936e-05,
	"loss": 0.3887,
	"step": 2130
	},
	{
	"epoch": 10.1301775147929,
	"grad_norm": 6.6358819007873535,
	"learning_rate": 3.945982545892266e-05,
	"loss": 0.3926,
	"step": 2140
	},
	{
	"epoch": 10.177514792899409,
	"grad_norm": 4.718569755554199,
	"learning_rate": 3.938459223593139e-05,
	"loss": 0.2977,
	"step": 2150
	},
	{
	"epoch": 10.224852071005918,
	"grad_norm": 4.798628807067871,
	"learning_rate": 3.930935901294012e-05,
	"loss": 0.3167,
	"step": 2160
	},
	{
	"epoch": 10.272189349112425,
	"grad_norm": 12.527241706848145,
	"learning_rate": 3.923412578994884e-05,
	"loss": 0.3498,
	"step": 2170
	},
	{
	"epoch": 10.319526627218934,
	"grad_norm": 19.981807708740234,
	"learning_rate": 3.915889256695757e-05,
	"loss": 0.3791,
	"step": 2180
	},
	{
	"epoch": 10.366863905325443,
	"grad_norm": 5.31036901473999,
	"learning_rate": 3.90836593439663e-05,
	"loss": 0.3635,
	"step": 2190
	},
	{
	"epoch": 10.414201183431953,
	"grad_norm": 7.329598426818848,
	"learning_rate": 3.900842612097502e-05,
	"loss": 0.2612,
	"step": 2200
	},
	{
	"epoch": 10.461538461538462,
	"grad_norm": 10.241847038269043,
	"learning_rate": 3.893319289798375e-05,
	"loss": 0.3508,
	"step": 2210
	},
	{
	"epoch": 10.50887573964497,
	"grad_norm": 9.222640991210938,
	"learning_rate": 3.885795967499248e-05,
	"loss": 0.4113,
	"step": 2220
	},
	{
	"epoch": 10.55621301775148,
	"grad_norm": 5.4523115158081055,
	"learning_rate": 3.8782726452001204e-05,
	"loss": 0.312,
	"step": 2230
	},
	{
	"epoch": 10.603550295857989,
	"grad_norm": 25.376020431518555,
	"learning_rate": 3.8707493229009936e-05,
	"loss": 0.382,
	"step": 2240
	},
	{
	"epoch": 10.650887573964496,
	"grad_norm": 7.494572162628174,
	"learning_rate": 3.863226000601866e-05,
	"loss": 0.3078,
	"step": 2250
	},
	{
	"epoch": 10.698224852071005,
	"grad_norm": 9.24726390838623,
	"learning_rate": 3.855702678302739e-05,
	"loss": 0.3368,
	"step": 2260
	},
	{
	"epoch": 10.745562130177515,
	"grad_norm": 7.74558162689209,
	"learning_rate": 3.848179356003611e-05,
	"loss": 0.2912,
	"step": 2270
	},
	{
	"epoch": 10.792899408284024,
	"grad_norm": 7.557544708251953,
	"learning_rate": 3.840656033704484e-05,
	"loss": 0.3268,
	"step": 2280
	},
	{
	"epoch": 10.840236686390533,
	"grad_norm": 9.215229988098145,
	"learning_rate": 3.8331327114053566e-05,
	"loss": 0.4372,
	"step": 2290
	},
	{
	"epoch": 10.887573964497042,
	"grad_norm": 9.268451690673828,
	"learning_rate": 3.82560938910623e-05,
	"loss": 0.3564,
	"step": 2300
	},
	{
	"epoch": 10.934911242603551,
	"grad_norm": 4.07456111907959,
	"learning_rate": 3.818086066807102e-05,
	"loss": 0.3003,
	"step": 2310
	},
	{
	"epoch": 10.982248520710058,
	"grad_norm": 8.930679321289062,
	"learning_rate": 3.810562744507975e-05,
	"loss": 0.3341,
	"step": 2320
	},
	{
	"epoch": 10.996449704142012,
	"eval_accuracy": 0.8972602739726028,
	"eval_loss": 0.2900165021419525,
	"eval_runtime": 6.2027,
	"eval_samples_per_second": 235.379,
	"eval_steps_per_second": 29.503,
	"step": 2323
	},
	{
	"epoch": 11.029585798816568,
	"grad_norm": 7.869425296783447,
	"learning_rate": 3.803039422208848e-05,
	"loss": 0.3134,
	"step": 2330
	},
	{
	"epoch": 11.076923076923077,
	"grad_norm": 8.941612243652344,
	"learning_rate": 3.7955160999097204e-05,
	"loss": 0.3465,
	"step": 2340
	},
	{
	"epoch": 11.124260355029586,
	"grad_norm": 8.30190372467041,
	"learning_rate": 3.787992777610593e-05,
	"loss": 0.2489,
	"step": 2350
	},
	{
	"epoch": 11.171597633136095,
	"grad_norm": 8.490402221679688,
	"learning_rate": 3.7804694553114653e-05,
	"loss": 0.326,
	"step": 2360
	},
	{
	"epoch": 11.218934911242604,
	"grad_norm": 19.662193298339844,
	"learning_rate": 3.7729461330123385e-05,
	"loss": 0.3444,
	"step": 2370
	},
	{
	"epoch": 11.266272189349113,
	"grad_norm": 9.445649147033691,
	"learning_rate": 3.765422810713211e-05,
	"loss": 0.3185,
	"step": 2380
	},
	{
	"epoch": 11.31360946745562,
	"grad_norm": 4.701760292053223,
	"learning_rate": 3.757899488414084e-05,
	"loss": 0.3665,
	"step": 2390
	},
	{
	"epoch": 11.36094674556213,
	"grad_norm": 5.095606327056885,
	"learning_rate": 3.7503761661149566e-05,
	"loss": 0.2736,
	"step": 2400
	},
	{
	"epoch": 11.408284023668639,
	"grad_norm": 10.870713233947754,
	"learning_rate": 3.74285284381583e-05,
	"loss": 0.2966,
	"step": 2410
	},
	{
	"epoch": 11.455621301775148,
	"grad_norm": 6.850511074066162,
	"learning_rate": 3.7353295215167016e-05,
	"loss": 0.2624,
	"step": 2420
	},
	{
	"epoch": 11.502958579881657,
	"grad_norm": 10.627695083618164,
	"learning_rate": 3.727806199217575e-05,
	"loss": 0.3767,
	"step": 2430
	},
	{
	"epoch": 11.550295857988166,
	"grad_norm": 8.704399108886719,
	"learning_rate": 3.720282876918447e-05,
	"loss": 0.3127,
	"step": 2440
	},
	{
	"epoch": 11.597633136094675,
	"grad_norm": 7.4766716957092285,
	"learning_rate": 3.71275955461932e-05,
	"loss": 0.3015,
	"step": 2450
	},
	{
	"epoch": 11.644970414201183,
	"grad_norm": 8.510762214660645,
	"learning_rate": 3.705236232320193e-05,
	"loss": 0.3406,
	"step": 2460
	},
	{
	"epoch": 11.692307692307692,
	"grad_norm": 9.42719841003418,
	"learning_rate": 3.697712910021065e-05,
	"loss": 0.3085,
	"step": 2470
	},
	{
	"epoch": 11.7396449704142,
	"grad_norm": 6.386455535888672,
	"learning_rate": 3.6901895877219385e-05,
	"loss": 0.3426,
	"step": 2480
	},
	{
	"epoch": 11.78698224852071,
	"grad_norm": 7.612992286682129,
	"learning_rate": 3.682666265422811e-05,
	"loss": 0.3567,
	"step": 2490
	},
	{
	"epoch": 11.834319526627219,
	"grad_norm": 8.440069198608398,
	"learning_rate": 3.6751429431236835e-05,
	"loss": 0.3288,
	"step": 2500
	},
	{
	"epoch": 11.881656804733728,
	"grad_norm": 7.730615615844727,
	"learning_rate": 3.667619620824556e-05,
	"loss": 0.3253,
	"step": 2510
	},
	{
	"epoch": 11.928994082840237,
	"grad_norm": 7.29069185256958,
	"learning_rate": 3.660096298525429e-05,
	"loss": 0.306,
	"step": 2520
	},
	{
	"epoch": 11.976331360946746,
	"grad_norm": 8.983368873596191,
	"learning_rate": 3.6525729762263016e-05,
	"loss": 0.2937,
	"step": 2530
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.8993150684931507,
	"eval_loss": 0.3500230312347412,
	"eval_runtime": 6.3178,
	"eval_samples_per_second": 231.093,
	"eval_steps_per_second": 28.966,
	"step": 2535
	},
	{
	"epoch": 12.023668639053254,
	"grad_norm": 6.368637561798096,
	"learning_rate": 3.645049653927175e-05,
	"loss": 0.3998,
	"step": 2540
	},
	{
	"epoch": 12.071005917159763,
	"grad_norm": 14.744524955749512,
	"learning_rate": 3.637526331628047e-05,
	"loss": 0.324,
	"step": 2550
	},
	{
	"epoch": 12.118343195266272,
	"grad_norm": 4.304303169250488,
	"learning_rate": 3.63000300932892e-05,
	"loss": 0.3538,
	"step": 2560
	},
	{
	"epoch": 12.165680473372781,
	"grad_norm": 11.705492973327637,
	"learning_rate": 3.622479687029793e-05,
	"loss": 0.3422,
	"step": 2570
	},
	{
	"epoch": 12.21301775147929,
	"grad_norm": 9.357977867126465,
	"learning_rate": 3.614956364730665e-05,
	"loss": 0.2732,
	"step": 2580
	},
	{
	"epoch": 12.2603550295858,
	"grad_norm": 12.46599006652832,
	"learning_rate": 3.607433042431538e-05,
	"loss": 0.4473,
	"step": 2590
	},
	{
	"epoch": 12.307692307692308,
	"grad_norm": 20.074487686157227,
	"learning_rate": 3.59990972013241e-05,
	"loss": 0.2837,
	"step": 2600
	},
	{
	"epoch": 12.355029585798816,
	"grad_norm": 4.281162738800049,
	"learning_rate": 3.5923863978332834e-05,
	"loss": 0.3035,
	"step": 2610
	},
	{
	"epoch": 12.402366863905325,
	"grad_norm": 10.390352249145508,
	"learning_rate": 3.584863075534156e-05,
	"loss": 0.2636,
	"step": 2620
	},
	{
	"epoch": 12.449704142011834,
	"grad_norm": 3.76784348487854,
	"learning_rate": 3.577339753235029e-05,
	"loss": 0.3388,
	"step": 2630
	},
	{
	"epoch": 12.497041420118343,
	"grad_norm": 9.673295021057129,
	"learning_rate": 3.5698164309359016e-05,
	"loss": 0.2947,
	"step": 2640
	},
	{
	"epoch": 12.544378698224852,
	"grad_norm": 6.6694722175598145,
	"learning_rate": 3.562293108636774e-05,
	"loss": 0.3453,
	"step": 2650
	},
	{
	"epoch": 12.591715976331361,
	"grad_norm": 7.178610324859619,
	"learning_rate": 3.5547697863376465e-05,
	"loss": 0.3383,
	"step": 2660
	},
	{
	"epoch": 12.63905325443787,
	"grad_norm": 10.715120315551758,
	"learning_rate": 3.54724646403852e-05,
	"loss": 0.3222,
	"step": 2670
	},
	{
	"epoch": 12.68639053254438,
	"grad_norm": 6.3047285079956055,
	"learning_rate": 3.539723141739392e-05,
	"loss": 0.3521,
	"step": 2680
	},
	{
	"epoch": 12.733727810650887,
	"grad_norm": 6.073225021362305,
	"learning_rate": 3.532199819440265e-05,
	"loss": 0.2904,
	"step": 2690
	},
	{
	"epoch": 12.781065088757396,
	"grad_norm": 9.05847454071045,
	"learning_rate": 3.524676497141138e-05,
	"loss": 0.3764,
	"step": 2700
	},
	{
	"epoch": 12.828402366863905,
	"grad_norm": 6.264795303344727,
	"learning_rate": 3.51715317484201e-05,
	"loss": 0.3159,
	"step": 2710
	},
	{
	"epoch": 12.875739644970414,
	"grad_norm": 7.125365257263184,
	"learning_rate": 3.5096298525428834e-05,
	"loss": 0.2996,
	"step": 2720
	},
	{
	"epoch": 12.923076923076923,
	"grad_norm": 9.880492210388184,
	"learning_rate": 3.502106530243755e-05,
	"loss": 0.3283,
	"step": 2730
	},
	{
	"epoch": 12.970414201183432,
	"grad_norm": 14.802063941955566,
	"learning_rate": 3.4945832079446284e-05,
	"loss": 0.3478,
	"step": 2740
	},
	{
	"epoch": 12.998816568047337,
	"eval_accuracy": 0.9013698630136986,
	"eval_loss": 0.3168272078037262,
	"eval_runtime": 6.174,
	"eval_samples_per_second": 236.475,
	"eval_steps_per_second": 29.64,
	"step": 2746
	},
	{
	"epoch": 13.017751479289942,
	"grad_norm": 9.61425495147705,
	"learning_rate": 3.487059885645501e-05,
	"loss": 0.2884,
	"step": 2750
	},
	{
	"epoch": 13.065088757396449,
	"grad_norm": 7.737671375274658,
	"learning_rate": 3.479536563346374e-05,
	"loss": 0.3732,
	"step": 2760
	},
	{
	"epoch": 13.112426035502958,
	"grad_norm": 7.558273792266846,
	"learning_rate": 3.4720132410472465e-05,
	"loss": 0.2859,
	"step": 2770
	},
	{
	"epoch": 13.159763313609467,
	"grad_norm": 7.560544013977051,
	"learning_rate": 3.46448991874812e-05,
	"loss": 0.2986,
	"step": 2780
	},
	{
	"epoch": 13.207100591715976,
	"grad_norm": 7.7973480224609375,
	"learning_rate": 3.456966596448992e-05,
	"loss": 0.291,
	"step": 2790
	},
	{
	"epoch": 13.254437869822485,
	"grad_norm": 9.302266120910645,
	"learning_rate": 3.449443274149865e-05,
	"loss": 0.3669,
	"step": 2800
	},
	{
	"epoch": 13.301775147928995,
	"grad_norm": 5.183737277984619,
	"learning_rate": 3.441919951850737e-05,
	"loss": 0.293,
	"step": 2810
	},
	{
	"epoch": 13.349112426035504,
	"grad_norm": 6.064436912536621,
	"learning_rate": 3.43439662955161e-05,
	"loss": 0.2944,
	"step": 2820
	},
	{
	"epoch": 13.396449704142011,
	"grad_norm": 9.409137725830078,
	"learning_rate": 3.426873307252483e-05,
	"loss": 0.3103,
	"step": 2830
	},
	{
	"epoch": 13.44378698224852,
	"grad_norm": 20.371089935302734,
	"learning_rate": 3.419349984953356e-05,
	"loss": 0.2879,
	"step": 2840
	},
	{
	"epoch": 13.49112426035503,
	"grad_norm": 9.97218132019043,
	"learning_rate": 3.4118266626542284e-05,
	"loss": 0.2959,
	"step": 2850
	},
	{
	"epoch": 13.538461538461538,
	"grad_norm": 7.915639400482178,
	"learning_rate": 3.404303340355101e-05,
	"loss": 0.2929,
	"step": 2860
	},
	{
	"epoch": 13.585798816568047,
	"grad_norm": 6.3162641525268555,
	"learning_rate": 3.396780018055974e-05,
	"loss": 0.2773,
	"step": 2870
	},
	{
	"epoch": 13.633136094674557,
	"grad_norm": 7.813812732696533,
	"learning_rate": 3.389256695756846e-05,
	"loss": 0.2795,
	"step": 2880
	},
	{
	"epoch": 13.680473372781066,
	"grad_norm": 13.80722427368164,
	"learning_rate": 3.381733373457719e-05,
	"loss": 0.3648,
	"step": 2890
	},
	{
	"epoch": 13.727810650887575,
	"grad_norm": 9.83273696899414,
	"learning_rate": 3.3742100511585915e-05,
	"loss": 0.2952,
	"step": 2900
	},
	{
	"epoch": 13.775147928994082,
	"grad_norm": 10.903112411499023,
	"learning_rate": 3.3666867288594646e-05,
	"loss": 0.269,
	"step": 2910
	},
	{
	"epoch": 13.822485207100591,
	"grad_norm": 4.992847919464111,
	"learning_rate": 3.359163406560337e-05,
	"loss": 0.3689,
	"step": 2920
	},
	{
	"epoch": 13.8698224852071,
	"grad_norm": 7.029762268066406,
	"learning_rate": 3.35164008426121e-05,
	"loss": 0.3296,
	"step": 2930
	},
	{
	"epoch": 13.91715976331361,
	"grad_norm": 15.533370018005371,
	"learning_rate": 3.344116761962083e-05,
	"loss": 0.2764,
	"step": 2940
	},
	{
	"epoch": 13.964497041420119,
	"grad_norm": 14.553123474121094,
	"learning_rate": 3.336593439662956e-05,
	"loss": 0.3148,
	"step": 2950
	},
	{
	"epoch": 13.997633136094674,
	"eval_accuracy": 0.9054794520547945,
	"eval_loss": 0.3071611225605011,
	"eval_runtime": 6.0563,
	"eval_samples_per_second": 241.071,
	"eval_steps_per_second": 30.216,
	"step": 2957
	},
	{
	"epoch": 14.011834319526628,
	"grad_norm": 6.9089035987854,
	"learning_rate": 3.329070117363828e-05,
	"loss": 0.3318,
	"step": 2960
	},
	{
	"epoch": 14.059171597633137,
	"grad_norm": 7.897435665130615,
	"learning_rate": 3.321546795064701e-05,
	"loss": 0.2537,
	"step": 2970
	},
	{
	"epoch": 14.106508875739644,
	"grad_norm": 12.082826614379883,
	"learning_rate": 3.314023472765573e-05,
	"loss": 0.2685,
	"step": 2980
	},
	{
	"epoch": 14.153846153846153,
	"grad_norm": 8.465901374816895,
	"learning_rate": 3.306500150466446e-05,
	"loss": 0.3849,
	"step": 2990
	},
	{
	"epoch": 14.201183431952662,
	"grad_norm": 9.606731414794922,
	"learning_rate": 3.298976828167319e-05,
	"loss": 0.3219,
	"step": 3000
	},
	{
	"epoch": 14.248520710059172,
	"grad_norm": 5.763510704040527,
	"learning_rate": 3.2914535058681914e-05,
	"loss": 0.2798,
	"step": 3010
	},
	{
	"epoch": 14.29585798816568,
	"grad_norm": 7.898010730743408,
	"learning_rate": 3.2839301835690646e-05,
	"loss": 0.353,
	"step": 3020
	},
	{
	"epoch": 14.34319526627219,
	"grad_norm": 4.139184951782227,
	"learning_rate": 3.276406861269937e-05,
	"loss": 0.3145,
	"step": 3030
	},
	{
	"epoch": 14.390532544378699,
	"grad_norm": 10.472068786621094,
	"learning_rate": 3.2688835389708096e-05,
	"loss": 0.2997,
	"step": 3040
	},
	{
	"epoch": 14.437869822485208,
	"grad_norm": 6.952048301696777,
	"learning_rate": 3.261360216671682e-05,
	"loss": 0.2931,
	"step": 3050
	},
	{
	"epoch": 14.485207100591715,
	"grad_norm": 11.008207321166992,
	"learning_rate": 3.253836894372555e-05,
	"loss": 0.2891,
	"step": 3060
	},
	{
	"epoch": 14.532544378698224,
	"grad_norm": 4.314377784729004,
	"learning_rate": 3.246313572073428e-05,
	"loss": 0.2922,
	"step": 3070
	},
	{
	"epoch": 14.579881656804734,
	"grad_norm": 6.738071441650391,
	"learning_rate": 3.238790249774301e-05,
	"loss": 0.2226,
	"step": 3080
	},
	{
	"epoch": 14.627218934911243,
	"grad_norm": 5.609333038330078,
	"learning_rate": 3.231266927475173e-05,
	"loss": 0.2366,
	"step": 3090
	},
	{
	"epoch": 14.674556213017752,
	"grad_norm": 5.399454116821289,
	"learning_rate": 3.223743605176046e-05,
	"loss": 0.32,
	"step": 3100
	},
	{
	"epoch": 14.721893491124261,
	"grad_norm": 13.962152481079102,
	"learning_rate": 3.216220282876918e-05,
	"loss": 0.3652,
	"step": 3110
	},
	{
	"epoch": 14.76923076923077,
	"grad_norm": 8.14931869506836,
	"learning_rate": 3.2086969605777914e-05,
	"loss": 0.2513,
	"step": 3120
	},
	{
	"epoch": 14.816568047337277,
	"grad_norm": 6.72014045715332,
	"learning_rate": 3.201173638278664e-05,
	"loss": 0.3068,
	"step": 3130
	},
	{
	"epoch": 14.863905325443787,
	"grad_norm": 9.025717735290527,
	"learning_rate": 3.1936503159795364e-05,
	"loss": 0.2845,
	"step": 3140
	},
	{
	"epoch": 14.911242603550296,
	"grad_norm": 3.6108787059783936,
	"learning_rate": 3.1861269936804096e-05,
	"loss": 0.2868,
	"step": 3150
	},
	{
	"epoch": 14.958579881656805,
	"grad_norm": 12.648404121398926,
	"learning_rate": 3.178603671381282e-05,
	"loss": 0.2896,
	"step": 3160
	},
	{
	"epoch": 14.996449704142012,
	"eval_accuracy": 0.9061643835616439,
	"eval_loss": 0.30652791261672974,
	"eval_runtime": 6.136,
	"eval_samples_per_second": 237.938,
	"eval_steps_per_second": 29.824,
	"step": 3168
	},
	{
	"epoch": 15.005917159763314,
	"grad_norm": 5.476109027862549,
	"learning_rate": 3.171080349082155e-05,
	"loss": 0.3452,
	"step": 3170
	},
	{
	"epoch": 15.053254437869823,
	"grad_norm": 8.330878257751465,
	"learning_rate": 3.163557026783028e-05,
	"loss": 0.2456,
	"step": 3180
	},
	{
	"epoch": 15.100591715976332,
	"grad_norm": 8.56313705444336,
	"learning_rate": 3.1560337044839e-05,
	"loss": 0.2296,
	"step": 3190
	},
	{
	"epoch": 15.14792899408284,
	"grad_norm": 10.402885437011719,
	"learning_rate": 3.1485103821847726e-05,
	"loss": 0.2862,
	"step": 3200
	},
	{
	"epoch": 15.195266272189349,
	"grad_norm": 7.497808933258057,
	"learning_rate": 3.140987059885646e-05,
	"loss": 0.3389,
	"step": 3210
	},
	{
	"epoch": 15.242603550295858,
	"grad_norm": 7.207127094268799,
	"learning_rate": 3.133463737586518e-05,
	"loss": 0.2575,
	"step": 3220
	},
	{
	"epoch": 15.289940828402367,
	"grad_norm": 4.729502201080322,
	"learning_rate": 3.1259404152873914e-05,
	"loss": 0.2308,
	"step": 3230
	},
	{
	"epoch": 15.337278106508876,
	"grad_norm": 10.251791954040527,
	"learning_rate": 3.118417092988264e-05,
	"loss": 0.2549,
	"step": 3240
	},
	{
	"epoch": 15.384615384615385,
	"grad_norm": 4.962519645690918,
	"learning_rate": 3.1108937706891364e-05,
	"loss": 0.2448,
	"step": 3250
	},
	{
	"epoch": 15.431952662721894,
	"grad_norm": 8.956313133239746,
	"learning_rate": 3.103370448390009e-05,
	"loss": 0.2278,
	"step": 3260
	},
	{
	"epoch": 15.479289940828401,
	"grad_norm": 5.445577144622803,
	"learning_rate": 3.0958471260908813e-05,
	"loss": 0.3195,
	"step": 3270
	},
	{
	"epoch": 15.52662721893491,
	"grad_norm": 8.691884994506836,
	"learning_rate": 3.0883238037917545e-05,
	"loss": 0.2816,
	"step": 3280
	},
	{
	"epoch": 15.57396449704142,
	"grad_norm": 4.890760898590088,
	"learning_rate": 3.080800481492627e-05,
	"loss": 0.2479,
	"step": 3290
	},
	{
	"epoch": 15.621301775147929,
	"grad_norm": 10.502642631530762,
	"learning_rate": 3.0732771591935e-05,
	"loss": 0.2368,
	"step": 3300
	},
	{
	"epoch": 15.668639053254438,
	"grad_norm": 11.197770118713379,
	"learning_rate": 3.0657538368943726e-05,
	"loss": 0.396,
	"step": 3310
	},
	{
	"epoch": 15.715976331360947,
	"grad_norm": 7.301953315734863,
	"learning_rate": 3.058230514595246e-05,
	"loss": 0.2605,
	"step": 3320
	},
	{
	"epoch": 15.763313609467456,
	"grad_norm": 9.391778945922852,
	"learning_rate": 3.0507071922961183e-05,
	"loss": 0.2318,
	"step": 3330
	},
	{
	"epoch": 15.810650887573965,
	"grad_norm": 11.96308708190918,
	"learning_rate": 3.0431838699969904e-05,
	"loss": 0.3574,
	"step": 3340
	},
	{
	"epoch": 15.857988165680473,
	"grad_norm": 6.631661415100098,
	"learning_rate": 3.0356605476978632e-05,
	"loss": 0.2773,
	"step": 3350
	},
	{
	"epoch": 15.905325443786982,
	"grad_norm": 7.179072380065918,
	"learning_rate": 3.028137225398736e-05,
	"loss": 0.3573,
	"step": 3360
	},
	{
	"epoch": 15.95266272189349,
	"grad_norm": 9.855470657348633,
	"learning_rate": 3.020613903099609e-05,
	"loss": 0.3077,
	"step": 3370
	},
	{
	"epoch": 16.0,
	"grad_norm": 4.808469772338867,
	"learning_rate": 3.0130905808004817e-05,
	"loss": 0.3149,
	"step": 3380
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9082191780821918,
	"eval_loss": 0.2928474545478821,
	"eval_runtime": 6.1031,
	"eval_samples_per_second": 239.221,
	"eval_steps_per_second": 29.985,
	"step": 3380
	},
	{
	"epoch": 16.047337278106507,
	"grad_norm": 5.927903175354004,
	"learning_rate": 3.0055672585013545e-05,
	"loss": 0.2194,
	"step": 3390
	},
	{
	"epoch": 16.09467455621302,
	"grad_norm": 9.440893173217773,
	"learning_rate": 2.9980439362022273e-05,
	"loss": 0.2311,
	"step": 3400
	},
	{
	"epoch": 16.142011834319526,
	"grad_norm": 10.132343292236328,
	"learning_rate": 2.9905206139031e-05,
	"loss": 0.2608,
	"step": 3410
	},
	{
	"epoch": 16.189349112426036,
	"grad_norm": 9.294024467468262,
	"learning_rate": 2.9829972916039723e-05,
	"loss": 0.3056,
	"step": 3420
	},
	{
	"epoch": 16.236686390532544,
	"grad_norm": 6.507917404174805,
	"learning_rate": 2.975473969304845e-05,
	"loss": 0.1905,
	"step": 3430
	},
	{
	"epoch": 16.284023668639055,
	"grad_norm": 8.411003112792969,
	"learning_rate": 2.967950647005718e-05,
	"loss": 0.3232,
	"step": 3440
	},
	{
	"epoch": 16.331360946745562,
	"grad_norm": 5.495641708374023,
	"learning_rate": 2.9604273247065907e-05,
	"loss": 0.2718,
	"step": 3450
	},
	{
	"epoch": 16.37869822485207,
	"grad_norm": 9.734967231750488,
	"learning_rate": 2.9529040024074632e-05,
	"loss": 0.2966,
	"step": 3460
	},
	{
	"epoch": 16.42603550295858,
	"grad_norm": 3.004697799682617,
	"learning_rate": 2.945380680108336e-05,
	"loss": 0.2234,
	"step": 3470
	},
	{
	"epoch": 16.473372781065088,
	"grad_norm": 13.730050086975098,
	"learning_rate": 2.937857357809209e-05,
	"loss": 0.3209,
	"step": 3480
	},
	{
	"epoch": 16.5207100591716,
	"grad_norm": 5.133395195007324,
	"learning_rate": 2.930334035510081e-05,
	"loss": 0.2561,
	"step": 3490
	},
	{
	"epoch": 16.568047337278106,
	"grad_norm": 5.885538101196289,
	"learning_rate": 2.9228107132109538e-05,
	"loss": 0.3166,
	"step": 3500
	},
	{
	"epoch": 16.615384615384617,
	"grad_norm": 8.295323371887207,
	"learning_rate": 2.9152873909118266e-05,
	"loss": 0.2634,
	"step": 3510
	},
	{
	"epoch": 16.662721893491124,
	"grad_norm": 8.664441108703613,
	"learning_rate": 2.9077640686126994e-05,
	"loss": 0.2488,
	"step": 3520
	},
	{
	"epoch": 16.71005917159763,
	"grad_norm": 13.536978721618652,
	"learning_rate": 2.9002407463135723e-05,
	"loss": 0.2616,
	"step": 3530
	},
	{
	"epoch": 16.757396449704142,
	"grad_norm": 8.778542518615723,
	"learning_rate": 2.892717424014445e-05,
	"loss": 0.3111,
	"step": 3540
	},
	{
	"epoch": 16.80473372781065,
	"grad_norm": 4.70704460144043,
	"learning_rate": 2.885194101715318e-05,
	"loss": 0.2381,
	"step": 3550
	},
	{
	"epoch": 16.85207100591716,
	"grad_norm": 13.269988059997559,
	"learning_rate": 2.8776707794161907e-05,
	"loss": 0.2824,
	"step": 3560
	},
	{
	"epoch": 16.899408284023668,
	"grad_norm": 3.4718408584594727,
	"learning_rate": 2.870147457117063e-05,
	"loss": 0.2517,
	"step": 3570
	},
	{
	"epoch": 16.94674556213018,
	"grad_norm": 4.911701679229736,
	"learning_rate": 2.8626241348179357e-05,
	"loss": 0.2842,
	"step": 3580
	},
	{
	"epoch": 16.994082840236686,
	"grad_norm": 14.3350248336792,
	"learning_rate": 2.8551008125188085e-05,
	"loss": 0.2734,
	"step": 3590
	},
	{
	"epoch": 16.99881656804734,
	"eval_accuracy": 0.9095890410958904,
	"eval_loss": 0.2769572138786316,
	"eval_runtime": 6.3128,
	"eval_samples_per_second": 231.275,
	"eval_steps_per_second": 28.989,
	"step": 3591
	},
	{
	"epoch": 17.041420118343197,
	"grad_norm": 9.578266143798828,
	"learning_rate": 2.847577490219681e-05,
	"loss": 0.2216,
	"step": 3600
	},
	{
	"epoch": 17.088757396449704,
	"grad_norm": 10.65328311920166,
	"learning_rate": 2.8400541679205538e-05,
	"loss": 0.2713,
	"step": 3610
	},
	{
	"epoch": 17.13609467455621,
	"grad_norm": 13.547807693481445,
	"learning_rate": 2.8325308456214266e-05,
	"loss": 0.2578,
	"step": 3620
	},
	{
	"epoch": 17.183431952662723,
	"grad_norm": 5.553393363952637,
	"learning_rate": 2.8250075233222994e-05,
	"loss": 0.3016,
	"step": 3630
	},
	{
	"epoch": 17.23076923076923,
	"grad_norm": 9.82513427734375,
	"learning_rate": 2.8174842010231723e-05,
	"loss": 0.281,
	"step": 3640
	},
	{
	"epoch": 17.27810650887574,
	"grad_norm": 3.8038620948791504,
	"learning_rate": 2.8099608787240444e-05,
	"loss": 0.2876,
	"step": 3650
	},
	{
	"epoch": 17.325443786982248,
	"grad_norm": 4.463418006896973,
	"learning_rate": 2.8024375564249172e-05,
	"loss": 0.2434,
	"step": 3660
	},
	{
	"epoch": 17.37278106508876,
	"grad_norm": 4.446181297302246,
	"learning_rate": 2.79491423412579e-05,
	"loss": 0.2434,
	"step": 3670
	},
	{
	"epoch": 17.420118343195266,
	"grad_norm": 12.428364753723145,
	"learning_rate": 2.787390911826663e-05,
	"loss": 0.2706,
	"step": 3680
	},
	{
	"epoch": 17.467455621301774,
	"grad_norm": 9.818281173706055,
	"learning_rate": 2.7798675895275357e-05,
	"loss": 0.232,
	"step": 3690
	},
	{
	"epoch": 17.514792899408285,
	"grad_norm": 19.56150245666504,
	"learning_rate": 2.7723442672284085e-05,
	"loss": 0.2981,
	"step": 3700
	},
	{
	"epoch": 17.562130177514792,
	"grad_norm": 8.730667114257812,
	"learning_rate": 2.764820944929281e-05,
	"loss": 0.2427,
	"step": 3710
	},
	{
	"epoch": 17.609467455621303,
	"grad_norm": 11.973594665527344,
	"learning_rate": 2.7572976226301534e-05,
	"loss": 0.2359,
	"step": 3720
	},
	{
	"epoch": 17.65680473372781,
	"grad_norm": 2.578996419906616,
	"learning_rate": 2.7497743003310263e-05,
	"loss": 0.2783,
	"step": 3730
	},
	{
	"epoch": 17.70414201183432,
	"grad_norm": 9.876580238342285,
	"learning_rate": 2.7422509780318987e-05,
	"loss": 0.2268,
	"step": 3740
	},
	{
	"epoch": 17.75147928994083,
	"grad_norm": 5.562457084655762,
	"learning_rate": 2.7347276557327716e-05,
	"loss": 0.2296,
	"step": 3750
	},
	{
	"epoch": 17.798816568047336,
	"grad_norm": 6.533483505249023,
	"learning_rate": 2.7272043334336444e-05,
	"loss": 0.2818,
	"step": 3760
	},
	{
	"epoch": 17.846153846153847,
	"grad_norm": 7.880773544311523,
	"learning_rate": 2.7196810111345172e-05,
	"loss": 0.2865,
	"step": 3770
	},
	{
	"epoch": 17.893491124260354,
	"grad_norm": 13.510115623474121,
	"learning_rate": 2.71215768883539e-05,
	"loss": 0.3133,
	"step": 3780
	},
	{
	"epoch": 17.940828402366865,
	"grad_norm": 6.314772605895996,
	"learning_rate": 2.704634366536263e-05,
	"loss": 0.2102,
	"step": 3790
	},
	{
	"epoch": 17.988165680473372,
	"grad_norm": 4.932859420776367,
	"learning_rate": 2.697111044237135e-05,
	"loss": 0.2344,
	"step": 3800
	},
	{
	"epoch": 17.997633136094674,
	"eval_accuracy": 0.8952054794520548,
	"eval_loss": 0.3737930953502655,
	"eval_runtime": 6.2965,
	"eval_samples_per_second": 231.875,
	"eval_steps_per_second": 29.064,
	"step": 3802
	},
	{
	"epoch": 18.035502958579883,
	"grad_norm": 8.163798332214355,
	"learning_rate": 2.6895877219380078e-05,
	"loss": 0.349,
	"step": 3810
	},
	{
	"epoch": 18.08284023668639,
	"grad_norm": 8.841765403747559,
	"learning_rate": 2.6820643996388806e-05,
	"loss": 0.2864,
	"step": 3820
	},
	{
	"epoch": 18.130177514792898,
	"grad_norm": 5.997651100158691,
	"learning_rate": 2.6745410773397534e-05,
	"loss": 0.2941,
	"step": 3830
	},
	{
	"epoch": 18.17751479289941,
	"grad_norm": 5.4760332107543945,
	"learning_rate": 2.6670177550406263e-05,
	"loss": 0.2216,
	"step": 3840
	},
	{
	"epoch": 18.224852071005916,
	"grad_norm": 6.478240489959717,
	"learning_rate": 2.6594944327414987e-05,
	"loss": 0.2874,
	"step": 3850
	},
	{
	"epoch": 18.272189349112427,
	"grad_norm": 12.63205623626709,
	"learning_rate": 2.6519711104423716e-05,
	"loss": 0.2338,
	"step": 3860
	},
	{
	"epoch": 18.319526627218934,
	"grad_norm": 9.010831832885742,
	"learning_rate": 2.6444477881432444e-05,
	"loss": 0.3293,
	"step": 3870
	},
	{
	"epoch": 18.366863905325445,
	"grad_norm": 6.102337837219238,
	"learning_rate": 2.6369244658441165e-05,
	"loss": 0.3229,
	"step": 3880
	},
	{
	"epoch": 18.414201183431953,
	"grad_norm": 9.948938369750977,
	"learning_rate": 2.6294011435449893e-05,
	"loss": 0.2604,
	"step": 3890
	},
	{
	"epoch": 18.46153846153846,
	"grad_norm": 8.575167655944824,
	"learning_rate": 2.621877821245862e-05,
	"loss": 0.2205,
	"step": 3900
	},
	{
	"epoch": 18.50887573964497,
	"grad_norm": 7.808337688446045,
	"learning_rate": 2.614354498946735e-05,
	"loss": 0.1802,
	"step": 3910
	},
	{
	"epoch": 18.556213017751478,
	"grad_norm": 11.38652515411377,
	"learning_rate": 2.6068311766476078e-05,
	"loss": 0.2161,
	"step": 3920
	},
	{
	"epoch": 18.60355029585799,
	"grad_norm": 7.173455715179443,
	"learning_rate": 2.5993078543484806e-05,
	"loss": 0.2973,
	"step": 3930
	},
	{
	"epoch": 18.650887573964496,
	"grad_norm": 10.973929405212402,
	"learning_rate": 2.5917845320493534e-05,
	"loss": 0.2557,
	"step": 3940
	},
	{
	"epoch": 18.698224852071007,
	"grad_norm": 6.697062015533447,
	"learning_rate": 2.5842612097502256e-05,
	"loss": 0.2371,
	"step": 3950
	},
	{
	"epoch": 18.745562130177515,
	"grad_norm": 11.82797908782959,
	"learning_rate": 2.5767378874510984e-05,
	"loss": 0.2639,
	"step": 3960
	},
	{
	"epoch": 18.792899408284022,
	"grad_norm": 4.322720050811768,
	"learning_rate": 2.5692145651519712e-05,
	"loss": 0.2212,
	"step": 3970
	},
	{
	"epoch": 18.840236686390533,
	"grad_norm": 5.201810836791992,
	"learning_rate": 2.561691242852844e-05,
	"loss": 0.2003,
	"step": 3980
	},
	{
	"epoch": 18.88757396449704,
	"grad_norm": 7.236006736755371,
	"learning_rate": 2.554167920553717e-05,
	"loss": 0.3897,
	"step": 3990
	},
	{
	"epoch": 18.93491124260355,
	"grad_norm": 7.327210426330566,
	"learning_rate": 2.5466445982545893e-05,
	"loss": 0.1939,
	"step": 4000
	},
	{
	"epoch": 18.98224852071006,
	"grad_norm": 16.192811965942383,
	"learning_rate": 2.539121275955462e-05,
	"loss": 0.2872,
	"step": 4010
	},
	{
	"epoch": 18.996449704142012,
	"eval_accuracy": 0.9061643835616439,
	"eval_loss": 0.3222917914390564,
	"eval_runtime": 6.2252,
	"eval_samples_per_second": 234.532,
	"eval_steps_per_second": 29.397,
	"step": 4013
	},
	{
	"epoch": 19.02958579881657,
	"grad_norm": 14.001523971557617,
	"learning_rate": 2.531597953656335e-05,
	"loss": 0.2899,
	"step": 4020
	},
	{
	"epoch": 19.076923076923077,
	"grad_norm": 12.866436004638672,
	"learning_rate": 2.524074631357207e-05,
	"loss": 0.2249,
	"step": 4030
	},
	{
	"epoch": 19.124260355029588,
	"grad_norm": 12.653215408325195,
	"learning_rate": 2.51655130905808e-05,
	"loss": 0.2008,
	"step": 4040
	},
	{
	"epoch": 19.171597633136095,
	"grad_norm": 6.0526604652404785,
	"learning_rate": 2.5090279867589527e-05,
	"loss": 0.2264,
	"step": 4050
	},
	{
	"epoch": 19.218934911242602,
	"grad_norm": 7.189617156982422,
	"learning_rate": 2.5015046644598256e-05,
	"loss": 0.2785,
	"step": 4060
	},
	{
	"epoch": 19.266272189349113,
	"grad_norm": 6.08707332611084,
	"learning_rate": 2.4939813421606984e-05,
	"loss": 0.2666,
	"step": 4070
	},
	{
	"epoch": 19.31360946745562,
	"grad_norm": 8.810041427612305,
	"learning_rate": 2.4864580198615712e-05,
	"loss": 0.2561,
	"step": 4080
	},
	{
	"epoch": 19.36094674556213,
	"grad_norm": 5.877760410308838,
	"learning_rate": 2.4789346975624437e-05,
	"loss": 0.1829,
	"step": 4090
	},
	{
	"epoch": 19.40828402366864,
	"grad_norm": 4.540722846984863,
	"learning_rate": 2.4714113752633165e-05,
	"loss": 0.2082,
	"step": 4100
	},
	{
	"epoch": 19.45562130177515,
	"grad_norm": 10.91895866394043,
	"learning_rate": 2.4638880529641893e-05,
	"loss": 0.2264,
	"step": 4110
	},
	{
	"epoch": 19.502958579881657,
	"grad_norm": 18.722084045410156,
	"learning_rate": 2.4563647306650618e-05,
	"loss": 0.2649,
	"step": 4120
	},
	{
	"epoch": 19.550295857988164,
	"grad_norm": 5.907430648803711,
	"learning_rate": 2.4488414083659346e-05,
	"loss": 0.1769,
	"step": 4130
	},
	{
	"epoch": 19.597633136094675,
	"grad_norm": 12.51977825164795,
	"learning_rate": 2.441318086066807e-05,
	"loss": 0.2895,
	"step": 4140
	},
	{
	"epoch": 19.644970414201183,
	"grad_norm": 9.822182655334473,
	"learning_rate": 2.43379476376768e-05,
	"loss": 0.2349,
	"step": 4150
	},
	{
	"epoch": 19.692307692307693,
	"grad_norm": 6.536006450653076,
	"learning_rate": 2.4262714414685524e-05,
	"loss": 0.2949,
	"step": 4160
	},
	{
	"epoch": 19.7396449704142,
	"grad_norm": 6.116447448730469,
	"learning_rate": 2.4187481191694252e-05,
	"loss": 0.2438,
	"step": 4170
	},
	{
	"epoch": 19.78698224852071,
	"grad_norm": 8.528430938720703,
	"learning_rate": 2.411224796870298e-05,
	"loss": 0.274,
	"step": 4180
	},
	{
	"epoch": 19.83431952662722,
	"grad_norm": 9.427675247192383,
	"learning_rate": 2.403701474571171e-05,
	"loss": 0.2848,
	"step": 4190
	},
	{
	"epoch": 19.881656804733726,
	"grad_norm": 5.054657459259033,
	"learning_rate": 2.3961781522720433e-05,
	"loss": 0.24,
	"step": 4200
	},
	{
	"epoch": 19.928994082840237,
	"grad_norm": 12.677891731262207,
	"learning_rate": 2.388654829972916e-05,
	"loss": 0.2593,
	"step": 4210
	},
	{
	"epoch": 19.976331360946745,
	"grad_norm": 5.84495735168457,
	"learning_rate": 2.381131507673789e-05,
	"loss": 0.2486,
	"step": 4220
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9068493150684932,
	"eval_loss": 0.32860177755355835,
	"eval_runtime": 6.1011,
	"eval_samples_per_second": 239.302,
	"eval_steps_per_second": 29.995,
	"step": 4225
	},
	{
	"epoch": 20.023668639053255,
	"grad_norm": 6.881824970245361,
	"learning_rate": 2.3736081853746618e-05,
	"loss": 0.2215,
	"step": 4230
	},
	{
	"epoch": 20.071005917159763,
	"grad_norm": 10.07770824432373,
	"learning_rate": 2.3660848630755343e-05,
	"loss": 0.244,
	"step": 4240
	},
	{
	"epoch": 20.118343195266274,
	"grad_norm": 4.6197919845581055,
	"learning_rate": 2.358561540776407e-05,
	"loss": 0.2289,
	"step": 4250
	},
	{
	"epoch": 20.16568047337278,
	"grad_norm": 8.33582592010498,
	"learning_rate": 2.35103821847728e-05,
	"loss": 0.1889,
	"step": 4260
	},
	{
	"epoch": 20.21301775147929,
	"grad_norm": 8.195116996765137,
	"learning_rate": 2.3435148961781524e-05,
	"loss": 0.2015,
	"step": 4270
	},
	{
	"epoch": 20.2603550295858,
	"grad_norm": 6.473872661590576,
	"learning_rate": 2.335991573879025e-05,
	"loss": 0.2306,
	"step": 4280
	},
	{
	"epoch": 20.307692307692307,
	"grad_norm": 4.936031341552734,
	"learning_rate": 2.3284682515798977e-05,
	"loss": 0.2311,
	"step": 4290
	},
	{
	"epoch": 20.355029585798817,
	"grad_norm": 16.449352264404297,
	"learning_rate": 2.3209449292807705e-05,
	"loss": 0.2129,
	"step": 4300
	},
	{
	"epoch": 20.402366863905325,
	"grad_norm": 7.029664516448975,
	"learning_rate": 2.3134216069816433e-05,
	"loss": 0.2211,
	"step": 4310
	},
	{
	"epoch": 20.449704142011836,
	"grad_norm": 7.797490119934082,
	"learning_rate": 2.3058982846825158e-05,
	"loss": 0.2305,
	"step": 4320
	},
	{
	"epoch": 20.497041420118343,
	"grad_norm": 13.063493728637695,
	"learning_rate": 2.2983749623833886e-05,
	"loss": 0.2916,
	"step": 4330
	},
	{
	"epoch": 20.54437869822485,
	"grad_norm": 9.06458568572998,
	"learning_rate": 2.2908516400842614e-05,
	"loss": 0.2342,
	"step": 4340
	},
	{
	"epoch": 20.59171597633136,
	"grad_norm": 7.881487846374512,
	"learning_rate": 2.283328317785134e-05,
	"loss": 0.2041,
	"step": 4350
	},
	{
	"epoch": 20.63905325443787,
	"grad_norm": 10.349453926086426,
	"learning_rate": 2.2758049954860067e-05,
	"loss": 0.2949,
	"step": 4360
	},
	{
	"epoch": 20.68639053254438,
	"grad_norm": 12.278468132019043,
	"learning_rate": 2.2682816731868795e-05,
	"loss": 0.2607,
	"step": 4370
	},
	{
	"epoch": 20.733727810650887,
	"grad_norm": 11.949197769165039,
	"learning_rate": 2.2607583508877524e-05,
	"loss": 0.2741,
	"step": 4380
	},
	{
	"epoch": 20.781065088757398,
	"grad_norm": 13.006739616394043,
	"learning_rate": 2.253235028588625e-05,
	"loss": 0.2845,
	"step": 4390
	},
	{
	"epoch": 20.828402366863905,
	"grad_norm": 6.179040908813477,
	"learning_rate": 2.2457117062894977e-05,
	"loss": 0.2518,
	"step": 4400
	},
	{
	"epoch": 20.875739644970416,
	"grad_norm": 8.708568572998047,
	"learning_rate": 2.23818838399037e-05,
	"loss": 0.254,
	"step": 4410
	},
	{
	"epoch": 20.923076923076923,
	"grad_norm": 8.595051765441895,
	"learning_rate": 2.230665061691243e-05,
	"loss": 0.2462,
	"step": 4420
	},
	{
	"epoch": 20.97041420118343,
	"grad_norm": 8.650654792785645,
	"learning_rate": 2.2231417393921154e-05,
	"loss": 0.2818,
	"step": 4430
	},
	{
	"epoch": 20.99881656804734,
	"eval_accuracy": 0.8938356164383562,
	"eval_loss": 0.3853361904621124,
	"eval_runtime": 6.105,
	"eval_samples_per_second": 239.147,
	"eval_steps_per_second": 29.975,
	"step": 4436
	},
	{
	"epoch": 21.01775147928994,
	"grad_norm": 7.857712268829346,
	"learning_rate": 2.2156184170929883e-05,
	"loss": 0.2664,
	"step": 4440
	},
	{
	"epoch": 21.06508875739645,
	"grad_norm": 7.22745943069458,
	"learning_rate": 2.208095094793861e-05,
	"loss": 0.2062,
	"step": 4450
	},
	{
	"epoch": 21.11242603550296,
	"grad_norm": 2.6673853397369385,
	"learning_rate": 2.200571772494734e-05,
	"loss": 0.2239,
	"step": 4460
	},
	{
	"epoch": 21.159763313609467,
	"grad_norm": 4.8849005699157715,
	"learning_rate": 2.1930484501956064e-05,
	"loss": 0.1985,
	"step": 4470
	},
	{
	"epoch": 21.207100591715978,
	"grad_norm": 22.471643447875977,
	"learning_rate": 2.1855251278964792e-05,
	"loss": 0.2331,
	"step": 4480
	},
	{
	"epoch": 21.254437869822485,
	"grad_norm": 12.047694206237793,
	"learning_rate": 2.178001805597352e-05,
	"loss": 0.193,
	"step": 4490
	},
	{
	"epoch": 21.301775147928993,
	"grad_norm": 8.459744453430176,
	"learning_rate": 2.170478483298225e-05,
	"loss": 0.2698,
	"step": 4500
	},
	{
	"epoch": 21.349112426035504,
	"grad_norm": 5.106344699859619,
	"learning_rate": 2.1629551609990973e-05,
	"loss": 0.2626,
	"step": 4510
	},
	{
	"epoch": 21.39644970414201,
	"grad_norm": 8.469663619995117,
	"learning_rate": 2.15543183869997e-05,
	"loss": 0.208,
	"step": 4520
	},
	{
	"epoch": 21.443786982248522,
	"grad_norm": 4.838006496429443,
	"learning_rate": 2.147908516400843e-05,
	"loss": 0.2903,
	"step": 4530
	},
	{
	"epoch": 21.49112426035503,
	"grad_norm": 5.432097911834717,
	"learning_rate": 2.1403851941017154e-05,
	"loss": 0.2337,
	"step": 4540
	},
	{
	"epoch": 21.53846153846154,
	"grad_norm": 6.889484882354736,
	"learning_rate": 2.132861871802588e-05,
	"loss": 0.2269,
	"step": 4550
	},
	{
	"epoch": 21.585798816568047,
	"grad_norm": 8.73716926574707,
	"learning_rate": 2.1253385495034607e-05,
	"loss": 0.2631,
	"step": 4560
	},
	{
	"epoch": 21.633136094674555,
	"grad_norm": 2.4893133640289307,
	"learning_rate": 2.1178152272043336e-05,
	"loss": 0.2186,
	"step": 4570
	},
	{
	"epoch": 21.680473372781066,
	"grad_norm": 7.44368839263916,
	"learning_rate": 2.110291904905206e-05,
	"loss": 0.2052,
	"step": 4580
	},
	{
	"epoch": 21.727810650887573,
	"grad_norm": 12.204940795898438,
	"learning_rate": 2.102768582606079e-05,
	"loss": 0.2862,
	"step": 4590
	},
	{
	"epoch": 21.775147928994084,
	"grad_norm": 7.419914722442627,
	"learning_rate": 2.0952452603069517e-05,
	"loss": 0.2568,
	"step": 4600
	},
	{
	"epoch": 21.82248520710059,
	"grad_norm": 7.833005905151367,
	"learning_rate": 2.0877219380078245e-05,
	"loss": 0.2727,
	"step": 4610
	},
	{
	"epoch": 21.869822485207102,
	"grad_norm": 3.8460819721221924,
	"learning_rate": 2.080198615708697e-05,
	"loss": 0.2306,
	"step": 4620
	},
	{
	"epoch": 21.91715976331361,
	"grad_norm": 12.018167495727539,
	"learning_rate": 2.0726752934095698e-05,
	"loss": 0.2729,
	"step": 4630
	},
	{
	"epoch": 21.964497041420117,
	"grad_norm": 7.023700714111328,
	"learning_rate": 2.0651519711104426e-05,
	"loss": 0.2845,
	"step": 4640
	},
	{
	"epoch": 21.997633136094674,
	"eval_accuracy": 0.8938356164383562,
	"eval_loss": 0.3902602195739746,
	"eval_runtime": 6.3485,
	"eval_samples_per_second": 229.975,
	"eval_steps_per_second": 28.826,
	"step": 4647
	},
	{
	"epoch": 22.011834319526628,
	"grad_norm": 11.811697006225586,
	"learning_rate": 2.0576286488113154e-05,
	"loss": 0.3063,
	"step": 4650
	},
	{
	"epoch": 22.059171597633135,
	"grad_norm": 4.944943428039551,
	"learning_rate": 2.050105326512188e-05,
	"loss": 0.2157,
	"step": 4660
	},
	{
	"epoch": 22.106508875739646,
	"grad_norm": 5.4949517250061035,
	"learning_rate": 2.0425820042130607e-05,
	"loss": 0.2373,
	"step": 4670
	},
	{
	"epoch": 22.153846153846153,
	"grad_norm": 6.9762163162231445,
	"learning_rate": 2.0350586819139332e-05,
	"loss": 0.2378,
	"step": 4680
	},
	{
	"epoch": 22.201183431952664,
	"grad_norm": 6.753002643585205,
	"learning_rate": 2.027535359614806e-05,
	"loss": 0.1939,
	"step": 4690
	},
	{
	"epoch": 22.24852071005917,
	"grad_norm": 4.161319732666016,
	"learning_rate": 2.0200120373156785e-05,
	"loss": 0.242,
	"step": 4700
	},
	{
	"epoch": 22.29585798816568,
	"grad_norm": 5.062042713165283,
	"learning_rate": 2.0124887150165513e-05,
	"loss": 0.2782,
	"step": 4710
	},
	{
	"epoch": 22.34319526627219,
	"grad_norm": 9.755287170410156,
	"learning_rate": 2.004965392717424e-05,
	"loss": 0.2009,
	"step": 4720
	},
	{
	"epoch": 22.390532544378697,
	"grad_norm": 6.668210506439209,
	"learning_rate": 1.997442070418297e-05,
	"loss": 0.1617,
	"step": 4730
	},
	{
	"epoch": 22.437869822485208,
	"grad_norm": 3.9158642292022705,
	"learning_rate": 1.9899187481191694e-05,
	"loss": 0.2013,
	"step": 4740
	},
	{
	"epoch": 22.485207100591715,
	"grad_norm": 7.47080659866333,
	"learning_rate": 1.9823954258200423e-05,
	"loss": 0.2057,
	"step": 4750
	},
	{
	"epoch": 22.532544378698226,
	"grad_norm": 17.479690551757812,
	"learning_rate": 1.974872103520915e-05,
	"loss": 0.2964,
	"step": 4760
	},
	{
	"epoch": 22.579881656804734,
	"grad_norm": 9.807324409484863,
	"learning_rate": 1.9673487812217876e-05,
	"loss": 0.2519,
	"step": 4770
	},
	{
	"epoch": 22.62721893491124,
	"grad_norm": 8.961894035339355,
	"learning_rate": 1.9598254589226604e-05,
	"loss": 0.2724,
	"step": 4780
	},
	{
	"epoch": 22.674556213017752,
	"grad_norm": 3.2384064197540283,
	"learning_rate": 1.9523021366235332e-05,
	"loss": 0.187,
	"step": 4790
	},
	{
	"epoch": 22.72189349112426,
	"grad_norm": 5.056863307952881,
	"learning_rate": 1.944778814324406e-05,
	"loss": 0.2512,
	"step": 4800
	},
	{
	"epoch": 22.76923076923077,
	"grad_norm": 9.88666820526123,
	"learning_rate": 1.9372554920252785e-05,
	"loss": 0.2003,
	"step": 4810
	},
	{
	"epoch": 22.816568047337277,
	"grad_norm": 15.032508850097656,
	"learning_rate": 1.929732169726151e-05,
	"loss": 0.2665,
	"step": 4820
	},
	{
	"epoch": 22.86390532544379,
	"grad_norm": 6.520040035247803,
	"learning_rate": 1.9222088474270238e-05,
	"loss": 0.2592,
	"step": 4830
	},
	{
	"epoch": 22.911242603550296,
	"grad_norm": 5.046426296234131,
	"learning_rate": 1.9146855251278966e-05,
	"loss": 0.2219,
	"step": 4840
	},
	{
	"epoch": 22.958579881656803,
	"grad_norm": 11.43876838684082,
	"learning_rate": 1.907162202828769e-05,
	"loss": 0.227,
	"step": 4850
	},
	{
	"epoch": 22.996449704142012,
	"eval_accuracy": 0.9041095890410958,
	"eval_loss": 0.3559742569923401,
	"eval_runtime": 6.1037,
	"eval_samples_per_second": 239.198,
	"eval_steps_per_second": 29.982,
	"step": 4858
	},
	{
	"epoch": 23.005917159763314,
	"grad_norm": 5.062148571014404,
	"learning_rate": 1.899638880529642e-05,
	"loss": 0.1716,
	"step": 4860
	},
	{
	"epoch": 23.05325443786982,
	"grad_norm": 13.177910804748535,
	"learning_rate": 1.8921155582305147e-05,
	"loss": 0.2274,
	"step": 4870
	},
	{
	"epoch": 23.100591715976332,
	"grad_norm": 10.63724136352539,
	"learning_rate": 1.8845922359313875e-05,
	"loss": 0.2376,
	"step": 4880
	},
	{
	"epoch": 23.14792899408284,
	"grad_norm": 11.315512657165527,
	"learning_rate": 1.87706891363226e-05,
	"loss": 0.2451,
	"step": 4890
	},
	{
	"epoch": 23.19526627218935,
	"grad_norm": 9.915947914123535,
	"learning_rate": 1.869545591333133e-05,
	"loss": 0.265,
	"step": 4900
	},
	{
	"epoch": 23.242603550295858,
	"grad_norm": 7.371302604675293,
	"learning_rate": 1.8620222690340057e-05,
	"loss": 0.203,
	"step": 4910
	},
	{
	"epoch": 23.28994082840237,
	"grad_norm": 10.347346305847168,
	"learning_rate": 1.8544989467348785e-05,
	"loss": 0.2058,
	"step": 4920
	},
	{
	"epoch": 23.337278106508876,
	"grad_norm": 7.930377006530762,
	"learning_rate": 1.846975624435751e-05,
	"loss": 0.1881,
	"step": 4930
	},
	{
	"epoch": 23.384615384615383,
	"grad_norm": 7.690789699554443,
	"learning_rate": 1.8394523021366238e-05,
	"loss": 0.2058,
	"step": 4940
	},
	{
	"epoch": 23.431952662721894,
	"grad_norm": 9.262539863586426,
	"learning_rate": 1.8319289798374963e-05,
	"loss": 0.2432,
	"step": 4950
	},
	{
	"epoch": 23.4792899408284,
	"grad_norm": 6.507819652557373,
	"learning_rate": 1.8244056575383687e-05,
	"loss": 0.1951,
	"step": 4960
	},
	{
	"epoch": 23.526627218934912,
	"grad_norm": 5.187134742736816,
	"learning_rate": 1.8168823352392416e-05,
	"loss": 0.1948,
	"step": 4970
	},
	{
	"epoch": 23.57396449704142,
	"grad_norm": 5.986237525939941,
	"learning_rate": 1.8093590129401144e-05,
	"loss": 0.1896,
	"step": 4980
	},
	{
	"epoch": 23.62130177514793,
	"grad_norm": 3.2465999126434326,
	"learning_rate": 1.8018356906409872e-05,
	"loss": 0.2521,
	"step": 4990
	},
	{
	"epoch": 23.668639053254438,
	"grad_norm": 6.972270488739014,
	"learning_rate": 1.7943123683418597e-05,
	"loss": 0.2162,
	"step": 5000
	},
	{
	"epoch": 23.715976331360945,
	"grad_norm": 10.68996524810791,
	"learning_rate": 1.7867890460427325e-05,
	"loss": 0.228,
	"step": 5010
	},
	{
	"epoch": 23.763313609467456,
	"grad_norm": 13.406333923339844,
	"learning_rate": 1.7792657237436053e-05,
	"loss": 0.2184,
	"step": 5020
	},
	{
	"epoch": 23.810650887573964,
	"grad_norm": 10.20108699798584,
	"learning_rate": 1.771742401444478e-05,
	"loss": 0.2286,
	"step": 5030
	},
	{
	"epoch": 23.857988165680474,
	"grad_norm": 4.646299839019775,
	"learning_rate": 1.7642190791453506e-05,
	"loss": 0.177,
	"step": 5040
	},
	{
	"epoch": 23.90532544378698,
	"grad_norm": 11.070876121520996,
	"learning_rate": 1.7566957568462234e-05,
	"loss": 0.232,
	"step": 5050
	},
	{
	"epoch": 23.952662721893493,
	"grad_norm": 9.572555541992188,
	"learning_rate": 1.7491724345470962e-05,
	"loss": 0.2007,
	"step": 5060
	},
	{
	"epoch": 24.0,
	"grad_norm": 5.681567668914795,
	"learning_rate": 1.7416491122479687e-05,
	"loss": 0.1909,
	"step": 5070
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.9054794520547945,
	"eval_loss": 0.3623672127723694,
	"eval_runtime": 6.2394,
	"eval_samples_per_second": 233.996,
	"eval_steps_per_second": 29.33,
	"step": 5070
	},
	{
	"epoch": 24.047337278106507,
	"grad_norm": 9.697016716003418,
	"learning_rate": 1.7341257899488415e-05,
	"loss": 0.2439,
	"step": 5080
	},
	{
	"epoch": 24.09467455621302,
	"grad_norm": 10.163914680480957,
	"learning_rate": 1.726602467649714e-05,
	"loss": 0.1802,
	"step": 5090
	},
	{
	"epoch": 24.142011834319526,
	"grad_norm": 11.584846496582031,
	"learning_rate": 1.719079145350587e-05,
	"loss": 0.2823,
	"step": 5100
	},
	{
	"epoch": 24.189349112426036,
	"grad_norm": 4.525638103485107,
	"learning_rate": 1.7115558230514597e-05,
	"loss": 0.1716,
	"step": 5110
	},
	{
	"epoch": 24.236686390532544,
	"grad_norm": 7.053022861480713,
	"learning_rate": 1.704032500752332e-05,
	"loss": 0.218,
	"step": 5120
	},
	{
	"epoch": 24.284023668639055,
	"grad_norm": 2.7923426628112793,
	"learning_rate": 1.696509178453205e-05,
	"loss": 0.185,
	"step": 5130
	},
	{
	"epoch": 24.331360946745562,
	"grad_norm": 3.2291653156280518,
	"learning_rate": 1.6889858561540778e-05,
	"loss": 0.2196,
	"step": 5140
	},
	{
	"epoch": 24.37869822485207,
	"grad_norm": 11.007999420166016,
	"learning_rate": 1.6814625338549506e-05,
	"loss": 0.2367,
	"step": 5150
	},
	{
	"epoch": 24.42603550295858,
	"grad_norm": 10.4671049118042,
	"learning_rate": 1.673939211555823e-05,
	"loss": 0.2754,
	"step": 5160
	},
	{
	"epoch": 24.473372781065088,
	"grad_norm": 11.023184776306152,
	"learning_rate": 1.666415889256696e-05,
	"loss": 0.2092,
	"step": 5170
	},
	{
	"epoch": 24.5207100591716,
	"grad_norm": 7.405954360961914,
	"learning_rate": 1.6588925669575687e-05,
	"loss": 0.2387,
	"step": 5180
	},
	{
	"epoch": 24.568047337278106,
	"grad_norm": 2.6797077655792236,
	"learning_rate": 1.6513692446584412e-05,
	"loss": 0.2842,
	"step": 5190
	},
	{
	"epoch": 24.615384615384617,
	"grad_norm": 2.8351101875305176,
	"learning_rate": 1.643845922359314e-05,
	"loss": 0.2395,
	"step": 5200
	},
	{
	"epoch": 24.662721893491124,
	"grad_norm": 5.248380661010742,
	"learning_rate": 1.636322600060187e-05,
	"loss": 0.2047,
	"step": 5210
	},
	{
	"epoch": 24.71005917159763,
	"grad_norm": 11.657218933105469,
	"learning_rate": 1.6287992777610593e-05,
	"loss": 0.2442,
	"step": 5220
	},
	{
	"epoch": 24.757396449704142,
	"grad_norm": 8.078208923339844,
	"learning_rate": 1.6212759554619318e-05,
	"loss": 0.1842,
	"step": 5230
	},
	{
	"epoch": 24.80473372781065,
	"grad_norm": 7.111977577209473,
	"learning_rate": 1.6137526331628046e-05,
	"loss": 0.2838,
	"step": 5240
	},
	{
	"epoch": 24.85207100591716,
	"grad_norm": 5.9829535484313965,
	"learning_rate": 1.6062293108636774e-05,
	"loss": 0.2379,
	"step": 5250
	},
	{
	"epoch": 24.899408284023668,
	"grad_norm": 7.217136859893799,
	"learning_rate": 1.5987059885645502e-05,
	"loss": 0.2162,
	"step": 5260
	},
	{
	"epoch": 24.94674556213018,
	"grad_norm": 3.860224485397339,
	"learning_rate": 1.5911826662654227e-05,
	"loss": 0.2123,
	"step": 5270
	},
	{
	"epoch": 24.994082840236686,
	"grad_norm": 7.911783695220947,
	"learning_rate": 1.5836593439662955e-05,
	"loss": 0.1972,
	"step": 5280
	},
	{
	"epoch": 24.99881656804734,
	"eval_accuracy": 0.910958904109589,
	"eval_loss": 0.3805873990058899,
	"eval_runtime": 6.2415,
	"eval_samples_per_second": 233.919,
	"eval_steps_per_second": 29.32,
	"step": 5281
	}
	],
	"logging_steps": 10,
	"max_steps": 7385,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 35,
	"save_steps": 500,
	"total_flos": 5.493880885130035e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}