Training in progress, step 6000, checkpoint

994d58f verified 9 months ago

41.6 kB

	{
	"best_metric": 29.697292972396323,
	"best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-6000",
	"epoch": 1.9286403085824495,
	"eval_steps": 500,
	"global_step": 6000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"grad_norm": 48.035465240478516,
	"learning_rate": 2.5e-06,
	"loss": 6.8285,
	"step": 25
	},
	{
	"epoch": 0.02,
	"grad_norm": 142.98660278320312,
	"learning_rate": 5e-06,
	"loss": 3.2493,
	"step": 50
	},
	{
	"epoch": 0.02,
	"grad_norm": 27.529985427856445,
	"learning_rate": 7.500000000000001e-06,
	"loss": 2.2763,
	"step": 75
	},
	{
	"epoch": 0.03,
	"grad_norm": 21.324289321899414,
	"learning_rate": 1e-05,
	"loss": 1.7193,
	"step": 100
	},
	{
	"epoch": 0.04,
	"grad_norm": 13.650047302246094,
	"learning_rate": 9.91697110594487e-06,
	"loss": 1.3177,
	"step": 125
	},
	{
	"epoch": 0.05,
	"grad_norm": 14.939111709594727,
	"learning_rate": 9.83394221188974e-06,
	"loss": 1.2486,
	"step": 150
	},
	{
	"epoch": 0.06,
	"grad_norm": 14.85805606842041,
	"learning_rate": 9.750913317834608e-06,
	"loss": 1.1991,
	"step": 175
	},
	{
	"epoch": 0.06,
	"grad_norm": 15.52128791809082,
	"learning_rate": 9.667884423779476e-06,
	"loss": 1.1126,
	"step": 200
	},
	{
	"epoch": 0.07,
	"grad_norm": 22.642026901245117,
	"learning_rate": 9.584855529724345e-06,
	"loss": 1.0437,
	"step": 225
	},
	{
	"epoch": 0.08,
	"grad_norm": 16.712217330932617,
	"learning_rate": 9.501826635669213e-06,
	"loss": 0.9986,
	"step": 250
	},
	{
	"epoch": 0.09,
	"grad_norm": 13.973222732543945,
	"learning_rate": 9.418797741614083e-06,
	"loss": 0.9188,
	"step": 275
	},
	{
	"epoch": 0.1,
	"grad_norm": 13.404074668884277,
	"learning_rate": 9.335768847558952e-06,
	"loss": 0.9244,
	"step": 300
	},
	{
	"epoch": 0.1,
	"grad_norm": 12.21960163116455,
	"learning_rate": 9.25273995350382e-06,
	"loss": 0.9018,
	"step": 325
	},
	{
	"epoch": 0.11,
	"grad_norm": 14.460400581359863,
	"learning_rate": 9.169711059448689e-06,
	"loss": 0.8398,
	"step": 350
	},
	{
	"epoch": 0.12,
	"grad_norm": 14.076154708862305,
	"learning_rate": 9.086682165393557e-06,
	"loss": 0.8828,
	"step": 375
	},
	{
	"epoch": 0.13,
	"grad_norm": 13.204269409179688,
	"learning_rate": 9.003653271338426e-06,
	"loss": 0.8503,
	"step": 400
	},
	{
	"epoch": 0.14,
	"grad_norm": 10.978958129882812,
	"learning_rate": 8.920624377283296e-06,
	"loss": 0.8198,
	"step": 425
	},
	{
	"epoch": 0.14,
	"grad_norm": 13.963995933532715,
	"learning_rate": 8.837595483228164e-06,
	"loss": 0.8202,
	"step": 450
	},
	{
	"epoch": 0.15,
	"grad_norm": 13.337563514709473,
	"learning_rate": 8.754566589173033e-06,
	"loss": 0.7536,
	"step": 475
	},
	{
	"epoch": 0.16,
	"grad_norm": 12.711252212524414,
	"learning_rate": 8.671537695117903e-06,
	"loss": 0.7938,
	"step": 500
	},
	{
	"epoch": 0.16,
	"eval_cer": 55.83411121482864,
	"eval_loss": 0.7767874002456665,
	"eval_runtime": 1802.202,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 0.308,
	"step": 500
	},
	{
	"epoch": 0.17,
	"grad_norm": 13.947765350341797,
	"learning_rate": 8.588508801062771e-06,
	"loss": 0.7784,
	"step": 525
	},
	{
	"epoch": 0.18,
	"grad_norm": 11.999704360961914,
	"learning_rate": 8.50547990700764e-06,
	"loss": 0.7646,
	"step": 550
	},
	{
	"epoch": 0.18,
	"grad_norm": 12.103652954101562,
	"learning_rate": 8.422451012952508e-06,
	"loss": 0.7001,
	"step": 575
	},
	{
	"epoch": 0.19,
	"grad_norm": 13.490057945251465,
	"learning_rate": 8.339422118897376e-06,
	"loss": 0.7941,
	"step": 600
	},
	{
	"epoch": 0.2,
	"grad_norm": 13.992444038391113,
	"learning_rate": 8.256393224842247e-06,
	"loss": 0.6561,
	"step": 625
	},
	{
	"epoch": 0.21,
	"grad_norm": 14.403618812561035,
	"learning_rate": 8.173364330787115e-06,
	"loss": 0.6618,
	"step": 650
	},
	{
	"epoch": 0.22,
	"grad_norm": 12.38306713104248,
	"learning_rate": 8.090335436731984e-06,
	"loss": 0.7515,
	"step": 675
	},
	{
	"epoch": 0.23,
	"grad_norm": 13.88232135772705,
	"learning_rate": 8.007306542676852e-06,
	"loss": 0.6823,
	"step": 700
	},
	{
	"epoch": 0.23,
	"grad_norm": 14.506720542907715,
	"learning_rate": 7.92427764862172e-06,
	"loss": 0.662,
	"step": 725
	},
	{
	"epoch": 0.24,
	"grad_norm": 11.101289749145508,
	"learning_rate": 7.841248754566589e-06,
	"loss": 0.6974,
	"step": 750
	},
	{
	"epoch": 0.25,
	"grad_norm": 10.762197494506836,
	"learning_rate": 7.758219860511459e-06,
	"loss": 0.6643,
	"step": 775
	},
	{
	"epoch": 0.26,
	"grad_norm": 14.123621940612793,
	"learning_rate": 7.675190966456327e-06,
	"loss": 0.6878,
	"step": 800
	},
	{
	"epoch": 0.27,
	"grad_norm": 13.668756484985352,
	"learning_rate": 7.592162072401196e-06,
	"loss": 0.6102,
	"step": 825
	},
	{
	"epoch": 0.27,
	"grad_norm": 13.39156723022461,
	"learning_rate": 7.509133178346065e-06,
	"loss": 0.6133,
	"step": 850
	},
	{
	"epoch": 0.28,
	"grad_norm": 11.687459945678711,
	"learning_rate": 7.426104284290934e-06,
	"loss": 0.6139,
	"step": 875
	},
	{
	"epoch": 0.29,
	"grad_norm": 14.004112243652344,
	"learning_rate": 7.343075390235803e-06,
	"loss": 0.6257,
	"step": 900
	},
	{
	"epoch": 0.3,
	"grad_norm": 13.317120552062988,
	"learning_rate": 7.260046496180671e-06,
	"loss": 0.6616,
	"step": 925
	},
	{
	"epoch": 0.31,
	"grad_norm": 13.344803810119629,
	"learning_rate": 7.17701760212554e-06,
	"loss": 0.6086,
	"step": 950
	},
	{
	"epoch": 0.31,
	"grad_norm": 12.64527416229248,
	"learning_rate": 7.09398870807041e-06,
	"loss": 0.5734,
	"step": 975
	},
	{
	"epoch": 0.32,
	"grad_norm": 9.928169250488281,
	"learning_rate": 7.0109598140152775e-06,
	"loss": 0.5845,
	"step": 1000
	},
	{
	"epoch": 0.32,
	"eval_cer": 41.15215362048273,
	"eval_loss": 0.5947259068489075,
	"eval_runtime": 1807.1895,
	"eval_samples_per_second": 2.455,
	"eval_steps_per_second": 0.307,
	"step": 1000
	},
	{
	"epoch": 0.33,
	"grad_norm": 13.225513458251953,
	"learning_rate": 6.927930919960146e-06,
	"loss": 0.6458,
	"step": 1025
	},
	{
	"epoch": 0.34,
	"grad_norm": 10.804333686828613,
	"learning_rate": 6.844902025905016e-06,
	"loss": 0.5106,
	"step": 1050
	},
	{
	"epoch": 0.35,
	"grad_norm": 10.24815559387207,
	"learning_rate": 6.7618731318498845e-06,
	"loss": 0.523,
	"step": 1075
	},
	{
	"epoch": 0.35,
	"grad_norm": 11.681272506713867,
	"learning_rate": 6.678844237794753e-06,
	"loss": 0.5585,
	"step": 1100
	},
	{
	"epoch": 0.36,
	"grad_norm": 10.01819133758545,
	"learning_rate": 6.595815343739622e-06,
	"loss": 0.5943,
	"step": 1125
	},
	{
	"epoch": 0.37,
	"grad_norm": 11.715396881103516,
	"learning_rate": 6.512786449684491e-06,
	"loss": 0.5472,
	"step": 1150
	},
	{
	"epoch": 0.38,
	"grad_norm": 10.607870101928711,
	"learning_rate": 6.429757555629359e-06,
	"loss": 0.5579,
	"step": 1175
	},
	{
	"epoch": 0.39,
	"grad_norm": 12.249415397644043,
	"learning_rate": 6.3467286615742285e-06,
	"loss": 0.5269,
	"step": 1200
	},
	{
	"epoch": 0.39,
	"grad_norm": 12.76510238647461,
	"learning_rate": 6.263699767519097e-06,
	"loss": 0.5273,
	"step": 1225
	},
	{
	"epoch": 0.4,
	"grad_norm": 8.935369491577148,
	"learning_rate": 6.180670873463966e-06,
	"loss": 0.525,
	"step": 1250
	},
	{
	"epoch": 0.41,
	"grad_norm": 11.15725040435791,
	"learning_rate": 6.097641979408835e-06,
	"loss": 0.4792,
	"step": 1275
	},
	{
	"epoch": 0.42,
	"grad_norm": 11.681845664978027,
	"learning_rate": 6.014613085353703e-06,
	"loss": 0.5462,
	"step": 1300
	},
	{
	"epoch": 0.43,
	"grad_norm": 13.019536972045898,
	"learning_rate": 5.931584191298572e-06,
	"loss": 0.4996,
	"step": 1325
	},
	{
	"epoch": 0.43,
	"grad_norm": 11.789406776428223,
	"learning_rate": 5.848555297243441e-06,
	"loss": 0.5088,
	"step": 1350
	},
	{
	"epoch": 0.44,
	"grad_norm": 13.898345947265625,
	"learning_rate": 5.765526403188309e-06,
	"loss": 0.5069,
	"step": 1375
	},
	{
	"epoch": 0.45,
	"grad_norm": 11.257216453552246,
	"learning_rate": 5.682497509133179e-06,
	"loss": 0.4942,
	"step": 1400
	},
	{
	"epoch": 0.46,
	"grad_norm": 11.38137149810791,
	"learning_rate": 5.599468615078048e-06,
	"loss": 0.4532,
	"step": 1425
	},
	{
	"epoch": 0.47,
	"grad_norm": 10.852495193481445,
	"learning_rate": 5.516439721022916e-06,
	"loss": 0.5231,
	"step": 1450
	},
	{
	"epoch": 0.47,
	"grad_norm": 14.178400039672852,
	"learning_rate": 5.4334108269677856e-06,
	"loss": 0.5041,
	"step": 1475
	},
	{
	"epoch": 0.48,
	"grad_norm": 11.18582534790039,
	"learning_rate": 5.350381932912654e-06,
	"loss": 0.459,
	"step": 1500
	},
	{
	"epoch": 0.48,
	"eval_cer": 37.618349113215096,
	"eval_loss": 0.5131608247756958,
	"eval_runtime": 1799.4249,
	"eval_samples_per_second": 2.465,
	"eval_steps_per_second": 0.308,
	"step": 1500
	},
	{
	"epoch": 0.49,
	"grad_norm": 9.844304084777832,
	"learning_rate": 5.267353038857523e-06,
	"loss": 0.5035,
	"step": 1525
	},
	{
	"epoch": 0.5,
	"grad_norm": 11.165616035461426,
	"learning_rate": 5.184324144802392e-06,
	"loss": 0.449,
	"step": 1550
	},
	{
	"epoch": 0.51,
	"grad_norm": 10.43535327911377,
	"learning_rate": 5.10129525074726e-06,
	"loss": 0.4471,
	"step": 1575
	},
	{
	"epoch": 0.51,
	"grad_norm": 9.737510681152344,
	"learning_rate": 5.0182663566921295e-06,
	"loss": 0.4779,
	"step": 1600
	},
	{
	"epoch": 0.52,
	"grad_norm": 10.221022605895996,
	"learning_rate": 4.935237462636998e-06,
	"loss": 0.4266,
	"step": 1625
	},
	{
	"epoch": 0.53,
	"grad_norm": 7.031712532043457,
	"learning_rate": 4.852208568581867e-06,
	"loss": 0.4355,
	"step": 1650
	},
	{
	"epoch": 0.54,
	"grad_norm": 10.13843822479248,
	"learning_rate": 4.769179674526736e-06,
	"loss": 0.4506,
	"step": 1675
	},
	{
	"epoch": 0.55,
	"grad_norm": 14.100777626037598,
	"learning_rate": 4.686150780471604e-06,
	"loss": 0.4484,
	"step": 1700
	},
	{
	"epoch": 0.55,
	"grad_norm": 11.218331336975098,
	"learning_rate": 4.603121886416473e-06,
	"loss": 0.4637,
	"step": 1725
	},
	{
	"epoch": 0.56,
	"grad_norm": 9.891203880310059,
	"learning_rate": 4.520092992361343e-06,
	"loss": 0.4142,
	"step": 1750
	},
	{
	"epoch": 0.57,
	"grad_norm": 9.585916519165039,
	"learning_rate": 4.437064098306211e-06,
	"loss": 0.4202,
	"step": 1775
	},
	{
	"epoch": 0.58,
	"grad_norm": 10.81905460357666,
	"learning_rate": 4.35403520425108e-06,
	"loss": 0.4459,
	"step": 1800
	},
	{
	"epoch": 0.59,
	"grad_norm": 13.257423400878906,
	"learning_rate": 4.271006310195949e-06,
	"loss": 0.448,
	"step": 1825
	},
	{
	"epoch": 0.59,
	"grad_norm": 9.057276725769043,
	"learning_rate": 4.187977416140817e-06,
	"loss": 0.4043,
	"step": 1850
	},
	{
	"epoch": 0.6,
	"grad_norm": 11.002601623535156,
	"learning_rate": 4.104948522085686e-06,
	"loss": 0.4011,
	"step": 1875
	},
	{
	"epoch": 0.61,
	"grad_norm": 15.421494483947754,
	"learning_rate": 4.021919628030555e-06,
	"loss": 0.4208,
	"step": 1900
	},
	{
	"epoch": 0.62,
	"grad_norm": 12.186066627502441,
	"learning_rate": 3.938890733975424e-06,
	"loss": 0.389,
	"step": 1925
	},
	{
	"epoch": 0.63,
	"grad_norm": 8.680899620056152,
	"learning_rate": 3.855861839920293e-06,
	"loss": 0.4189,
	"step": 1950
	},
	{
	"epoch": 0.63,
	"grad_norm": 10.597740173339844,
	"learning_rate": 3.7728329458651612e-06,
	"loss": 0.3654,
	"step": 1975
	},
	{
	"epoch": 0.64,
	"grad_norm": 10.675308227539062,
	"learning_rate": 3.6898040518100305e-06,
	"loss": 0.3512,
	"step": 2000
	},
	{
	"epoch": 0.64,
	"eval_cer": 35.404720629417255,
	"eval_loss": 0.4709227383136749,
	"eval_runtime": 1802.3985,
	"eval_samples_per_second": 2.461,
	"eval_steps_per_second": 0.308,
	"step": 2000
	},
	{
	"epoch": 0.65,
	"grad_norm": 9.923101425170898,
	"learning_rate": 3.6067751577548985e-06,
	"loss": 0.4361,
	"step": 2025
	},
	{
	"epoch": 0.66,
	"grad_norm": 9.01765251159668,
	"learning_rate": 3.523746263699768e-06,
	"loss": 0.3896,
	"step": 2050
	},
	{
	"epoch": 0.67,
	"grad_norm": 11.23643684387207,
	"learning_rate": 3.4407173696446367e-06,
	"loss": 0.3453,
	"step": 2075
	},
	{
	"epoch": 0.68,
	"grad_norm": 9.193674087524414,
	"learning_rate": 3.3576884755895056e-06,
	"loss": 0.3888,
	"step": 2100
	},
	{
	"epoch": 0.68,
	"grad_norm": 8.438018798828125,
	"learning_rate": 3.274659581534374e-06,
	"loss": 0.3798,
	"step": 2125
	},
	{
	"epoch": 0.69,
	"grad_norm": 9.949082374572754,
	"learning_rate": 3.191630687479243e-06,
	"loss": 0.3828,
	"step": 2150
	},
	{
	"epoch": 0.7,
	"grad_norm": 12.07507610321045,
	"learning_rate": 3.1086017934241117e-06,
	"loss": 0.4027,
	"step": 2175
	},
	{
	"epoch": 0.71,
	"grad_norm": 12.350488662719727,
	"learning_rate": 3.025572899368981e-06,
	"loss": 0.3791,
	"step": 2200
	},
	{
	"epoch": 0.72,
	"grad_norm": 12.681595802307129,
	"learning_rate": 2.9425440053138495e-06,
	"loss": 0.3863,
	"step": 2225
	},
	{
	"epoch": 0.72,
	"grad_norm": 13.789870262145996,
	"learning_rate": 2.8595151112587184e-06,
	"loss": 0.3688,
	"step": 2250
	},
	{
	"epoch": 0.73,
	"grad_norm": 11.885881423950195,
	"learning_rate": 2.7764862172035872e-06,
	"loss": 0.3661,
	"step": 2275
	},
	{
	"epoch": 0.74,
	"grad_norm": 10.707484245300293,
	"learning_rate": 2.6934573231484557e-06,
	"loss": 0.3731,
	"step": 2300
	},
	{
	"epoch": 0.75,
	"grad_norm": 12.371014595031738,
	"learning_rate": 2.6104284290933245e-06,
	"loss": 0.3651,
	"step": 2325
	},
	{
	"epoch": 0.76,
	"grad_norm": 12.415855407714844,
	"learning_rate": 2.5273995350381934e-06,
	"loss": 0.3529,
	"step": 2350
	},
	{
	"epoch": 0.76,
	"grad_norm": 12.046368598937988,
	"learning_rate": 2.4443706409830623e-06,
	"loss": 0.3565,
	"step": 2375
	},
	{
	"epoch": 0.77,
	"grad_norm": 10.2451810836792,
	"learning_rate": 2.361341746927931e-06,
	"loss": 0.3337,
	"step": 2400
	},
	{
	"epoch": 0.78,
	"grad_norm": 7.761926174163818,
	"learning_rate": 2.2783128528728e-06,
	"loss": 0.3636,
	"step": 2425
	},
	{
	"epoch": 0.79,
	"grad_norm": 9.736420631408691,
	"learning_rate": 2.1952839588176684e-06,
	"loss": 0.346,
	"step": 2450
	},
	{
	"epoch": 0.8,
	"grad_norm": 9.760013580322266,
	"learning_rate": 2.1122550647625377e-06,
	"loss": 0.3535,
	"step": 2475
	},
	{
	"epoch": 0.8,
	"grad_norm": 9.893476486206055,
	"learning_rate": 2.029226170707406e-06,
	"loss": 0.3758,
	"step": 2500
	},
	{
	"epoch": 0.8,
	"eval_cer": 33.57781037471663,
	"eval_loss": 0.43632233142852783,
	"eval_runtime": 1812.7817,
	"eval_samples_per_second": 2.447,
	"eval_steps_per_second": 0.306,
	"step": 2500
	},
	{
	"epoch": 0.81,
	"grad_norm": 11.384421348571777,
	"learning_rate": 1.946197276652275e-06,
	"loss": 0.3466,
	"step": 2525
	},
	{
	"epoch": 0.82,
	"grad_norm": 9.347311973571777,
	"learning_rate": 1.863168382597144e-06,
	"loss": 0.3558,
	"step": 2550
	},
	{
	"epoch": 0.83,
	"grad_norm": 9.740177154541016,
	"learning_rate": 1.7801394885420128e-06,
	"loss": 0.4067,
	"step": 2575
	},
	{
	"epoch": 0.84,
	"grad_norm": 10.038185119628906,
	"learning_rate": 1.6971105944868814e-06,
	"loss": 0.3431,
	"step": 2600
	},
	{
	"epoch": 0.84,
	"grad_norm": 8.289875984191895,
	"learning_rate": 1.6140817004317505e-06,
	"loss": 0.3821,
	"step": 2625
	},
	{
	"epoch": 0.85,
	"grad_norm": 11.42772388458252,
	"learning_rate": 1.5310528063766192e-06,
	"loss": 0.3611,
	"step": 2650
	},
	{
	"epoch": 0.86,
	"grad_norm": 8.776933670043945,
	"learning_rate": 1.4480239123214878e-06,
	"loss": 0.3241,
	"step": 2675
	},
	{
	"epoch": 0.87,
	"grad_norm": 14.44870376586914,
	"learning_rate": 1.364995018266357e-06,
	"loss": 0.3659,
	"step": 2700
	},
	{
	"epoch": 0.88,
	"grad_norm": 7.697235584259033,
	"learning_rate": 1.2819661242112256e-06,
	"loss": 0.317,
	"step": 2725
	},
	{
	"epoch": 0.88,
	"grad_norm": 9.33436107635498,
	"learning_rate": 1.1989372301560944e-06,
	"loss": 0.3243,
	"step": 2750
	},
	{
	"epoch": 0.89,
	"grad_norm": 7.878904819488525,
	"learning_rate": 1.115908336100963e-06,
	"loss": 0.2832,
	"step": 2775
	},
	{
	"epoch": 0.9,
	"grad_norm": 8.996261596679688,
	"learning_rate": 1.032879442045832e-06,
	"loss": 0.3585,
	"step": 2800
	},
	{
	"epoch": 0.91,
	"grad_norm": 10.357467651367188,
	"learning_rate": 9.498505479907008e-07,
	"loss": 0.3256,
	"step": 2825
	},
	{
	"epoch": 0.92,
	"grad_norm": 10.002203941345215,
	"learning_rate": 8.668216539355696e-07,
	"loss": 0.3459,
	"step": 2850
	},
	{
	"epoch": 0.92,
	"grad_norm": 10.587177276611328,
	"learning_rate": 7.837927598804385e-07,
	"loss": 0.3161,
	"step": 2875
	},
	{
	"epoch": 0.93,
	"grad_norm": 7.054004192352295,
	"learning_rate": 7.007638658253073e-07,
	"loss": 0.3362,
	"step": 2900
	},
	{
	"epoch": 0.94,
	"grad_norm": 10.065168380737305,
	"learning_rate": 6.177349717701761e-07,
	"loss": 0.3107,
	"step": 2925
	},
	{
	"epoch": 0.95,
	"grad_norm": 9.83284854888916,
	"learning_rate": 5.347060777150448e-07,
	"loss": 0.3301,
	"step": 2950
	},
	{
	"epoch": 0.96,
	"grad_norm": 11.811662673950195,
	"learning_rate": 4.5167718365991366e-07,
	"loss": 0.3792,
	"step": 2975
	},
	{
	"epoch": 0.96,
	"grad_norm": 11.07596206665039,
	"learning_rate": 3.686482896047825e-07,
	"loss": 0.3191,
	"step": 3000
	},
	{
	"epoch": 0.96,
	"eval_cer": 32.611014801973596,
	"eval_loss": 0.4216199815273285,
	"eval_runtime": 1822.6334,
	"eval_samples_per_second": 2.434,
	"eval_steps_per_second": 0.305,
	"step": 3000
	},
	{
	"epoch": 0.97,
	"grad_norm": 8.368192672729492,
	"learning_rate": 5.222149624305782e-06,
	"loss": 0.3044,
	"step": 3025
	},
	{
	"epoch": 0.98,
	"grad_norm": 13.727489471435547,
	"learning_rate": 5.181313296308397e-06,
	"loss": 0.3297,
	"step": 3050
	},
	{
	"epoch": 0.99,
	"grad_norm": 9.884183883666992,
	"learning_rate": 5.14047696831101e-06,
	"loss": 0.3753,
	"step": 3075
	},
	{
	"epoch": 1.0,
	"grad_norm": 10.073676109313965,
	"learning_rate": 5.0996406403136236e-06,
	"loss": 0.3247,
	"step": 3100
	},
	{
	"epoch": 1.0,
	"grad_norm": 9.34837532043457,
	"learning_rate": 5.0588043123162365e-06,
	"loss": 0.303,
	"step": 3125
	},
	{
	"epoch": 1.01,
	"grad_norm": 8.949431419372559,
	"learning_rate": 5.01796798431885e-06,
	"loss": 0.2329,
	"step": 3150
	},
	{
	"epoch": 1.02,
	"grad_norm": 7.911171913146973,
	"learning_rate": 4.977131656321464e-06,
	"loss": 0.2096,
	"step": 3175
	},
	{
	"epoch": 1.03,
	"grad_norm": 6.246947288513184,
	"learning_rate": 4.936295328324078e-06,
	"loss": 0.2208,
	"step": 3200
	},
	{
	"epoch": 1.04,
	"grad_norm": 7.6554059982299805,
	"learning_rate": 4.895459000326691e-06,
	"loss": 0.2508,
	"step": 3225
	},
	{
	"epoch": 1.04,
	"grad_norm": 9.491788864135742,
	"learning_rate": 4.8546226723293045e-06,
	"loss": 0.2274,
	"step": 3250
	},
	{
	"epoch": 1.05,
	"grad_norm": 9.15794849395752,
	"learning_rate": 4.813786344331918e-06,
	"loss": 0.2257,
	"step": 3275
	},
	{
	"epoch": 1.06,
	"grad_norm": 9.842211723327637,
	"learning_rate": 4.772950016334531e-06,
	"loss": 0.227,
	"step": 3300
	},
	{
	"epoch": 1.07,
	"grad_norm": 7.734405040740967,
	"learning_rate": 4.732113688337145e-06,
	"loss": 0.2207,
	"step": 3325
	},
	{
	"epoch": 1.08,
	"grad_norm": 8.951905250549316,
	"learning_rate": 4.691277360339759e-06,
	"loss": 0.2307,
	"step": 3350
	},
	{
	"epoch": 1.08,
	"grad_norm": 7.3573222160339355,
	"learning_rate": 4.650441032342372e-06,
	"loss": 0.2233,
	"step": 3375
	},
	{
	"epoch": 1.09,
	"grad_norm": 8.47739315032959,
	"learning_rate": 4.6096047043449855e-06,
	"loss": 0.2361,
	"step": 3400
	},
	{
	"epoch": 1.1,
	"grad_norm": 6.945776462554932,
	"learning_rate": 4.568768376347599e-06,
	"loss": 0.2353,
	"step": 3425
	},
	{
	"epoch": 1.11,
	"grad_norm": 8.67324161529541,
	"learning_rate": 4.527932048350212e-06,
	"loss": 0.2302,
	"step": 3450
	},
	{
	"epoch": 1.12,
	"grad_norm": 6.912210464477539,
	"learning_rate": 4.487095720352827e-06,
	"loss": 0.2292,
	"step": 3475
	},
	{
	"epoch": 1.13,
	"grad_norm": 8.434404373168945,
	"learning_rate": 4.44625939235544e-06,
	"loss": 0.2295,
	"step": 3500
	},
	{
	"epoch": 1.13,
	"eval_cer": 32.49766635551407,
	"eval_loss": 0.42611706256866455,
	"eval_runtime": 1848.4809,
	"eval_samples_per_second": 2.4,
	"eval_steps_per_second": 0.3,
	"step": 3500
	},
	{
	"epoch": 1.13,
	"grad_norm": 9.02902603149414,
	"learning_rate": 4.405423064358053e-06,
	"loss": 0.2382,
	"step": 3525
	},
	{
	"epoch": 1.14,
	"grad_norm": 8.05671215057373,
	"learning_rate": 4.364586736360667e-06,
	"loss": 0.222,
	"step": 3550
	},
	{
	"epoch": 1.15,
	"grad_norm": 10.546473503112793,
	"learning_rate": 4.32375040836328e-06,
	"loss": 0.2131,
	"step": 3575
	},
	{
	"epoch": 1.16,
	"grad_norm": 8.884702682495117,
	"learning_rate": 4.282914080365894e-06,
	"loss": 0.1886,
	"step": 3600
	},
	{
	"epoch": 1.17,
	"grad_norm": 7.569803237915039,
	"learning_rate": 4.242077752368508e-06,
	"loss": 0.222,
	"step": 3625
	},
	{
	"epoch": 1.17,
	"grad_norm": 6.256328105926514,
	"learning_rate": 4.201241424371121e-06,
	"loss": 0.2083,
	"step": 3650
	},
	{
	"epoch": 1.18,
	"grad_norm": 6.724915027618408,
	"learning_rate": 4.1604050963737345e-06,
	"loss": 0.2452,
	"step": 3675
	},
	{
	"epoch": 1.19,
	"grad_norm": 11.219491004943848,
	"learning_rate": 4.119568768376348e-06,
	"loss": 0.2217,
	"step": 3700
	},
	{
	"epoch": 1.2,
	"grad_norm": 6.6789469718933105,
	"learning_rate": 4.078732440378961e-06,
	"loss": 0.1958,
	"step": 3725
	},
	{
	"epoch": 1.21,
	"grad_norm": 7.929986476898193,
	"learning_rate": 4.037896112381575e-06,
	"loss": 0.1863,
	"step": 3750
	},
	{
	"epoch": 1.21,
	"grad_norm": 8.032015800476074,
	"learning_rate": 3.997059784384189e-06,
	"loss": 0.2153,
	"step": 3775
	},
	{
	"epoch": 1.22,
	"grad_norm": 8.176934242248535,
	"learning_rate": 3.956223456386802e-06,
	"loss": 0.1971,
	"step": 3800
	},
	{
	"epoch": 1.23,
	"grad_norm": 10.322613716125488,
	"learning_rate": 3.9153871283894155e-06,
	"loss": 0.1991,
	"step": 3825
	},
	{
	"epoch": 1.24,
	"grad_norm": 7.837410926818848,
	"learning_rate": 3.874550800392029e-06,
	"loss": 0.2043,
	"step": 3850
	},
	{
	"epoch": 1.25,
	"grad_norm": 12.684860229492188,
	"learning_rate": 3.833714472394642e-06,
	"loss": 0.2008,
	"step": 3875
	},
	{
	"epoch": 1.25,
	"grad_norm": 7.476794242858887,
	"learning_rate": 3.7928781443972564e-06,
	"loss": 0.2199,
	"step": 3900
	},
	{
	"epoch": 1.26,
	"grad_norm": 4.45359992980957,
	"learning_rate": 3.7520418163998693e-06,
	"loss": 0.196,
	"step": 3925
	},
	{
	"epoch": 1.27,
	"grad_norm": 9.373842239379883,
	"learning_rate": 3.7112054884024835e-06,
	"loss": 0.1939,
	"step": 3950
	},
	{
	"epoch": 1.28,
	"grad_norm": 6.383950233459473,
	"learning_rate": 3.670369160405097e-06,
	"loss": 0.2066,
	"step": 3975
	},
	{
	"epoch": 1.29,
	"grad_norm": 5.862789154052734,
	"learning_rate": 3.6295328324077102e-06,
	"loss": 0.1806,
	"step": 4000
	},
	{
	"epoch": 1.29,
	"eval_cer": 31.99093212428324,
	"eval_loss": 0.4084797203540802,
	"eval_runtime": 1898.761,
	"eval_samples_per_second": 2.336,
	"eval_steps_per_second": 0.292,
	"step": 4000
	},
	{
	"epoch": 1.29,
	"grad_norm": 7.52218770980835,
	"learning_rate": 3.588696504410324e-06,
	"loss": 0.1955,
	"step": 4025
	},
	{
	"epoch": 1.3,
	"grad_norm": 8.115983963012695,
	"learning_rate": 3.5478601764129374e-06,
	"loss": 0.1802,
	"step": 4050
	},
	{
	"epoch": 1.31,
	"grad_norm": 10.009458541870117,
	"learning_rate": 3.5070238484155507e-06,
	"loss": 0.1866,
	"step": 4075
	},
	{
	"epoch": 1.32,
	"grad_norm": 8.48315715789795,
	"learning_rate": 3.4661875204181645e-06,
	"loss": 0.2193,
	"step": 4100
	},
	{
	"epoch": 1.33,
	"grad_norm": 7.425174713134766,
	"learning_rate": 3.425351192420778e-06,
	"loss": 0.2096,
	"step": 4125
	},
	{
	"epoch": 1.33,
	"grad_norm": 5.02262544631958,
	"learning_rate": 3.384514864423391e-06,
	"loss": 0.1892,
	"step": 4150
	},
	{
	"epoch": 1.34,
	"grad_norm": 7.6967010498046875,
	"learning_rate": 3.343678536426005e-06,
	"loss": 0.1869,
	"step": 4175
	},
	{
	"epoch": 1.35,
	"grad_norm": 7.067899703979492,
	"learning_rate": 3.3028422084286183e-06,
	"loss": 0.1842,
	"step": 4200
	},
	{
	"epoch": 1.36,
	"grad_norm": 9.152185440063477,
	"learning_rate": 3.262005880431232e-06,
	"loss": 0.1601,
	"step": 4225
	},
	{
	"epoch": 1.37,
	"grad_norm": 5.13536262512207,
	"learning_rate": 3.2211695524338455e-06,
	"loss": 0.1766,
	"step": 4250
	},
	{
	"epoch": 1.37,
	"grad_norm": 8.453483581542969,
	"learning_rate": 3.180333224436459e-06,
	"loss": 0.1775,
	"step": 4275
	},
	{
	"epoch": 1.38,
	"grad_norm": 8.888550758361816,
	"learning_rate": 3.1394968964390726e-06,
	"loss": 0.1966,
	"step": 4300
	},
	{
	"epoch": 1.39,
	"grad_norm": 6.241116046905518,
	"learning_rate": 3.098660568441686e-06,
	"loss": 0.1602,
	"step": 4325
	},
	{
	"epoch": 1.4,
	"grad_norm": 10.21055793762207,
	"learning_rate": 3.0578242404442993e-06,
	"loss": 0.188,
	"step": 4350
	},
	{
	"epoch": 1.41,
	"grad_norm": 6.382270812988281,
	"learning_rate": 3.016987912446913e-06,
	"loss": 0.1686,
	"step": 4375
	},
	{
	"epoch": 1.41,
	"grad_norm": 8.593984603881836,
	"learning_rate": 2.9761515844495264e-06,
	"loss": 0.1959,
	"step": 4400
	},
	{
	"epoch": 1.42,
	"grad_norm": 8.248409271240234,
	"learning_rate": 2.93531525645214e-06,
	"loss": 0.1848,
	"step": 4425
	},
	{
	"epoch": 1.43,
	"grad_norm": 7.425219535827637,
	"learning_rate": 2.8944789284547536e-06,
	"loss": 0.1711,
	"step": 4450
	},
	{
	"epoch": 1.44,
	"grad_norm": 6.594272613525391,
	"learning_rate": 2.853642600457367e-06,
	"loss": 0.1601,
	"step": 4475
	},
	{
	"epoch": 1.45,
	"grad_norm": 6.964175224304199,
	"learning_rate": 2.8128062724599807e-06,
	"loss": 0.16,
	"step": 4500
	},
	{
	"epoch": 1.45,
	"eval_cer": 31.170822776370184,
	"eval_loss": 0.3913029432296753,
	"eval_runtime": 1863.6532,
	"eval_samples_per_second": 2.38,
	"eval_steps_per_second": 0.298,
	"step": 4500
	},
	{
	"epoch": 1.45,
	"grad_norm": 7.741447448730469,
	"learning_rate": 2.771969944462594e-06,
	"loss": 0.1552,
	"step": 4525
	},
	{
	"epoch": 1.46,
	"grad_norm": 6.088663101196289,
	"learning_rate": 2.7311336164652074e-06,
	"loss": 0.1759,
	"step": 4550
	},
	{
	"epoch": 1.47,
	"grad_norm": 9.178170204162598,
	"learning_rate": 2.690297288467821e-06,
	"loss": 0.1635,
	"step": 4575
	},
	{
	"epoch": 1.48,
	"grad_norm": 9.006258010864258,
	"learning_rate": 2.6494609604704345e-06,
	"loss": 0.1986,
	"step": 4600
	},
	{
	"epoch": 1.49,
	"grad_norm": 7.974513530731201,
	"learning_rate": 2.608624632473048e-06,
	"loss": 0.1781,
	"step": 4625
	},
	{
	"epoch": 1.49,
	"grad_norm": 8.142216682434082,
	"learning_rate": 2.5677883044756617e-06,
	"loss": 0.1509,
	"step": 4650
	},
	{
	"epoch": 1.5,
	"grad_norm": 5.452117919921875,
	"learning_rate": 2.526951976478275e-06,
	"loss": 0.1682,
	"step": 4675
	},
	{
	"epoch": 1.51,
	"grad_norm": 6.821118354797363,
	"learning_rate": 2.4861156484808888e-06,
	"loss": 0.1559,
	"step": 4700
	},
	{
	"epoch": 1.52,
	"grad_norm": 9.8412446975708,
	"learning_rate": 2.4452793204835026e-06,
	"loss": 0.1519,
	"step": 4725
	},
	{
	"epoch": 1.53,
	"grad_norm": 7.750609874725342,
	"learning_rate": 2.404442992486116e-06,
	"loss": 0.1394,
	"step": 4750
	},
	{
	"epoch": 1.53,
	"grad_norm": 8.334457397460938,
	"learning_rate": 2.3636066644887293e-06,
	"loss": 0.1605,
	"step": 4775
	},
	{
	"epoch": 1.54,
	"grad_norm": 5.586342811584473,
	"learning_rate": 2.322770336491343e-06,
	"loss": 0.1622,
	"step": 4800
	},
	{
	"epoch": 1.55,
	"grad_norm": 8.146045684814453,
	"learning_rate": 2.2819340084939564e-06,
	"loss": 0.175,
	"step": 4825
	},
	{
	"epoch": 1.56,
	"grad_norm": 5.796145915985107,
	"learning_rate": 2.24109768049657e-06,
	"loss": 0.1702,
	"step": 4850
	},
	{
	"epoch": 1.57,
	"grad_norm": 8.852866172790527,
	"learning_rate": 2.2002613524991835e-06,
	"loss": 0.1522,
	"step": 4875
	},
	{
	"epoch": 1.58,
	"grad_norm": 7.19501256942749,
	"learning_rate": 2.159425024501797e-06,
	"loss": 0.1465,
	"step": 4900
	},
	{
	"epoch": 1.58,
	"grad_norm": 7.024486064910889,
	"learning_rate": 2.1185886965044107e-06,
	"loss": 0.1539,
	"step": 4925
	},
	{
	"epoch": 1.59,
	"grad_norm": 7.009402751922607,
	"learning_rate": 2.077752368507024e-06,
	"loss": 0.1442,
	"step": 4950
	},
	{
	"epoch": 1.6,
	"grad_norm": 4.041311264038086,
	"learning_rate": 2.0369160405096374e-06,
	"loss": 0.151,
	"step": 4975
	},
	{
	"epoch": 1.61,
	"grad_norm": 8.767594337463379,
	"learning_rate": 1.996079712512251e-06,
	"loss": 0.1603,
	"step": 5000
	},
	{
	"epoch": 1.61,
	"eval_cer": 30.38405120682758,
	"eval_loss": 0.383564829826355,
	"eval_runtime": 1857.7457,
	"eval_samples_per_second": 2.388,
	"eval_steps_per_second": 0.299,
	"step": 5000
	},
	{
	"epoch": 1.62,
	"grad_norm": 5.629392147064209,
	"learning_rate": 1.9552433845148645e-06,
	"loss": 0.1515,
	"step": 5025
	},
	{
	"epoch": 1.62,
	"grad_norm": 5.018975734710693,
	"learning_rate": 1.914407056517478e-06,
	"loss": 0.157,
	"step": 5050
	},
	{
	"epoch": 1.63,
	"grad_norm": 6.182131767272949,
	"learning_rate": 1.8735707285200916e-06,
	"loss": 0.13,
	"step": 5075
	},
	{
	"epoch": 1.64,
	"grad_norm": 9.000260353088379,
	"learning_rate": 1.8327344005227052e-06,
	"loss": 0.1726,
	"step": 5100
	},
	{
	"epoch": 1.65,
	"grad_norm": 6.853832244873047,
	"learning_rate": 1.7918980725253188e-06,
	"loss": 0.1451,
	"step": 5125
	},
	{
	"epoch": 1.66,
	"grad_norm": 5.68117618560791,
	"learning_rate": 1.7510617445279321e-06,
	"loss": 0.1518,
	"step": 5150
	},
	{
	"epoch": 1.66,
	"grad_norm": 4.632532119750977,
	"learning_rate": 1.7102254165305457e-06,
	"loss": 0.144,
	"step": 5175
	},
	{
	"epoch": 1.67,
	"grad_norm": 8.772269248962402,
	"learning_rate": 1.6693890885331592e-06,
	"loss": 0.1525,
	"step": 5200
	},
	{
	"epoch": 1.68,
	"grad_norm": 8.809287071228027,
	"learning_rate": 1.6285527605357728e-06,
	"loss": 0.132,
	"step": 5225
	},
	{
	"epoch": 1.69,
	"grad_norm": 7.337480545043945,
	"learning_rate": 1.5877164325383862e-06,
	"loss": 0.1549,
	"step": 5250
	},
	{
	"epoch": 1.7,
	"grad_norm": 5.269392013549805,
	"learning_rate": 1.5468801045409997e-06,
	"loss": 0.1524,
	"step": 5275
	},
	{
	"epoch": 1.7,
	"grad_norm": 7.877448558807373,
	"learning_rate": 1.5060437765436133e-06,
	"loss": 0.1421,
	"step": 5300
	},
	{
	"epoch": 1.71,
	"grad_norm": 6.454422950744629,
	"learning_rate": 1.4652074485462266e-06,
	"loss": 0.1377,
	"step": 5325
	},
	{
	"epoch": 1.72,
	"grad_norm": 7.873298645019531,
	"learning_rate": 1.4243711205488402e-06,
	"loss": 0.1446,
	"step": 5350
	},
	{
	"epoch": 1.73,
	"grad_norm": 6.6517486572265625,
	"learning_rate": 1.383534792551454e-06,
	"loss": 0.1482,
	"step": 5375
	},
	{
	"epoch": 1.74,
	"grad_norm": 9.937956809997559,
	"learning_rate": 1.3426984645540676e-06,
	"loss": 0.1306,
	"step": 5400
	},
	{
	"epoch": 1.74,
	"grad_norm": 4.228558540344238,
	"learning_rate": 1.301862136556681e-06,
	"loss": 0.1229,
	"step": 5425
	},
	{
	"epoch": 1.75,
	"grad_norm": 4.710421085357666,
	"learning_rate": 1.2610258085592945e-06,
	"loss": 0.1374,
	"step": 5450
	},
	{
	"epoch": 1.76,
	"grad_norm": 4.934779644012451,
	"learning_rate": 1.220189480561908e-06,
	"loss": 0.1321,
	"step": 5475
	},
	{
	"epoch": 1.77,
	"grad_norm": 9.244394302368164,
	"learning_rate": 1.1793531525645214e-06,
	"loss": 0.1343,
	"step": 5500
	},
	{
	"epoch": 1.77,
	"eval_cer": 30.15735431390852,
	"eval_loss": 0.3783666491508484,
	"eval_runtime": 1871.1459,
	"eval_samples_per_second": 2.371,
	"eval_steps_per_second": 0.297,
	"step": 5500
	},
	{
	"epoch": 1.78,
	"grad_norm": 7.236656188964844,
	"learning_rate": 1.138516824567135e-06,
	"loss": 0.1295,
	"step": 5525
	},
	{
	"epoch": 1.78,
	"grad_norm": 6.239099502563477,
	"learning_rate": 1.0976804965697485e-06,
	"loss": 0.1378,
	"step": 5550
	},
	{
	"epoch": 1.79,
	"grad_norm": 4.9148945808410645,
	"learning_rate": 1.056844168572362e-06,
	"loss": 0.1272,
	"step": 5575
	},
	{
	"epoch": 1.8,
	"grad_norm": 7.572327136993408,
	"learning_rate": 1.0160078405749757e-06,
	"loss": 0.1405,
	"step": 5600
	},
	{
	"epoch": 1.81,
	"grad_norm": 6.76165771484375,
	"learning_rate": 9.751715125775892e-07,
	"loss": 0.1351,
	"step": 5625
	},
	{
	"epoch": 1.82,
	"grad_norm": 10.984220504760742,
	"learning_rate": 9.343351845802026e-07,
	"loss": 0.1467,
	"step": 5650
	},
	{
	"epoch": 1.82,
	"grad_norm": 4.543166637420654,
	"learning_rate": 8.934988565828162e-07,
	"loss": 0.1175,
	"step": 5675
	},
	{
	"epoch": 1.83,
	"grad_norm": 8.191649436950684,
	"learning_rate": 8.526625285854297e-07,
	"loss": 0.1388,
	"step": 5700
	},
	{
	"epoch": 1.84,
	"grad_norm": 7.215826988220215,
	"learning_rate": 8.118262005880432e-07,
	"loss": 0.1354,
	"step": 5725
	},
	{
	"epoch": 1.85,
	"grad_norm": 5.940629959106445,
	"learning_rate": 7.709898725906567e-07,
	"loss": 0.1283,
	"step": 5750
	},
	{
	"epoch": 1.86,
	"grad_norm": 6.796767234802246,
	"learning_rate": 7.301535445932702e-07,
	"loss": 0.1274,
	"step": 5775
	},
	{
	"epoch": 1.86,
	"grad_norm": 8.403697967529297,
	"learning_rate": 6.893172165958838e-07,
	"loss": 0.1333,
	"step": 5800
	},
	{
	"epoch": 1.87,
	"grad_norm": 6.127229690551758,
	"learning_rate": 6.484808885984972e-07,
	"loss": 0.1406,
	"step": 5825
	},
	{
	"epoch": 1.88,
	"grad_norm": 7.16465950012207,
	"learning_rate": 6.076445606011108e-07,
	"loss": 0.132,
	"step": 5850
	},
	{
	"epoch": 1.89,
	"grad_norm": 5.777968406677246,
	"learning_rate": 5.668082326037243e-07,
	"loss": 0.1437,
	"step": 5875
	},
	{
	"epoch": 1.9,
	"grad_norm": 6.021764755249023,
	"learning_rate": 5.259719046063379e-07,
	"loss": 0.1203,
	"step": 5900
	},
	{
	"epoch": 1.9,
	"grad_norm": 5.480493068695068,
	"learning_rate": 4.851355766089514e-07,
	"loss": 0.1398,
	"step": 5925
	},
	{
	"epoch": 1.91,
	"grad_norm": 7.609493732452393,
	"learning_rate": 4.442992486115649e-07,
	"loss": 0.1274,
	"step": 5950
	},
	{
	"epoch": 1.92,
	"grad_norm": 5.910650730133057,
	"learning_rate": 4.034629206141784e-07,
	"loss": 0.1352,
	"step": 5975
	},
	{
	"epoch": 1.93,
	"grad_norm": 4.371640682220459,
	"learning_rate": 3.626265926167919e-07,
	"loss": 0.1265,
	"step": 6000
	},
	{
	"epoch": 1.93,
	"eval_cer": 29.697292972396323,
	"eval_loss": 0.37359777092933655,
	"eval_runtime": 1867.3275,
	"eval_samples_per_second": 2.376,
	"eval_steps_per_second": 0.297,
	"step": 6000
	}
	],
	"logging_steps": 25,
	"max_steps": 6222,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"total_flos": 2.770419843072e+19,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}