zephyr-8b-sft-full / trainer_state.json

Model save

a7dde55 verified about 1 month ago

106 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 100,
	"global_step": 2853,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0010515247108307045,
	"grad_norm": 21.846562454867367,
	"learning_rate": 6.993006993006993e-08,
	"loss": 1.3669,
	"step": 1
	},
	{
	"epoch": 0.005257623554153523,
	"grad_norm": 21.132009448461105,
	"learning_rate": 3.496503496503497e-07,
	"loss": 1.3522,
	"step": 5
	},
	{
	"epoch": 0.010515247108307046,
	"grad_norm": 17.494352717419737,
	"learning_rate": 6.993006993006994e-07,
	"loss": 1.354,
	"step": 10
	},
	{
	"epoch": 0.015772870662460567,
	"grad_norm": 3.3387986746360583,
	"learning_rate": 1.0489510489510491e-06,
	"loss": 1.2867,
	"step": 15
	},
	{
	"epoch": 0.02103049421661409,
	"grad_norm": 2.205920355996413,
	"learning_rate": 1.3986013986013987e-06,
	"loss": 1.2275,
	"step": 20
	},
	{
	"epoch": 0.026288117770767613,
	"grad_norm": 1.369597839526372,
	"learning_rate": 1.7482517482517483e-06,
	"loss": 1.1889,
	"step": 25
	},
	{
	"epoch": 0.031545741324921134,
	"grad_norm": 1.1230719730143253,
	"learning_rate": 2.0979020979020983e-06,
	"loss": 1.1654,
	"step": 30
	},
	{
	"epoch": 0.03680336487907466,
	"grad_norm": 0.8609236106610554,
	"learning_rate": 2.4475524475524477e-06,
	"loss": 1.1648,
	"step": 35
	},
	{
	"epoch": 0.04206098843322818,
	"grad_norm": 0.797862698606503,
	"learning_rate": 2.7972027972027974e-06,
	"loss": 1.1519,
	"step": 40
	},
	{
	"epoch": 0.0473186119873817,
	"grad_norm": 0.8072361631632317,
	"learning_rate": 3.1468531468531472e-06,
	"loss": 1.1237,
	"step": 45
	},
	{
	"epoch": 0.052576235541535225,
	"grad_norm": 0.7629783040030311,
	"learning_rate": 3.4965034965034966e-06,
	"loss": 1.1325,
	"step": 50
	},
	{
	"epoch": 0.05783385909568875,
	"grad_norm": 0.6873017397880803,
	"learning_rate": 3.846153846153847e-06,
	"loss": 1.1026,
	"step": 55
	},
	{
	"epoch": 0.06309148264984227,
	"grad_norm": 0.696611266506068,
	"learning_rate": 4.195804195804197e-06,
	"loss": 1.1039,
	"step": 60
	},
	{
	"epoch": 0.0683491062039958,
	"grad_norm": 0.7029981157873147,
	"learning_rate": 4.5454545454545455e-06,
	"loss": 1.0926,
	"step": 65
	},
	{
	"epoch": 0.07360672975814932,
	"grad_norm": 0.7133610172269549,
	"learning_rate": 4.895104895104895e-06,
	"loss": 1.1062,
	"step": 70
	},
	{
	"epoch": 0.07886435331230283,
	"grad_norm": 0.7217968834872122,
	"learning_rate": 5.244755244755245e-06,
	"loss": 1.1003,
	"step": 75
	},
	{
	"epoch": 0.08412197686645637,
	"grad_norm": 0.7014523604685313,
	"learning_rate": 5.594405594405595e-06,
	"loss": 1.0944,
	"step": 80
	},
	{
	"epoch": 0.08937960042060988,
	"grad_norm": 0.7206581604903497,
	"learning_rate": 5.944055944055944e-06,
	"loss": 1.1056,
	"step": 85
	},
	{
	"epoch": 0.0946372239747634,
	"grad_norm": 0.7457066334039347,
	"learning_rate": 6.2937062937062944e-06,
	"loss": 1.1065,
	"step": 90
	},
	{
	"epoch": 0.09989484752891693,
	"grad_norm": 0.7208104956061856,
	"learning_rate": 6.643356643356644e-06,
	"loss": 1.0892,
	"step": 95
	},
	{
	"epoch": 0.10515247108307045,
	"grad_norm": 0.7717192179121782,
	"learning_rate": 6.993006993006993e-06,
	"loss": 1.103,
	"step": 100
	},
	{
	"epoch": 0.10515247108307045,
	"eval_loss": 1.0989242792129517,
	"eval_runtime": 734.3008,
	"eval_samples_per_second": 18.326,
	"eval_steps_per_second": 0.144,
	"step": 100
	},
	{
	"epoch": 0.11041009463722397,
	"grad_norm": 0.8259894569490014,
	"learning_rate": 7.342657342657343e-06,
	"loss": 1.0814,
	"step": 105
	},
	{
	"epoch": 0.1156677181913775,
	"grad_norm": 1.1085848778320089,
	"learning_rate": 7.692307692307694e-06,
	"loss": 1.1025,
	"step": 110
	},
	{
	"epoch": 0.12092534174553102,
	"grad_norm": 0.7455910381865771,
	"learning_rate": 8.041958041958042e-06,
	"loss": 1.1079,
	"step": 115
	},
	{
	"epoch": 0.12618296529968454,
	"grad_norm": 0.9674079050397694,
	"learning_rate": 8.391608391608393e-06,
	"loss": 1.0784,
	"step": 120
	},
	{
	"epoch": 0.13144058885383805,
	"grad_norm": 0.9988378537350968,
	"learning_rate": 8.741258741258743e-06,
	"loss": 1.0759,
	"step": 125
	},
	{
	"epoch": 0.1366982124079916,
	"grad_norm": 0.8719562477062238,
	"learning_rate": 9.090909090909091e-06,
	"loss": 1.1161,
	"step": 130
	},
	{
	"epoch": 0.14195583596214512,
	"grad_norm": 0.7675881427867184,
	"learning_rate": 9.44055944055944e-06,
	"loss": 1.0935,
	"step": 135
	},
	{
	"epoch": 0.14721345951629863,
	"grad_norm": 0.724214660257682,
	"learning_rate": 9.79020979020979e-06,
	"loss": 1.0905,
	"step": 140
	},
	{
	"epoch": 0.15247108307045215,
	"grad_norm": 0.7816188167257716,
	"learning_rate": 1.013986013986014e-05,
	"loss": 1.1015,
	"step": 145
	},
	{
	"epoch": 0.15772870662460567,
	"grad_norm": 0.8160659875512388,
	"learning_rate": 1.048951048951049e-05,
	"loss": 1.0841,
	"step": 150
	},
	{
	"epoch": 0.16298633017875921,
	"grad_norm": 0.7024355651373789,
	"learning_rate": 1.083916083916084e-05,
	"loss": 1.0944,
	"step": 155
	},
	{
	"epoch": 0.16824395373291273,
	"grad_norm": 0.8350948417258764,
	"learning_rate": 1.118881118881119e-05,
	"loss": 1.0865,
	"step": 160
	},
	{
	"epoch": 0.17350157728706625,
	"grad_norm": 0.7759430616830292,
	"learning_rate": 1.1538461538461538e-05,
	"loss": 1.0957,
	"step": 165
	},
	{
	"epoch": 0.17875920084121977,
	"grad_norm": 0.8253932883708276,
	"learning_rate": 1.1888111888111888e-05,
	"loss": 1.0862,
	"step": 170
	},
	{
	"epoch": 0.18401682439537329,
	"grad_norm": 0.727381322987075,
	"learning_rate": 1.2237762237762239e-05,
	"loss": 1.0531,
	"step": 175
	},
	{
	"epoch": 0.1892744479495268,
	"grad_norm": 0.7093901420339217,
	"learning_rate": 1.2587412587412589e-05,
	"loss": 1.0983,
	"step": 180
	},
	{
	"epoch": 0.19453207150368035,
	"grad_norm": 0.953147430950059,
	"learning_rate": 1.2937062937062939e-05,
	"loss": 1.0971,
	"step": 185
	},
	{
	"epoch": 0.19978969505783387,
	"grad_norm": 0.7716908173558169,
	"learning_rate": 1.3286713286713288e-05,
	"loss": 1.075,
	"step": 190
	},
	{
	"epoch": 0.20504731861198738,
	"grad_norm": 0.8672736054906722,
	"learning_rate": 1.3636363636363637e-05,
	"loss": 1.0793,
	"step": 195
	},
	{
	"epoch": 0.2103049421661409,
	"grad_norm": 0.8675965486083684,
	"learning_rate": 1.3986013986013986e-05,
	"loss": 1.0867,
	"step": 200
	},
	{
	"epoch": 0.2103049421661409,
	"eval_loss": 1.0965888500213623,
	"eval_runtime": 649.556,
	"eval_samples_per_second": 20.717,
	"eval_steps_per_second": 0.163,
	"step": 200
	},
	{
	"epoch": 0.21556256572029442,
	"grad_norm": 0.8977881972264273,
	"learning_rate": 1.4335664335664336e-05,
	"loss": 1.0954,
	"step": 205
	},
	{
	"epoch": 0.22082018927444794,
	"grad_norm": 0.7235719037878356,
	"learning_rate": 1.4685314685314686e-05,
	"loss": 1.0983,
	"step": 210
	},
	{
	"epoch": 0.22607781282860148,
	"grad_norm": 0.7296340934381736,
	"learning_rate": 1.5034965034965037e-05,
	"loss": 1.0782,
	"step": 215
	},
	{
	"epoch": 0.231335436382755,
	"grad_norm": 0.8547235635957527,
	"learning_rate": 1.5384615384615387e-05,
	"loss": 1.0924,
	"step": 220
	},
	{
	"epoch": 0.23659305993690852,
	"grad_norm": 0.7564410266828079,
	"learning_rate": 1.5734265734265734e-05,
	"loss": 1.0912,
	"step": 225
	},
	{
	"epoch": 0.24185068349106204,
	"grad_norm": 0.8525133534517718,
	"learning_rate": 1.6083916083916083e-05,
	"loss": 1.0954,
	"step": 230
	},
	{
	"epoch": 0.24710830704521555,
	"grad_norm": 0.805401759340136,
	"learning_rate": 1.6433566433566433e-05,
	"loss": 1.0749,
	"step": 235
	},
	{
	"epoch": 0.25236593059936907,
	"grad_norm": 0.7402154168479581,
	"learning_rate": 1.6783216783216786e-05,
	"loss": 1.0986,
	"step": 240
	},
	{
	"epoch": 0.2576235541535226,
	"grad_norm": 0.7474174775706688,
	"learning_rate": 1.7132867132867136e-05,
	"loss": 1.0869,
	"step": 245
	},
	{
	"epoch": 0.2628811777076761,
	"grad_norm": 0.7369490806417859,
	"learning_rate": 1.7482517482517486e-05,
	"loss": 1.0776,
	"step": 250
	},
	{
	"epoch": 0.26813880126182965,
	"grad_norm": 0.9287606428487797,
	"learning_rate": 1.7832167832167832e-05,
	"loss": 1.1021,
	"step": 255
	},
	{
	"epoch": 0.2733964248159832,
	"grad_norm": 0.6947297961768544,
	"learning_rate": 1.8181818181818182e-05,
	"loss": 1.1012,
	"step": 260
	},
	{
	"epoch": 0.2786540483701367,
	"grad_norm": 0.8123153065370199,
	"learning_rate": 1.8531468531468532e-05,
	"loss": 1.1074,
	"step": 265
	},
	{
	"epoch": 0.28391167192429023,
	"grad_norm": 0.8302401027015646,
	"learning_rate": 1.888111888111888e-05,
	"loss": 1.1083,
	"step": 270
	},
	{
	"epoch": 0.2891692954784437,
	"grad_norm": 0.6881962349423542,
	"learning_rate": 1.923076923076923e-05,
	"loss": 1.0937,
	"step": 275
	},
	{
	"epoch": 0.29442691903259727,
	"grad_norm": 0.7279189773202484,
	"learning_rate": 1.958041958041958e-05,
	"loss": 1.0913,
	"step": 280
	},
	{
	"epoch": 0.2996845425867508,
	"grad_norm": 1.0229788845896652,
	"learning_rate": 1.993006993006993e-05,
	"loss": 1.062,
	"step": 285
	},
	{
	"epoch": 0.3049421661409043,
	"grad_norm": 0.8087865464750971,
	"learning_rate": 1.9999880177844552e-05,
	"loss": 1.0943,
	"step": 290
	},
	{
	"epoch": 0.31019978969505785,
	"grad_norm": 0.7888576974082969,
	"learning_rate": 1.9999393405259354e-05,
	"loss": 1.0814,
	"step": 295
	},
	{
	"epoch": 0.31545741324921134,
	"grad_norm": 0.7387794672867187,
	"learning_rate": 1.9998532211572566e-05,
	"loss": 1.111,
	"step": 300
	},
	{
	"epoch": 0.31545741324921134,
	"eval_loss": 1.101216435432434,
	"eval_runtime": 582.6045,
	"eval_samples_per_second": 23.098,
	"eval_steps_per_second": 0.182,
	"step": 300
	},
	{
	"epoch": 0.3207150368033649,
	"grad_norm": 0.7908623885539283,
	"learning_rate": 1.999729662903106e-05,
	"loss": 1.0945,
	"step": 305
	},
	{
	"epoch": 0.32597266035751843,
	"grad_norm": 0.6771503993700702,
	"learning_rate": 1.999568670390045e-05,
	"loss": 1.0926,
	"step": 310
	},
	{
	"epoch": 0.3312302839116719,
	"grad_norm": 0.6841445829487095,
	"learning_rate": 1.9993702496463395e-05,
	"loss": 1.1157,
	"step": 315
	},
	{
	"epoch": 0.33648790746582546,
	"grad_norm": 0.6751678361124496,
	"learning_rate": 1.9991344081017312e-05,
	"loss": 1.1029,
	"step": 320
	},
	{
	"epoch": 0.34174553101997895,
	"grad_norm": 0.6430661618178782,
	"learning_rate": 1.9988611545871606e-05,
	"loss": 1.0914,
	"step": 325
	},
	{
	"epoch": 0.3470031545741325,
	"grad_norm": 0.6415970890637294,
	"learning_rate": 1.9985504993344375e-05,
	"loss": 1.095,
	"step": 330
	},
	{
	"epoch": 0.352260778128286,
	"grad_norm": 0.7730277501959658,
	"learning_rate": 1.9982024539758547e-05,
	"loss": 1.1047,
	"step": 335
	},
	{
	"epoch": 0.35751840168243953,
	"grad_norm": 0.697788892685463,
	"learning_rate": 1.997817031543756e-05,
	"loss": 1.0943,
	"step": 340
	},
	{
	"epoch": 0.3627760252365931,
	"grad_norm": 0.7222719849480133,
	"learning_rate": 1.9973942464700456e-05,
	"loss": 1.0723,
	"step": 345
	},
	{
	"epoch": 0.36803364879074657,
	"grad_norm": 0.7260613938093592,
	"learning_rate": 1.9969341145856493e-05,
	"loss": 1.0839,
	"step": 350
	},
	{
	"epoch": 0.3732912723449001,
	"grad_norm": 0.733047206796414,
	"learning_rate": 1.9964366531199205e-05,
	"loss": 1.1031,
	"step": 355
	},
	{
	"epoch": 0.3785488958990536,
	"grad_norm": 0.7026038822669134,
	"learning_rate": 1.995901880699997e-05,
	"loss": 1.0921,
	"step": 360
	},
	{
	"epoch": 0.38380651945320715,
	"grad_norm": 0.7130129636017671,
	"learning_rate": 1.9953298173501007e-05,
	"loss": 1.1082,
	"step": 365
	},
	{
	"epoch": 0.3890641430073607,
	"grad_norm": 0.6640121507704535,
	"learning_rate": 1.9947204844907903e-05,
	"loss": 1.0865,
	"step": 370
	},
	{
	"epoch": 0.3943217665615142,
	"grad_norm": 0.6489539943403665,
	"learning_rate": 1.994073904938157e-05,
	"loss": 1.1005,
	"step": 375
	},
	{
	"epoch": 0.39957939011566773,
	"grad_norm": 0.6442461845826825,
	"learning_rate": 1.9933901029029732e-05,
	"loss": 1.0723,
	"step": 380
	},
	{
	"epoch": 0.4048370136698212,
	"grad_norm": 0.7261445745563544,
	"learning_rate": 1.992669103989783e-05,
	"loss": 1.1011,
	"step": 385
	},
	{
	"epoch": 0.41009463722397477,
	"grad_norm": 0.7222317305626339,
	"learning_rate": 1.9919109351959444e-05,
	"loss": 1.0908,
	"step": 390
	},
	{
	"epoch": 0.4153522607781283,
	"grad_norm": 0.6323590176184729,
	"learning_rate": 1.9911156249106186e-05,
	"loss": 1.089,
	"step": 395
	},
	{
	"epoch": 0.4206098843322818,
	"grad_norm": 0.6782790061464099,
	"learning_rate": 1.9902832029137086e-05,
	"loss": 1.0974,
	"step": 400
	},
	{
	"epoch": 0.4206098843322818,
	"eval_loss": 1.0965957641601562,
	"eval_runtime": 611.6915,
	"eval_samples_per_second": 22.0,
	"eval_steps_per_second": 0.173,
	"step": 400
	},
	{
	"epoch": 0.42586750788643535,
	"grad_norm": 0.7130643351963079,
	"learning_rate": 1.9894137003747404e-05,
	"loss": 1.0863,
	"step": 405
	},
	{
	"epoch": 0.43112513144058884,
	"grad_norm": 0.7035673344638229,
	"learning_rate": 1.988507149851699e-05,
	"loss": 1.0928,
	"step": 410
	},
	{
	"epoch": 0.4363827549947424,
	"grad_norm": 0.6366880839024881,
	"learning_rate": 1.987563585289808e-05,
	"loss": 1.0876,
	"step": 415
	},
	{
	"epoch": 0.4416403785488959,
	"grad_norm": 0.6724589905602705,
	"learning_rate": 1.9865830420202587e-05,
	"loss": 1.0814,
	"step": 420
	},
	{
	"epoch": 0.4468980021030494,
	"grad_norm": 0.7296112006903912,
	"learning_rate": 1.9855655567588877e-05,
	"loss": 1.0849,
	"step": 425
	},
	{
	"epoch": 0.45215562565720296,
	"grad_norm": 0.7301202009190912,
	"learning_rate": 1.984511167604801e-05,
	"loss": 1.0943,
	"step": 430
	},
	{
	"epoch": 0.45741324921135645,
	"grad_norm": 0.6728038801425467,
	"learning_rate": 1.9834199140389485e-05,
	"loss": 1.0958,
	"step": 435
	},
	{
	"epoch": 0.46267087276551,
	"grad_norm": 0.6461291574762016,
	"learning_rate": 1.982291836922645e-05,
	"loss": 1.0814,
	"step": 440
	},
	{
	"epoch": 0.4679284963196635,
	"grad_norm": 0.7354488392025322,
	"learning_rate": 1.9811269784960404e-05,
	"loss": 1.1019,
	"step": 445
	},
	{
	"epoch": 0.47318611987381703,
	"grad_norm": 0.871639557338332,
	"learning_rate": 1.9799253823765383e-05,
	"loss": 1.1006,
	"step": 450
	},
	{
	"epoch": 0.4784437434279706,
	"grad_norm": 0.7250167929947016,
	"learning_rate": 1.9786870935571617e-05,
	"loss": 1.0976,
	"step": 455
	},
	{
	"epoch": 0.48370136698212407,
	"grad_norm": 0.7624377086650501,
	"learning_rate": 1.97741215840487e-05,
	"loss": 1.073,
	"step": 460
	},
	{
	"epoch": 0.4889589905362776,
	"grad_norm": 0.7335919595002304,
	"learning_rate": 1.9761006246588217e-05,
	"loss": 1.0928,
	"step": 465
	},
	{
	"epoch": 0.4942166140904311,
	"grad_norm": 0.6382852192610631,
	"learning_rate": 1.9747525414285863e-05,
	"loss": 1.0945,
	"step": 470
	},
	{
	"epoch": 0.49947423764458465,
	"grad_norm": 0.718180529210079,
	"learning_rate": 1.9733679591923062e-05,
	"loss": 1.0749,
	"step": 475
	},
	{
	"epoch": 0.5047318611987381,
	"grad_norm": 0.6600718457016724,
	"learning_rate": 1.9719469297948076e-05,
	"loss": 1.1181,
	"step": 480
	},
	{
	"epoch": 0.5099894847528917,
	"grad_norm": 0.6689062165685349,
	"learning_rate": 1.9704895064456573e-05,
	"loss": 1.0952,
	"step": 485
	},
	{
	"epoch": 0.5152471083070452,
	"grad_norm": 0.7143276328895771,
	"learning_rate": 1.968995743717171e-05,
	"loss": 1.0896,
	"step": 490
	},
	{
	"epoch": 0.5205047318611987,
	"grad_norm": 0.6221294359823765,
	"learning_rate": 1.9674656975423704e-05,
	"loss": 1.0742,
	"step": 495
	},
	{
	"epoch": 0.5257623554153522,
	"grad_norm": 0.7268351101096144,
	"learning_rate": 1.9658994252128884e-05,
	"loss": 1.0898,
	"step": 500
	},
	{
	"epoch": 0.5257623554153522,
	"eval_loss": 1.091992974281311,
	"eval_runtime": 577.2656,
	"eval_samples_per_second": 23.312,
	"eval_steps_per_second": 0.184,
	"step": 500
	},
	{
	"epoch": 0.5310199789695058,
	"grad_norm": 0.7409815849447423,
	"learning_rate": 1.964296985376823e-05,
	"loss": 1.0785,
	"step": 505
	},
	{
	"epoch": 0.5362776025236593,
	"grad_norm": 0.7136236155581998,
	"learning_rate": 1.962658438036543e-05,
	"loss": 1.0983,
	"step": 510
	},
	{
	"epoch": 0.5415352260778128,
	"grad_norm": 0.7215624141555339,
	"learning_rate": 1.9609838445464406e-05,
	"loss": 1.1007,
	"step": 515
	},
	{
	"epoch": 0.5467928496319664,
	"grad_norm": 0.6979369948772214,
	"learning_rate": 1.959273267610633e-05,
	"loss": 1.0806,
	"step": 520
	},
	{
	"epoch": 0.5520504731861199,
	"grad_norm": 0.7255670203711404,
	"learning_rate": 1.9575267712806152e-05,
	"loss": 1.0753,
	"step": 525
	},
	{
	"epoch": 0.5573080967402734,
	"grad_norm": 0.6378781651024482,
	"learning_rate": 1.955744420952863e-05,
	"loss": 1.1001,
	"step": 530
	},
	{
	"epoch": 0.562565720294427,
	"grad_norm": 0.6440842622036477,
	"learning_rate": 1.9539262833663813e-05,
	"loss": 1.0867,
	"step": 535
	},
	{
	"epoch": 0.5678233438485805,
	"grad_norm": 0.650711077304966,
	"learning_rate": 1.9520724266002078e-05,
	"loss": 1.0861,
	"step": 540
	},
	{
	"epoch": 0.573080967402734,
	"grad_norm": 0.9412839294952584,
	"learning_rate": 1.9501829200708627e-05,
	"loss": 1.066,
	"step": 545
	},
	{
	"epoch": 0.5783385909568874,
	"grad_norm": 0.7997373349509072,
	"learning_rate": 1.948257834529749e-05,
	"loss": 1.0804,
	"step": 550
	},
	{
	"epoch": 0.583596214511041,
	"grad_norm": 0.6632970321629863,
	"learning_rate": 1.9462972420605045e-05,
	"loss": 1.0796,
	"step": 555
	},
	{
	"epoch": 0.5888538380651945,
	"grad_norm": 0.6907348547616222,
	"learning_rate": 1.9443012160763014e-05,
	"loss": 1.0914,
	"step": 560
	},
	{
	"epoch": 0.594111461619348,
	"grad_norm": 0.7602392699866063,
	"learning_rate": 1.9422698313170982e-05,
	"loss": 1.0782,
	"step": 565
	},
	{
	"epoch": 0.5993690851735016,
	"grad_norm": 0.7425506195668518,
	"learning_rate": 1.9402031638468407e-05,
	"loss": 1.0728,
	"step": 570
	},
	{
	"epoch": 0.6046267087276551,
	"grad_norm": 0.6057134136385478,
	"learning_rate": 1.9381012910506146e-05,
	"loss": 1.0944,
	"step": 575
	},
	{
	"epoch": 0.6098843322818086,
	"grad_norm": 0.611926050399381,
	"learning_rate": 1.935964291631746e-05,
	"loss": 1.0887,
	"step": 580
	},
	{
	"epoch": 0.6151419558359621,
	"grad_norm": 0.6044521957797464,
	"learning_rate": 1.933792245608857e-05,
	"loss": 1.0653,
	"step": 585
	},
	{
	"epoch": 0.6203995793901157,
	"grad_norm": 0.6160859598416025,
	"learning_rate": 1.9315852343128677e-05,
	"loss": 1.0697,
	"step": 590
	},
	{
	"epoch": 0.6256572029442692,
	"grad_norm": 0.6454926848454089,
	"learning_rate": 1.9293433403839506e-05,
	"loss": 1.0835,
	"step": 595
	},
	{
	"epoch": 0.6309148264984227,
	"grad_norm": 0.6271287719549755,
	"learning_rate": 1.9270666477684375e-05,
	"loss": 1.0749,
	"step": 600
	},
	{
	"epoch": 0.6309148264984227,
	"eval_loss": 1.0876203775405884,
	"eval_runtime": 619.1152,
	"eval_samples_per_second": 21.736,
	"eval_steps_per_second": 0.171,
	"step": 600
	},
	{
	"epoch": 0.6361724500525763,
	"grad_norm": 0.634393838535348,
	"learning_rate": 1.9247552417156758e-05,
	"loss": 1.0729,
	"step": 605
	},
	{
	"epoch": 0.6414300736067298,
	"grad_norm": 0.6594690945271786,
	"learning_rate": 1.9224092087748344e-05,
	"loss": 1.0827,
	"step": 610
	},
	{
	"epoch": 0.6466876971608833,
	"grad_norm": 0.611714575208264,
	"learning_rate": 1.920028636791667e-05,
	"loss": 1.0882,
	"step": 615
	},
	{
	"epoch": 0.6519453207150369,
	"grad_norm": 0.7463577820820205,
	"learning_rate": 1.9176136149052184e-05,
	"loss": 1.0756,
	"step": 620
	},
	{
	"epoch": 0.6572029442691903,
	"grad_norm": 0.5943822071057456,
	"learning_rate": 1.9151642335444894e-05,
	"loss": 1.0781,
	"step": 625
	},
	{
	"epoch": 0.6624605678233438,
	"grad_norm": 0.6478466639224281,
	"learning_rate": 1.9126805844250507e-05,
	"loss": 1.0799,
	"step": 630
	},
	{
	"epoch": 0.6677181913774973,
	"grad_norm": 1.125407499631879,
	"learning_rate": 1.910162760545607e-05,
	"loss": 1.0863,
	"step": 635
	},
	{
	"epoch": 0.6729758149316509,
	"grad_norm": 0.6317836803464292,
	"learning_rate": 1.9076108561845167e-05,
	"loss": 1.068,
	"step": 640
	},
	{
	"epoch": 0.6782334384858044,
	"grad_norm": 0.6782741352289255,
	"learning_rate": 1.90502496689626e-05,
	"loss": 1.0717,
	"step": 645
	},
	{
	"epoch": 0.6834910620399579,
	"grad_norm": 0.6549048073170591,
	"learning_rate": 1.902405189507862e-05,
	"loss": 1.0729,
	"step": 650
	},
	{
	"epoch": 0.6887486855941115,
	"grad_norm": 0.5944400668808439,
	"learning_rate": 1.899751622115267e-05,
	"loss": 1.073,
	"step": 655
	},
	{
	"epoch": 0.694006309148265,
	"grad_norm": 0.6344443790559094,
	"learning_rate": 1.8970643640796642e-05,
	"loss": 1.0765,
	"step": 660
	},
	{
	"epoch": 0.6992639327024185,
	"grad_norm": 0.6066328657447971,
	"learning_rate": 1.8943435160237693e-05,
	"loss": 1.068,
	"step": 665
	},
	{
	"epoch": 0.704521556256572,
	"grad_norm": 0.7935810543521484,
	"learning_rate": 1.8915891798280545e-05,
	"loss": 1.075,
	"step": 670
	},
	{
	"epoch": 0.7097791798107256,
	"grad_norm": 0.6311479883642119,
	"learning_rate": 1.8888014586269353e-05,
	"loss": 1.0605,
	"step": 675
	},
	{
	"epoch": 0.7150368033648791,
	"grad_norm": 0.6247754068444527,
	"learning_rate": 1.8859804568049083e-05,
	"loss": 1.0853,
	"step": 680
	},
	{
	"epoch": 0.7202944269190326,
	"grad_norm": 0.6133863303859032,
	"learning_rate": 1.8831262799926412e-05,
	"loss": 1.0751,
	"step": 685
	},
	{
	"epoch": 0.7255520504731862,
	"grad_norm": 0.6378281851358015,
	"learning_rate": 1.88023903506302e-05,
	"loss": 1.086,
	"step": 690
	},
	{
	"epoch": 0.7308096740273397,
	"grad_norm": 0.6695843196133265,
	"learning_rate": 1.8773188301271458e-05,
	"loss": 1.0655,
	"step": 695
	},
	{
	"epoch": 0.7360672975814931,
	"grad_norm": 0.6310578043108518,
	"learning_rate": 1.874365774530285e-05,
	"loss": 1.0847,
	"step": 700
	},
	{
	"epoch": 0.7360672975814931,
	"eval_loss": 1.083134412765503,
	"eval_runtime": 594.902,
	"eval_samples_per_second": 22.621,
	"eval_steps_per_second": 0.178,
	"step": 700
	},
	{
	"epoch": 0.7413249211356467,
	"grad_norm": 0.7538683907974313,
	"learning_rate": 1.8713799788477794e-05,
	"loss": 1.0691,
	"step": 705
	},
	{
	"epoch": 0.7465825446898002,
	"grad_norm": 0.706371524563473,
	"learning_rate": 1.8683615548809007e-05,
	"loss": 1.0654,
	"step": 710
	},
	{
	"epoch": 0.7518401682439537,
	"grad_norm": 0.7089836009644308,
	"learning_rate": 1.865310615652668e-05,
	"loss": 1.0732,
	"step": 715
	},
	{
	"epoch": 0.7570977917981072,
	"grad_norm": 0.6253449282146815,
	"learning_rate": 1.862227275403614e-05,
	"loss": 1.0595,
	"step": 720
	},
	{
	"epoch": 0.7623554153522608,
	"grad_norm": 0.6352792231235775,
	"learning_rate": 1.8591116495875065e-05,
	"loss": 1.0611,
	"step": 725
	},
	{
	"epoch": 0.7676130389064143,
	"grad_norm": 0.6559807547521417,
	"learning_rate": 1.8559638548670276e-05,
	"loss": 1.0772,
	"step": 730
	},
	{
	"epoch": 0.7728706624605678,
	"grad_norm": 0.660949169309788,
	"learning_rate": 1.8527840091094038e-05,
	"loss": 1.0723,
	"step": 735
	},
	{
	"epoch": 0.7781282860147214,
	"grad_norm": 0.6485292004090661,
	"learning_rate": 1.849572231381993e-05,
	"loss": 1.0756,
	"step": 740
	},
	{
	"epoch": 0.7833859095688749,
	"grad_norm": 0.5894518164357108,
	"learning_rate": 1.8463286419478256e-05,
	"loss": 1.0878,
	"step": 745
	},
	{
	"epoch": 0.7886435331230284,
	"grad_norm": 0.6373909243160687,
	"learning_rate": 1.843053362261102e-05,
	"loss": 1.0698,
	"step": 750
	},
	{
	"epoch": 0.7939011566771819,
	"grad_norm": 0.6247774742453552,
	"learning_rate": 1.8397465149626438e-05,
	"loss": 1.0689,
	"step": 755
	},
	{
	"epoch": 0.7991587802313355,
	"grad_norm": 0.6702489085237104,
	"learning_rate": 1.836408223875303e-05,
	"loss": 1.0878,
	"step": 760
	},
	{
	"epoch": 0.804416403785489,
	"grad_norm": 0.5901778445639561,
	"learning_rate": 1.8330386139993253e-05,
	"loss": 1.0615,
	"step": 765
	},
	{
	"epoch": 0.8096740273396424,
	"grad_norm": 0.5690160698641555,
	"learning_rate": 1.8296378115076683e-05,
	"loss": 1.0627,
	"step": 770
	},
	{
	"epoch": 0.814931650893796,
	"grad_norm": 0.7286612536078287,
	"learning_rate": 1.826205943741277e-05,
	"loss": 1.0599,
	"step": 775
	},
	{
	"epoch": 0.8201892744479495,
	"grad_norm": 0.6255138205467193,
	"learning_rate": 1.8227431392043188e-05,
	"loss": 1.0738,
	"step": 780
	},
	{
	"epoch": 0.825446898002103,
	"grad_norm": 0.6089376456915286,
	"learning_rate": 1.8192495275593667e-05,
	"loss": 1.0682,
	"step": 785
	},
	{
	"epoch": 0.8307045215562566,
	"grad_norm": 0.6155868150283563,
	"learning_rate": 1.8157252396225487e-05,
	"loss": 1.065,
	"step": 790
	},
	{
	"epoch": 0.8359621451104101,
	"grad_norm": 0.7289316735890606,
	"learning_rate": 1.812170407358647e-05,
	"loss": 1.0577,
	"step": 795
	},
	{
	"epoch": 0.8412197686645636,
	"grad_norm": 0.6194611530873854,
	"learning_rate": 1.8085851638761564e-05,
	"loss": 1.0749,
	"step": 800
	},
	{
	"epoch": 0.8412197686645636,
	"eval_loss": 1.0777511596679688,
	"eval_runtime": 578.5287,
	"eval_samples_per_second": 23.261,
	"eval_steps_per_second": 0.183,
	"step": 800
	},
	{
	"epoch": 0.8464773922187171,
	"grad_norm": 0.5897179737564566,
	"learning_rate": 1.8049696434223018e-05,
	"loss": 1.064,
	"step": 805
	},
	{
	"epoch": 0.8517350157728707,
	"grad_norm": 0.6249138645283078,
	"learning_rate": 1.801323981378011e-05,
	"loss": 1.0689,
	"step": 810
	},
	{
	"epoch": 0.8569926393270242,
	"grad_norm": 0.6094536651967496,
	"learning_rate": 1.797648314252844e-05,
	"loss": 1.0547,
	"step": 815
	},
	{
	"epoch": 0.8622502628811777,
	"grad_norm": 0.6427649229281082,
	"learning_rate": 1.7939427796798835e-05,
	"loss": 1.0709,
	"step": 820
	},
	{
	"epoch": 0.8675078864353313,
	"grad_norm": 0.625645109760211,
	"learning_rate": 1.790207516410579e-05,
	"loss": 1.0711,
	"step": 825
	},
	{
	"epoch": 0.8727655099894848,
	"grad_norm": 0.6900102876237034,
	"learning_rate": 1.7864426643095537e-05,
	"loss": 1.0551,
	"step": 830
	},
	{
	"epoch": 0.8780231335436383,
	"grad_norm": 0.6633694160119932,
	"learning_rate": 1.7826483643493664e-05,
	"loss": 1.0647,
	"step": 835
	},
	{
	"epoch": 0.8832807570977917,
	"grad_norm": 0.6706740933862908,
	"learning_rate": 1.7788247586052324e-05,
	"loss": 1.068,
	"step": 840
	},
	{
	"epoch": 0.8885383806519453,
	"grad_norm": 0.6147588746912578,
	"learning_rate": 1.774971990249703e-05,
	"loss": 1.0675,
	"step": 845
	},
	{
	"epoch": 0.8937960042060988,
	"grad_norm": 0.650347913047383,
	"learning_rate": 1.7710902035473075e-05,
	"loss": 1.0563,
	"step": 850
	},
	{
	"epoch": 0.8990536277602523,
	"grad_norm": 0.5896501069060196,
	"learning_rate": 1.7671795438491476e-05,
	"loss": 1.0549,
	"step": 855
	},
	{
	"epoch": 0.9043112513144059,
	"grad_norm": 0.5865757288759952,
	"learning_rate": 1.763240157587457e-05,
	"loss": 1.074,
	"step": 860
	},
	{
	"epoch": 0.9095688748685594,
	"grad_norm": 0.6448523425472431,
	"learning_rate": 1.759272192270118e-05,
	"loss": 1.0406,
	"step": 865
	},
	{
	"epoch": 0.9148264984227129,
	"grad_norm": 0.628930087369231,
	"learning_rate": 1.7552757964751375e-05,
	"loss": 1.0604,
	"step": 870
	},
	{
	"epoch": 0.9200841219768665,
	"grad_norm": 0.5573844980993936,
	"learning_rate": 1.751251119845085e-05,
	"loss": 1.0712,
	"step": 875
	},
	{
	"epoch": 0.92534174553102,
	"grad_norm": 0.5760631844651097,
	"learning_rate": 1.7471983130814872e-05,
	"loss": 1.0677,
	"step": 880
	},
	{
	"epoch": 0.9305993690851735,
	"grad_norm": 0.6608474625527273,
	"learning_rate": 1.7431175279391864e-05,
	"loss": 1.0564,
	"step": 885
	},
	{
	"epoch": 0.935856992639327,
	"grad_norm": 0.6158122817932856,
	"learning_rate": 1.7390089172206594e-05,
	"loss": 1.0698,
	"step": 890
	},
	{
	"epoch": 0.9411146161934806,
	"grad_norm": 0.6348226976928315,
	"learning_rate": 1.7348726347702922e-05,
	"loss": 1.0541,
	"step": 895
	},
	{
	"epoch": 0.9463722397476341,
	"grad_norm": 0.5893951119046926,
	"learning_rate": 1.730708835468624e-05,
	"loss": 1.055,
	"step": 900
	},
	{
	"epoch": 0.9463722397476341,
	"eval_loss": 1.0719902515411377,
	"eval_runtime": 554.5404,
	"eval_samples_per_second": 24.267,
	"eval_steps_per_second": 0.191,
	"step": 900
	},
	{
	"epoch": 0.9516298633017876,
	"grad_norm": 0.6398319094636862,
	"learning_rate": 1.7265176752265437e-05,
	"loss": 1.0606,
	"step": 905
	},
	{
	"epoch": 0.9568874868559412,
	"grad_norm": 0.6048116978972946,
	"learning_rate": 1.7222993109794547e-05,
	"loss": 1.0602,
	"step": 910
	},
	{
	"epoch": 0.9621451104100947,
	"grad_norm": 0.5840246341713026,
	"learning_rate": 1.7180539006813973e-05,
	"loss": 1.0479,
	"step": 915
	},
	{
	"epoch": 0.9674027339642481,
	"grad_norm": 0.5778229669814231,
	"learning_rate": 1.7137816032991338e-05,
	"loss": 1.0552,
	"step": 920
	},
	{
	"epoch": 0.9726603575184016,
	"grad_norm": 0.599559903007225,
	"learning_rate": 1.7094825788061984e-05,
	"loss": 1.0602,
	"step": 925
	},
	{
	"epoch": 0.9779179810725552,
	"grad_norm": 0.6085935007813816,
	"learning_rate": 1.7051569881769033e-05,
	"loss": 1.0702,
	"step": 930
	},
	{
	"epoch": 0.9831756046267087,
	"grad_norm": 0.6210127216958851,
	"learning_rate": 1.7008049933803153e-05,
	"loss": 1.0562,
	"step": 935
	},
	{
	"epoch": 0.9884332281808622,
	"grad_norm": 0.5660970609343743,
	"learning_rate": 1.696426757374187e-05,
	"loss": 1.0488,
	"step": 940
	},
	{
	"epoch": 0.9936908517350158,
	"grad_norm": 0.6052820312725565,
	"learning_rate": 1.6920224440988578e-05,
	"loss": 1.0579,
	"step": 945
	},
	{
	"epoch": 0.9989484752891693,
	"grad_norm": 0.6336659141670167,
	"learning_rate": 1.6875922184711152e-05,
	"loss": 1.0391,
	"step": 950
	},
	{
	"epoch": 1.0042060988433228,
	"grad_norm": 0.8649311407022923,
	"learning_rate": 1.6831362463780173e-05,
	"loss": 0.9427,
	"step": 955
	},
	{
	"epoch": 1.0094637223974763,
	"grad_norm": 0.7906840430230622,
	"learning_rate": 1.6786546946706826e-05,
	"loss": 0.9093,
	"step": 960
	},
	{
	"epoch": 1.0147213459516298,
	"grad_norm": 0.7615451637281871,
	"learning_rate": 1.6741477311580442e-05,
	"loss": 0.9129,
	"step": 965
	},
	{
	"epoch": 1.0199789695057835,
	"grad_norm": 0.81395189037578,
	"learning_rate": 1.669615524600562e-05,
	"loss": 0.9116,
	"step": 970
	},
	{
	"epoch": 1.025236593059937,
	"grad_norm": 0.6675565867389684,
	"learning_rate": 1.6650582447039087e-05,
	"loss": 0.897,
	"step": 975
	},
	{
	"epoch": 1.0304942166140905,
	"grad_norm": 0.6558457233521835,
	"learning_rate": 1.6604760621126104e-05,
	"loss": 0.9059,
	"step": 980
	},
	{
	"epoch": 1.035751840168244,
	"grad_norm": 0.791116301575079,
	"learning_rate": 1.655869148403661e-05,
	"loss": 0.9123,
	"step": 985
	},
	{
	"epoch": 1.0410094637223974,
	"grad_norm": 0.6281691549427542,
	"learning_rate": 1.6512376760800943e-05,
	"loss": 0.9165,
	"step": 990
	},
	{
	"epoch": 1.046267087276551,
	"grad_norm": 0.722210053446233,
	"learning_rate": 1.646581818564528e-05,
	"loss": 0.8885,
	"step": 995
	},
	{
	"epoch": 1.0515247108307044,
	"grad_norm": 0.6566766982009167,
	"learning_rate": 1.641901750192666e-05,
	"loss": 0.9184,
	"step": 1000
	},
	{
	"epoch": 1.0515247108307044,
	"eval_loss": 1.0817060470581055,
	"eval_runtime": 548.8481,
	"eval_samples_per_second": 24.519,
	"eval_steps_per_second": 0.193,
	"step": 1000
	},
	{
	"epoch": 1.0567823343848581,
	"grad_norm": 0.7215682123240776,
	"learning_rate": 1.6371976462067744e-05,
	"loss": 0.9048,
	"step": 1005
	},
	{
	"epoch": 1.0620399579390116,
	"grad_norm": 0.5754913559382355,
	"learning_rate": 1.6324696827491178e-05,
	"loss": 0.9062,
	"step": 1010
	},
	{
	"epoch": 1.0672975814931651,
	"grad_norm": 0.7713724891213452,
	"learning_rate": 1.6277180368553637e-05,
	"loss": 0.9003,
	"step": 1015
	},
	{
	"epoch": 1.0725552050473186,
	"grad_norm": 0.6705202466831766,
	"learning_rate": 1.622942886447953e-05,
	"loss": 0.9076,
	"step": 1020
	},
	{
	"epoch": 1.077812828601472,
	"grad_norm": 0.7709385226269342,
	"learning_rate": 1.6181444103294405e-05,
	"loss": 0.9016,
	"step": 1025
	},
	{
	"epoch": 1.0830704521556256,
	"grad_norm": 0.6618094790250554,
	"learning_rate": 1.613322788175796e-05,
	"loss": 0.9087,
	"step": 1030
	},
	{
	"epoch": 1.088328075709779,
	"grad_norm": 0.7111642531915952,
	"learning_rate": 1.608478200529679e-05,
	"loss": 0.8993,
	"step": 1035
	},
	{
	"epoch": 1.0935856992639328,
	"grad_norm": 0.9967278615618546,
	"learning_rate": 1.6036108287936774e-05,
	"loss": 0.9053,
	"step": 1040
	},
	{
	"epoch": 1.0988433228180863,
	"grad_norm": 0.7211016358920939,
	"learning_rate": 1.598720855223516e-05,
	"loss": 0.8967,
	"step": 1045
	},
	{
	"epoch": 1.1041009463722398,
	"grad_norm": 0.681965857428634,
	"learning_rate": 1.5938084629212308e-05,
	"loss": 0.9069,
	"step": 1050
	},
	{
	"epoch": 1.1093585699263933,
	"grad_norm": 0.7296745556202008,
	"learning_rate": 1.5888738358283125e-05,
	"loss": 0.8918,
	"step": 1055
	},
	{
	"epoch": 1.1146161934805467,
	"grad_norm": 0.6472282910374098,
	"learning_rate": 1.5839171587188213e-05,
	"loss": 0.8953,
	"step": 1060
	},
	{
	"epoch": 1.1198738170347002,
	"grad_norm": 0.6420578981972046,
	"learning_rate": 1.5789386171924656e-05,
	"loss": 0.9185,
	"step": 1065
	},
	{
	"epoch": 1.125131440588854,
	"grad_norm": 0.6592365438130466,
	"learning_rate": 1.5739383976676538e-05,
	"loss": 0.9338,
	"step": 1070
	},
	{
	"epoch": 1.1303890641430074,
	"grad_norm": 0.6668713420054354,
	"learning_rate": 1.5689166873745133e-05,
	"loss": 0.9071,
	"step": 1075
	},
	{
	"epoch": 1.135646687697161,
	"grad_norm": 0.6314319656757978,
	"learning_rate": 1.5638736743478807e-05,
	"loss": 0.9094,
	"step": 1080
	},
	{
	"epoch": 1.1409043112513144,
	"grad_norm": 0.6557318538936868,
	"learning_rate": 1.5588095474202597e-05,
	"loss": 0.9056,
	"step": 1085
	},
	{
	"epoch": 1.146161934805468,
	"grad_norm": 0.6988942180423913,
	"learning_rate": 1.55372449621475e-05,
	"loss": 0.9093,
	"step": 1090
	},
	{
	"epoch": 1.1514195583596214,
	"grad_norm": 0.6288925365676942,
	"learning_rate": 1.54861871113795e-05,
	"loss": 0.8931,
	"step": 1095
	},
	{
	"epoch": 1.1566771819137749,
	"grad_norm": 0.6060978130757313,
	"learning_rate": 1.5434923833728238e-05,
	"loss": 0.8955,
	"step": 1100
	},
	{
	"epoch": 1.1566771819137749,
	"eval_loss": 1.0778801441192627,
	"eval_runtime": 560.7689,
	"eval_samples_per_second": 23.997,
	"eval_steps_per_second": 0.189,
	"step": 1100
	},
	{
	"epoch": 1.1619348054679284,
	"grad_norm": 0.636138975576772,
	"learning_rate": 1.538345704871544e-05,
	"loss": 0.9164,
	"step": 1105
	},
	{
	"epoch": 1.167192429022082,
	"grad_norm": 0.7813214708227075,
	"learning_rate": 1.533178868348304e-05,
	"loss": 0.9123,
	"step": 1110
	},
	{
	"epoch": 1.1724500525762356,
	"grad_norm": 0.6454922302300423,
	"learning_rate": 1.5279920672721014e-05,
	"loss": 0.9096,
	"step": 1115
	},
	{
	"epoch": 1.177707676130389,
	"grad_norm": 0.6684532969652581,
	"learning_rate": 1.522785495859495e-05,
	"loss": 0.913,
	"step": 1120
	},
	{
	"epoch": 1.1829652996845426,
	"grad_norm": 0.659104192691736,
	"learning_rate": 1.517559349067331e-05,
	"loss": 0.9127,
	"step": 1125
	},
	{
	"epoch": 1.188222923238696,
	"grad_norm": 0.6327096229416864,
	"learning_rate": 1.5123138225854437e-05,
	"loss": 0.9179,
	"step": 1130
	},
	{
	"epoch": 1.1934805467928495,
	"grad_norm": 0.6821427010599724,
	"learning_rate": 1.507049112829328e-05,
	"loss": 0.916,
	"step": 1135
	},
	{
	"epoch": 1.1987381703470033,
	"grad_norm": 0.6383663706263557,
	"learning_rate": 1.5017654169327847e-05,
	"loss": 0.9205,
	"step": 1140
	},
	{
	"epoch": 1.2039957939011567,
	"grad_norm": 0.6642751432840621,
	"learning_rate": 1.4964629327405385e-05,
	"loss": 0.9064,
	"step": 1145
	},
	{
	"epoch": 1.2092534174553102,
	"grad_norm": 0.6370926988086576,
	"learning_rate": 1.4911418588008302e-05,
	"loss": 0.9009,
	"step": 1150
	},
	{
	"epoch": 1.2145110410094637,
	"grad_norm": 0.6726809074089126,
	"learning_rate": 1.4858023943579831e-05,
	"loss": 0.9177,
	"step": 1155
	},
	{
	"epoch": 1.2197686645636172,
	"grad_norm": 0.6624168311883211,
	"learning_rate": 1.4804447393449408e-05,
	"loss": 0.9008,
	"step": 1160
	},
	{
	"epoch": 1.2250262881177707,
	"grad_norm": 0.6736191492385858,
	"learning_rate": 1.4750690943757815e-05,
	"loss": 0.9177,
	"step": 1165
	},
	{
	"epoch": 1.2302839116719242,
	"grad_norm": 0.6626164162916314,
	"learning_rate": 1.469675660738206e-05,
	"loss": 0.9125,
	"step": 1170
	},
	{
	"epoch": 1.235541535226078,
	"grad_norm": 0.6561095205909978,
	"learning_rate": 1.4642646403860017e-05,
	"loss": 0.9224,
	"step": 1175
	},
	{
	"epoch": 1.2407991587802314,
	"grad_norm": 0.6404857197573285,
	"learning_rate": 1.4588362359314787e-05,
	"loss": 0.9147,
	"step": 1180
	},
	{
	"epoch": 1.2460567823343849,
	"grad_norm": 0.6247458161762777,
	"learning_rate": 1.453390650637884e-05,
	"loss": 0.9055,
	"step": 1185
	},
	{
	"epoch": 1.2513144058885384,
	"grad_norm": 0.6205798650094878,
	"learning_rate": 1.4479280884117919e-05,
	"loss": 0.9098,
	"step": 1190
	},
	{
	"epoch": 1.2565720294426919,
	"grad_norm": 0.6171085702613818,
	"learning_rate": 1.4424487537954658e-05,
	"loss": 0.9086,
	"step": 1195
	},
	{
	"epoch": 1.2618296529968454,
	"grad_norm": 0.6817002284070426,
	"learning_rate": 1.4369528519592016e-05,
	"loss": 0.914,
	"step": 1200
	},
	{
	"epoch": 1.2618296529968454,
	"eval_loss": 1.0758436918258667,
	"eval_runtime": 554.9555,
	"eval_samples_per_second": 24.249,
	"eval_steps_per_second": 0.191,
	"step": 1200
	},
	{
	"epoch": 1.267087276550999,
	"grad_norm": 0.6556393089241064,
	"learning_rate": 1.4314405886936444e-05,
	"loss": 0.907,
	"step": 1205
	},
	{
	"epoch": 1.2723449001051526,
	"grad_norm": 0.6564247019338768,
	"learning_rate": 1.425912170402083e-05,
	"loss": 0.8947,
	"step": 1210
	},
	{
	"epoch": 1.277602523659306,
	"grad_norm": 0.6909745550376631,
	"learning_rate": 1.4203678040927211e-05,
	"loss": 0.9015,
	"step": 1215
	},
	{
	"epoch": 1.2828601472134595,
	"grad_norm": 0.6649938010634878,
	"learning_rate": 1.414807697370926e-05,
	"loss": 0.9147,
	"step": 1220
	},
	{
	"epoch": 1.288117770767613,
	"grad_norm": 0.6827602346821062,
	"learning_rate": 1.4092320584314552e-05,
	"loss": 0.9223,
	"step": 1225
	},
	{
	"epoch": 1.2933753943217665,
	"grad_norm": 0.6891969548538285,
	"learning_rate": 1.4036410960506601e-05,
	"loss": 0.909,
	"step": 1230
	},
	{
	"epoch": 1.29863301787592,
	"grad_norm": 0.7488612526253159,
	"learning_rate": 1.3980350195786691e-05,
	"loss": 0.9063,
	"step": 1235
	},
	{
	"epoch": 1.3038906414300735,
	"grad_norm": 0.8765777386899024,
	"learning_rate": 1.3924140389315488e-05,
	"loss": 0.8949,
	"step": 1240
	},
	{
	"epoch": 1.3091482649842272,
	"grad_norm": 0.6756135072464465,
	"learning_rate": 1.3867783645834428e-05,
	"loss": 0.9173,
	"step": 1245
	},
	{
	"epoch": 1.3144058885383807,
	"grad_norm": 0.6511543641668399,
	"learning_rate": 1.3811282075586916e-05,
	"loss": 0.9075,
	"step": 1250
	},
	{
	"epoch": 1.3196635120925342,
	"grad_norm": 0.6171780710166301,
	"learning_rate": 1.3754637794239303e-05,
	"loss": 0.8977,
	"step": 1255
	},
	{
	"epoch": 1.3249211356466877,
	"grad_norm": 0.658721220404947,
	"learning_rate": 1.3697852922801669e-05,
	"loss": 0.9072,
	"step": 1260
	},
	{
	"epoch": 1.3301787592008412,
	"grad_norm": 0.6417444192429201,
	"learning_rate": 1.3640929587548403e-05,
	"loss": 0.9091,
	"step": 1265
	},
	{
	"epoch": 1.3354363827549949,
	"grad_norm": 0.6187189724748463,
	"learning_rate": 1.3583869919938597e-05,
	"loss": 0.9129,
	"step": 1270
	},
	{
	"epoch": 1.3406940063091484,
	"grad_norm": 0.5843959371785157,
	"learning_rate": 1.3526676056536205e-05,
	"loss": 0.9092,
	"step": 1275
	},
	{
	"epoch": 1.3459516298633019,
	"grad_norm": 0.6932618289744372,
	"learning_rate": 1.3469350138930073e-05,
	"loss": 0.9079,
	"step": 1280
	},
	{
	"epoch": 1.3512092534174553,
	"grad_norm": 0.6598615985676897,
	"learning_rate": 1.3411894313653727e-05,
	"loss": 0.8944,
	"step": 1285
	},
	{
	"epoch": 1.3564668769716088,
	"grad_norm": 0.6427748827555393,
	"learning_rate": 1.3354310732105014e-05,
	"loss": 0.898,
	"step": 1290
	},
	{
	"epoch": 1.3617245005257623,
	"grad_norm": 0.6121349209877303,
	"learning_rate": 1.3296601550465525e-05,
	"loss": 0.909,
	"step": 1295
	},
	{
	"epoch": 1.3669821240799158,
	"grad_norm": 0.6575524447093695,
	"learning_rate": 1.3238768929619874e-05,
	"loss": 0.9098,
	"step": 1300
	},
	{
	"epoch": 1.3669821240799158,
	"eval_loss": 1.069818139076233,
	"eval_runtime": 559.1797,
	"eval_samples_per_second": 24.066,
	"eval_steps_per_second": 0.19,
	"step": 1300
	},
	{
	"epoch": 1.3722397476340693,
	"grad_norm": 0.6531825341664897,
	"learning_rate": 1.3180815035074786e-05,
	"loss": 0.9171,
	"step": 1305
	},
	{
	"epoch": 1.3774973711882228,
	"grad_norm": 0.6882987706313063,
	"learning_rate": 1.3122742036877994e-05,
	"loss": 0.8888,
	"step": 1310
	},
	{
	"epoch": 1.3827549947423765,
	"grad_norm": 0.724082633852385,
	"learning_rate": 1.3064552109537e-05,
	"loss": 0.896,
	"step": 1315
	},
	{
	"epoch": 1.38801261829653,
	"grad_norm": 0.6895669186673943,
	"learning_rate": 1.3006247431937644e-05,
	"loss": 0.925,
	"step": 1320
	},
	{
	"epoch": 1.3932702418506835,
	"grad_norm": 0.6718431536804129,
	"learning_rate": 1.2947830187262514e-05,
	"loss": 0.9099,
	"step": 1325
	},
	{
	"epoch": 1.398527865404837,
	"grad_norm": 0.688445352407702,
	"learning_rate": 1.2889302562909214e-05,
	"loss": 0.8949,
	"step": 1330
	},
	{
	"epoch": 1.4037854889589905,
	"grad_norm": 0.6016293866381901,
	"learning_rate": 1.2830666750408434e-05,
	"loss": 0.9015,
	"step": 1335
	},
	{
	"epoch": 1.4090431125131442,
	"grad_norm": 0.6182893633299666,
	"learning_rate": 1.2771924945341906e-05,
	"loss": 0.9075,
	"step": 1340
	},
	{
	"epoch": 1.4143007360672977,
	"grad_norm": 0.6593893582600123,
	"learning_rate": 1.2713079347260198e-05,
	"loss": 0.8963,
	"step": 1345
	},
	{
	"epoch": 1.4195583596214512,
	"grad_norm": 0.6688143172592789,
	"learning_rate": 1.2654132159600327e-05,
	"loss": 0.9021,
	"step": 1350
	},
	{
	"epoch": 1.4248159831756047,
	"grad_norm": 0.6250269029897194,
	"learning_rate": 1.2595085589603281e-05,
	"loss": 0.9001,
	"step": 1355
	},
	{
	"epoch": 1.4300736067297581,
	"grad_norm": 0.6184329559921266,
	"learning_rate": 1.2535941848231352e-05,
	"loss": 0.8931,
	"step": 1360
	},
	{
	"epoch": 1.4353312302839116,
	"grad_norm": 0.6598155701237914,
	"learning_rate": 1.2476703150085356e-05,
	"loss": 0.9046,
	"step": 1365
	},
	{
	"epoch": 1.4405888538380651,
	"grad_norm": 0.6728059285538895,
	"learning_rate": 1.2417371713321713e-05,
	"loss": 0.9081,
	"step": 1370
	},
	{
	"epoch": 1.4458464773922186,
	"grad_norm": 0.6795053004000011,
	"learning_rate": 1.2357949759569372e-05,
	"loss": 0.8935,
	"step": 1375
	},
	{
	"epoch": 1.4511041009463723,
	"grad_norm": 0.6370835079324721,
	"learning_rate": 1.2298439513846634e-05,
	"loss": 0.9134,
	"step": 1380
	},
	{
	"epoch": 1.4563617245005258,
	"grad_norm": 0.6511674325575209,
	"learning_rate": 1.2238843204477855e-05,
	"loss": 0.9025,
	"step": 1385
	},
	{
	"epoch": 1.4616193480546793,
	"grad_norm": 0.6486276822993603,
	"learning_rate": 1.2179163063009974e-05,
	"loss": 0.9084,
	"step": 1390
	},
	{
	"epoch": 1.4668769716088328,
	"grad_norm": 0.6375900541444521,
	"learning_rate": 1.2119401324128976e-05,
	"loss": 0.892,
	"step": 1395
	},
	{
	"epoch": 1.4721345951629863,
	"grad_norm": 0.6636437536958206,
	"learning_rate": 1.2059560225576212e-05,
	"loss": 0.9126,
	"step": 1400
	},
	{
	"epoch": 1.4721345951629863,
	"eval_loss": 1.066650629043579,
	"eval_runtime": 578.6632,
	"eval_samples_per_second": 23.255,
	"eval_steps_per_second": 0.183,
	"step": 1400
	},
	{
	"epoch": 1.4773922187171398,
	"grad_norm": 0.6880602268392096,
	"learning_rate": 1.1999642008064612e-05,
	"loss": 0.9133,
	"step": 1405
	},
	{
	"epoch": 1.4826498422712935,
	"grad_norm": 0.6439745800900593,
	"learning_rate": 1.1939648915194766e-05,
	"loss": 0.8956,
	"step": 1410
	},
	{
	"epoch": 1.487907465825447,
	"grad_norm": 0.6333947925789535,
	"learning_rate": 1.1879583193370934e-05,
	"loss": 0.8967,
	"step": 1415
	},
	{
	"epoch": 1.4931650893796005,
	"grad_norm": 0.6887095313857406,
	"learning_rate": 1.1819447091716918e-05,
	"loss": 0.8953,
	"step": 1420
	},
	{
	"epoch": 1.498422712933754,
	"grad_norm": 0.8314454423988585,
	"learning_rate": 1.1759242861991855e-05,
	"loss": 0.9061,
	"step": 1425
	},
	{
	"epoch": 1.5036803364879074,
	"grad_norm": 0.6207340757493971,
	"learning_rate": 1.1698972758505891e-05,
	"loss": 0.884,
	"step": 1430
	},
	{
	"epoch": 1.508937960042061,
	"grad_norm": 0.6356005817235517,
	"learning_rate": 1.1638639038035771e-05,
	"loss": 0.9056,
	"step": 1435
	},
	{
	"epoch": 1.5141955835962144,
	"grad_norm": 0.6341731273814719,
	"learning_rate": 1.1578243959740345e-05,
	"loss": 0.8926,
	"step": 1440
	},
	{
	"epoch": 1.519453207150368,
	"grad_norm": 0.6524260051325438,
	"learning_rate": 1.1517789785075965e-05,
	"loss": 0.8925,
	"step": 1445
	},
	{
	"epoch": 1.5247108307045214,
	"grad_norm": 0.6390976768866661,
	"learning_rate": 1.1457278777711816e-05,
	"loss": 0.896,
	"step": 1450
	},
	{
	"epoch": 1.5299684542586751,
	"grad_norm": 0.672745789784435,
	"learning_rate": 1.139671320344514e-05,
	"loss": 0.8919,
	"step": 1455
	},
	{
	"epoch": 1.5352260778128286,
	"grad_norm": 0.6849640495250097,
	"learning_rate": 1.1336095330116406e-05,
	"loss": 0.8908,
	"step": 1460
	},
	{
	"epoch": 1.540483701366982,
	"grad_norm": 0.6909452334309092,
	"learning_rate": 1.127542742752439e-05,
	"loss": 0.901,
	"step": 1465
	},
	{
	"epoch": 1.5457413249211358,
	"grad_norm": 0.6514347502639167,
	"learning_rate": 1.1214711767341184e-05,
	"loss": 0.8886,
	"step": 1470
	},
	{
	"epoch": 1.5509989484752893,
	"grad_norm": 0.7670979545467012,
	"learning_rate": 1.1153950623027127e-05,
	"loss": 0.8915,
	"step": 1475
	},
	{
	"epoch": 1.5562565720294428,
	"grad_norm": 0.7094429002966973,
	"learning_rate": 1.1093146269745694e-05,
	"loss": 0.8986,
	"step": 1480
	},
	{
	"epoch": 1.5615141955835963,
	"grad_norm": 0.7040092519773771,
	"learning_rate": 1.1032300984278286e-05,
	"loss": 0.8995,
	"step": 1485
	},
	{
	"epoch": 1.5667718191377498,
	"grad_norm": 0.6717747776159033,
	"learning_rate": 1.0971417044938984e-05,
	"loss": 0.8894,
	"step": 1490
	},
	{
	"epoch": 1.5720294426919033,
	"grad_norm": 0.6111734491076107,
	"learning_rate": 1.091049673148924e-05,
	"loss": 0.8903,
	"step": 1495
	},
	{
	"epoch": 1.5772870662460567,
	"grad_norm": 0.6339144886316356,
	"learning_rate": 1.0849542325052514e-05,
	"loss": 0.9032,
	"step": 1500
	},
	{
	"epoch": 1.5772870662460567,
	"eval_loss": 1.060400366783142,
	"eval_runtime": 553.3344,
	"eval_samples_per_second": 24.32,
	"eval_steps_per_second": 0.192,
	"step": 1500
	},
	{
	"epoch": 1.5825446898002102,
	"grad_norm": 0.6119889525138412,
	"learning_rate": 1.0788556108028854e-05,
	"loss": 0.9059,
	"step": 1505
	},
	{
	"epoch": 1.5878023133543637,
	"grad_norm": 0.6610719745391888,
	"learning_rate": 1.072754036400944e-05,
	"loss": 0.8845,
	"step": 1510
	},
	{
	"epoch": 1.5930599369085172,
	"grad_norm": 0.6334246363490683,
	"learning_rate": 1.0666497377691067e-05,
	"loss": 0.909,
	"step": 1515
	},
	{
	"epoch": 1.598317560462671,
	"grad_norm": 0.6600607162051635,
	"learning_rate": 1.0605429434790607e-05,
	"loss": 0.9101,
	"step": 1520
	},
	{
	"epoch": 1.6035751840168244,
	"grad_norm": 0.6624807422048473,
	"learning_rate": 1.0544338821959407e-05,
	"loss": 0.8918,
	"step": 1525
	},
	{
	"epoch": 1.608832807570978,
	"grad_norm": 0.6540415860179337,
	"learning_rate": 1.0483227826697686e-05,
	"loss": 0.902,
	"step": 1530
	},
	{
	"epoch": 1.6140904311251314,
	"grad_norm": 0.6339684794581751,
	"learning_rate": 1.0422098737268862e-05,
	"loss": 0.9047,
	"step": 1535
	},
	{
	"epoch": 1.619348054679285,
	"grad_norm": 0.63411282308358,
	"learning_rate": 1.0360953842613886e-05,
	"loss": 0.9106,
	"step": 1540
	},
	{
	"epoch": 1.6246056782334386,
	"grad_norm": 0.6246624939138397,
	"learning_rate": 1.0299795432265516e-05,
	"loss": 0.8941,
	"step": 1545
	},
	{
	"epoch": 1.629863301787592,
	"grad_norm": 0.6422075365217625,
	"learning_rate": 1.0238625796262604e-05,
	"loss": 0.8969,
	"step": 1550
	},
	{
	"epoch": 1.6351209253417456,
	"grad_norm": 0.641718675847965,
	"learning_rate": 1.0177447225064334e-05,
	"loss": 0.8932,
	"step": 1555
	},
	{
	"epoch": 1.640378548895899,
	"grad_norm": 0.6996379461819543,
	"learning_rate": 1.0116262009464475e-05,
	"loss": 0.8988,
	"step": 1560
	},
	{
	"epoch": 1.6456361724500526,
	"grad_norm": 0.6496660294162664,
	"learning_rate": 1.0055072440505576e-05,
	"loss": 0.8857,
	"step": 1565
	},
	{
	"epoch": 1.650893796004206,
	"grad_norm": 0.6913136358312865,
	"learning_rate": 9.993880809393203e-06,
	"loss": 0.8953,
	"step": 1570
	},
	{
	"epoch": 1.6561514195583595,
	"grad_norm": 0.6323428927883549,
	"learning_rate": 9.932689407410136e-06,
	"loss": 0.894,
	"step": 1575
	},
	{
	"epoch": 1.661409043112513,
	"grad_norm": 0.7165826659774039,
	"learning_rate": 9.871500525830581e-06,
	"loss": 0.8946,
	"step": 1580
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.6630355223364007,
	"learning_rate": 9.810316455834359e-06,
	"loss": 0.8907,
	"step": 1585
	},
	{
	"epoch": 1.6719242902208202,
	"grad_norm": 0.6096362135364939,
	"learning_rate": 9.749139488421133e-06,
	"loss": 0.893,
	"step": 1590
	},
	{
	"epoch": 1.6771819137749737,
	"grad_norm": 0.6414609478289887,
	"learning_rate": 9.687971914324607e-06,
	"loss": 0.897,
	"step": 1595
	},
	{
	"epoch": 1.6824395373291272,
	"grad_norm": 0.6909628111495161,
	"learning_rate": 9.626816023926771e-06,
	"loss": 0.8882,
	"step": 1600
	},
	{
	"epoch": 1.6824395373291272,
	"eval_loss": 1.054638385772705,
	"eval_runtime": 554.7908,
	"eval_samples_per_second": 24.256,
	"eval_steps_per_second": 0.191,
	"step": 1600
	},
	{
	"epoch": 1.687697160883281,
	"grad_norm": 0.658967287448874,
	"learning_rate": 9.565674107172109e-06,
	"loss": 0.8963,
	"step": 1605
	},
	{
	"epoch": 1.6929547844374344,
	"grad_norm": 0.671113099618244,
	"learning_rate": 9.504548453481875e-06,
	"loss": 0.9006,
	"step": 1610
	},
	{
	"epoch": 1.698212407991588,
	"grad_norm": 0.6356681511467472,
	"learning_rate": 9.443441351668375e-06,
	"loss": 0.8855,
	"step": 1615
	},
	{
	"epoch": 1.7034700315457414,
	"grad_norm": 0.6733155642148883,
	"learning_rate": 9.382355089849235e-06,
	"loss": 0.8918,
	"step": 1620
	},
	{
	"epoch": 1.7087276550998949,
	"grad_norm": 0.6923042640634246,
	"learning_rate": 9.321291955361756e-06,
	"loss": 0.8933,
	"step": 1625
	},
	{
	"epoch": 1.7139852786540484,
	"grad_norm": 0.6424747471753014,
	"learning_rate": 9.260254234677235e-06,
	"loss": 0.8816,
	"step": 1630
	},
	{
	"epoch": 1.7192429022082019,
	"grad_norm": 0.6144029954554266,
	"learning_rate": 9.199244213315377e-06,
	"loss": 0.8905,
	"step": 1635
	},
	{
	"epoch": 1.7245005257623554,
	"grad_norm": 0.6170077707358106,
	"learning_rate": 9.138264175758693e-06,
	"loss": 0.8863,
	"step": 1640
	},
	{
	"epoch": 1.7297581493165088,
	"grad_norm": 0.6197301026220858,
	"learning_rate": 9.07731640536698e-06,
	"loss": 0.8796,
	"step": 1645
	},
	{
	"epoch": 1.7350157728706623,
	"grad_norm": 0.6643068163348533,
	"learning_rate": 9.016403184291805e-06,
	"loss": 0.8908,
	"step": 1650
	},
	{
	"epoch": 1.7402733964248158,
	"grad_norm": 0.5938702426426252,
	"learning_rate": 8.955526793391049e-06,
	"loss": 0.8902,
	"step": 1655
	},
	{
	"epoch": 1.7455310199789695,
	"grad_norm": 0.6474013520993763,
	"learning_rate": 8.894689512143528e-06,
	"loss": 0.8862,
	"step": 1660
	},
	{
	"epoch": 1.750788643533123,
	"grad_norm": 0.6350300886593221,
	"learning_rate": 8.833893618563604e-06,
	"loss": 0.8847,
	"step": 1665
	},
	{
	"epoch": 1.7560462670872765,
	"grad_norm": 0.6377181777254709,
	"learning_rate": 8.773141389115914e-06,
	"loss": 0.8865,
	"step": 1670
	},
	{
	"epoch": 1.7613038906414302,
	"grad_norm": 0.6115861001350186,
	"learning_rate": 8.712435098630116e-06,
	"loss": 0.8863,
	"step": 1675
	},
	{
	"epoch": 1.7665615141955837,
	"grad_norm": 0.6631610912721477,
	"learning_rate": 8.651777020215713e-06,
	"loss": 0.8959,
	"step": 1680
	},
	{
	"epoch": 1.7718191377497372,
	"grad_norm": 0.6241016927327407,
	"learning_rate": 8.591169425176931e-06,
	"loss": 0.8726,
	"step": 1685
	},
	{
	"epoch": 1.7770767613038907,
	"grad_norm": 0.6207578864949994,
	"learning_rate": 8.53061458292768e-06,
	"loss": 0.8892,
	"step": 1690
	},
	{
	"epoch": 1.7823343848580442,
	"grad_norm": 0.6848519519116634,
	"learning_rate": 8.470114760906583e-06,
	"loss": 0.8943,
	"step": 1695
	},
	{
	"epoch": 1.7875920084121977,
	"grad_norm": 0.6571666376626863,
	"learning_rate": 8.409672224492051e-06,
	"loss": 0.8847,
	"step": 1700
	},
	{
	"epoch": 1.7875920084121977,
	"eval_loss": 1.049035906791687,
	"eval_runtime": 554.1715,
	"eval_samples_per_second": 24.283,
	"eval_steps_per_second": 0.191,
	"step": 1700
	},
	{
	"epoch": 1.7928496319663512,
	"grad_norm": 0.645616472902103,
	"learning_rate": 8.349289236917482e-06,
	"loss": 0.8816,
	"step": 1705
	},
	{
	"epoch": 1.7981072555205047,
	"grad_norm": 0.6574673506951342,
	"learning_rate": 8.28896805918649e-06,
	"loss": 0.8648,
	"step": 1710
	},
	{
	"epoch": 1.8033648790746581,
	"grad_norm": 0.6469048695832662,
	"learning_rate": 8.228710949988283e-06,
	"loss": 0.8844,
	"step": 1715
	},
	{
	"epoch": 1.8086225026288116,
	"grad_norm": 0.6503850752063266,
	"learning_rate": 8.168520165613035e-06,
	"loss": 0.8927,
	"step": 1720
	},
	{
	"epoch": 1.8138801261829653,
	"grad_norm": 0.6478121209226875,
	"learning_rate": 8.108397959867445e-06,
	"loss": 0.8973,
	"step": 1725
	},
	{
	"epoch": 1.8191377497371188,
	"grad_norm": 0.6456428948521569,
	"learning_rate": 8.04834658399032e-06,
	"loss": 0.8829,
	"step": 1730
	},
	{
	"epoch": 1.8243953732912723,
	"grad_norm": 0.6790517960706193,
	"learning_rate": 7.988368286568287e-06,
	"loss": 0.8756,
	"step": 1735
	},
	{
	"epoch": 1.8296529968454258,
	"grad_norm": 0.7206882773594423,
	"learning_rate": 7.928465313451603e-06,
	"loss": 0.9051,
	"step": 1740
	},
	{
	"epoch": 1.8349106203995795,
	"grad_norm": 0.6598808403648849,
	"learning_rate": 7.868639907670042e-06,
	"loss": 0.9019,
	"step": 1745
	},
	{
	"epoch": 1.840168243953733,
	"grad_norm": 0.8136122353035425,
	"learning_rate": 7.808894309348925e-06,
	"loss": 0.8814,
	"step": 1750
	},
	{
	"epoch": 1.8454258675078865,
	"grad_norm": 0.6383354015679575,
	"learning_rate": 7.749230755625228e-06,
	"loss": 0.8775,
	"step": 1755
	},
	{
	"epoch": 1.85068349106204,
	"grad_norm": 0.6270079438127367,
	"learning_rate": 7.689651480563824e-06,
	"loss": 0.8959,
	"step": 1760
	},
	{
	"epoch": 1.8559411146161935,
	"grad_norm": 0.6235081226194247,
	"learning_rate": 7.630158715073813e-06,
	"loss": 0.8871,
	"step": 1765
	},
	{
	"epoch": 1.861198738170347,
	"grad_norm": 0.6526009528156013,
	"learning_rate": 7.570754686825004e-06,
	"loss": 0.8867,
	"step": 1770
	},
	{
	"epoch": 1.8664563617245005,
	"grad_norm": 0.6321251834720393,
	"learning_rate": 7.511441620164499e-06,
	"loss": 0.9111,
	"step": 1775
	},
	{
	"epoch": 1.871713985278654,
	"grad_norm": 0.6579757228675541,
	"learning_rate": 7.452221736033387e-06,
	"loss": 0.8758,
	"step": 1780
	},
	{
	"epoch": 1.8769716088328074,
	"grad_norm": 0.6288476910531294,
	"learning_rate": 7.393097251883609e-06,
	"loss": 0.8848,
	"step": 1785
	},
	{
	"epoch": 1.882229232386961,
	"grad_norm": 0.6671896908639643,
	"learning_rate": 7.334070381594904e-06,
	"loss": 0.8879,
	"step": 1790
	},
	{
	"epoch": 1.8874868559411146,
	"grad_norm": 0.6375714540658346,
	"learning_rate": 7.275143335391927e-06,
	"loss": 0.8871,
	"step": 1795
	},
	{
	"epoch": 1.8927444794952681,
	"grad_norm": 0.6461378473926269,
	"learning_rate": 7.21631831976147e-06,
	"loss": 0.8831,
	"step": 1800
	},
	{
	"epoch": 1.8927444794952681,
	"eval_loss": 1.0454537868499756,
	"eval_runtime": 554.7002,
	"eval_samples_per_second": 24.26,
	"eval_steps_per_second": 0.191,
	"step": 1800
	},
	{
	"epoch": 1.8980021030494216,
	"grad_norm": 0.6266360175385085,
	"learning_rate": 7.157597537369866e-06,
	"loss": 0.8836,
	"step": 1805
	},
	{
	"epoch": 1.9032597266035753,
	"grad_norm": 0.7106762429735706,
	"learning_rate": 7.098983186980495e-06,
	"loss": 0.8894,
	"step": 1810
	},
	{
	"epoch": 1.9085173501577288,
	"grad_norm": 0.6449309860617594,
	"learning_rate": 7.040477463371449e-06,
	"loss": 0.8961,
	"step": 1815
	},
	{
	"epoch": 1.9137749737118823,
	"grad_norm": 0.6118460786718801,
	"learning_rate": 6.982082557253371e-06,
	"loss": 0.8898,
	"step": 1820
	},
	{
	"epoch": 1.9190325972660358,
	"grad_norm": 0.6200070078112132,
	"learning_rate": 6.9238006551873985e-06,
	"loss": 0.8993,
	"step": 1825
	},
	{
	"epoch": 1.9242902208201893,
	"grad_norm": 0.62946195709294,
	"learning_rate": 6.86563393950331e-06,
	"loss": 0.8746,
	"step": 1830
	},
	{
	"epoch": 1.9295478443743428,
	"grad_norm": 0.6894329752058552,
	"learning_rate": 6.807584588217798e-06,
	"loss": 0.8768,
	"step": 1835
	},
	{
	"epoch": 1.9348054679284963,
	"grad_norm": 0.6337025218810814,
	"learning_rate": 6.749654774952925e-06,
	"loss": 0.8774,
	"step": 1840
	},
	{
	"epoch": 1.9400630914826498,
	"grad_norm": 0.6061458342443647,
	"learning_rate": 6.691846668854709e-06,
	"loss": 0.8925,
	"step": 1845
	},
	{
	"epoch": 1.9453207150368033,
	"grad_norm": 0.6323722322620482,
	"learning_rate": 6.634162434511939e-06,
	"loss": 0.8878,
	"step": 1850
	},
	{
	"epoch": 1.9505783385909568,
	"grad_norm": 0.6295608770739457,
	"learning_rate": 6.57660423187509e-06,
	"loss": 0.8894,
	"step": 1855
	},
	{
	"epoch": 1.9558359621451105,
	"grad_norm": 0.7448236764255614,
	"learning_rate": 6.519174216175458e-06,
	"loss": 0.884,
	"step": 1860
	},
	{
	"epoch": 1.961093585699264,
	"grad_norm": 0.6643005564433259,
	"learning_rate": 6.461874537844465e-06,
	"loss": 0.8712,
	"step": 1865
	},
	{
	"epoch": 1.9663512092534174,
	"grad_norm": 0.6460805751831616,
	"learning_rate": 6.404707342433123e-06,
	"loss": 0.8794,
	"step": 1870
	},
	{
	"epoch": 1.971608832807571,
	"grad_norm": 0.6437260367816269,
	"learning_rate": 6.347674770531716e-06,
	"loss": 0.8913,
	"step": 1875
	},
	{
	"epoch": 1.9768664563617246,
	"grad_norm": 0.6422567155892785,
	"learning_rate": 6.2907789576896125e-06,
	"loss": 0.8722,
	"step": 1880
	},
	{
	"epoch": 1.9821240799158781,
	"grad_norm": 0.6631332611742206,
	"learning_rate": 6.2340220343353455e-06,
	"loss": 0.8747,
	"step": 1885
	},
	{
	"epoch": 1.9873817034700316,
	"grad_norm": 0.5923326352879508,
	"learning_rate": 6.177406125696804e-06,
	"loss": 0.8863,
	"step": 1890
	},
	{
	"epoch": 1.9926393270241851,
	"grad_norm": 0.6040038053093328,
	"learning_rate": 6.120933351721665e-06,
	"loss": 0.8822,
	"step": 1895
	},
	{
	"epoch": 1.9978969505783386,
	"grad_norm": 0.6155901401028533,
	"learning_rate": 6.064605826998031e-06,
	"loss": 0.8781,
	"step": 1900
	},
	{
	"epoch": 1.9978969505783386,
	"eval_loss": 1.0413092374801636,
	"eval_runtime": 562.2304,
	"eval_samples_per_second": 23.935,
	"eval_steps_per_second": 0.189,
	"step": 1900
	},
	{
	"epoch": 2.003154574132492,
	"grad_norm": 0.9856009462574625,
	"learning_rate": 6.00842566067522e-06,
	"loss": 0.7565,
	"step": 1905
	},
	{
	"epoch": 2.0084121976866456,
	"grad_norm": 1.1010436371290768,
	"learning_rate": 5.952394956384823e-06,
	"loss": 0.7157,
	"step": 1910
	},
	{
	"epoch": 2.013669821240799,
	"grad_norm": 0.7976498381871772,
	"learning_rate": 5.896515812161896e-06,
	"loss": 0.7125,
	"step": 1915
	},
	{
	"epoch": 2.0189274447949526,
	"grad_norm": 0.7307266469267819,
	"learning_rate": 5.840790320366444e-06,
	"loss": 0.7208,
	"step": 1920
	},
	{
	"epoch": 2.024185068349106,
	"grad_norm": 0.7601898382424687,
	"learning_rate": 5.7852205676050355e-06,
	"loss": 0.7079,
	"step": 1925
	},
	{
	"epoch": 2.0294426919032595,
	"grad_norm": 0.7636705961643997,
	"learning_rate": 5.7298086346527e-06,
	"loss": 0.7021,
	"step": 1930
	},
	{
	"epoch": 2.034700315457413,
	"grad_norm": 0.7600945150765135,
	"learning_rate": 5.674556596374993e-06,
	"loss": 0.698,
	"step": 1935
	},
	{
	"epoch": 2.039957939011567,
	"grad_norm": 0.7283661435999434,
	"learning_rate": 5.619466521650309e-06,
	"loss": 0.7135,
	"step": 1940
	},
	{
	"epoch": 2.0452155625657205,
	"grad_norm": 0.673772367415323,
	"learning_rate": 5.564540473292433e-06,
	"loss": 0.712,
	"step": 1945
	},
	{
	"epoch": 2.050473186119874,
	"grad_norm": 0.7274211486508272,
	"learning_rate": 5.509780507973266e-06,
	"loss": 0.7316,
	"step": 1950
	},
	{
	"epoch": 2.0557308096740274,
	"grad_norm": 0.7019707530514135,
	"learning_rate": 5.455188676145846e-06,
	"loss": 0.7178,
	"step": 1955
	},
	{
	"epoch": 2.060988433228181,
	"grad_norm": 0.727356607819457,
	"learning_rate": 5.40076702196755e-06,
	"loss": 0.6901,
	"step": 1960
	},
	{
	"epoch": 2.0662460567823344,
	"grad_norm": 0.7393497514045044,
	"learning_rate": 5.346517583223567e-06,
	"loss": 0.7091,
	"step": 1965
	},
	{
	"epoch": 2.071503680336488,
	"grad_norm": 0.6909005753061759,
	"learning_rate": 5.292442391250567e-06,
	"loss": 0.7103,
	"step": 1970
	},
	{
	"epoch": 2.0767613038906414,
	"grad_norm": 0.7199779190451211,
	"learning_rate": 5.238543470860677e-06,
	"loss": 0.7142,
	"step": 1975
	},
	{
	"epoch": 2.082018927444795,
	"grad_norm": 0.6986050924763797,
	"learning_rate": 5.184822840265635e-06,
	"loss": 0.719,
	"step": 1980
	},
	{
	"epoch": 2.0872765509989484,
	"grad_norm": 0.6873483374112779,
	"learning_rate": 5.131282511001221e-06,
	"loss": 0.7188,
	"step": 1985
	},
	{
	"epoch": 2.092534174553102,
	"grad_norm": 0.704017833699201,
	"learning_rate": 5.077924487851954e-06,
	"loss": 0.7206,
	"step": 1990
	},
	{
	"epoch": 2.0977917981072554,
	"grad_norm": 0.6869215244017003,
	"learning_rate": 5.024750768776011e-06,
	"loss": 0.7197,
	"step": 1995
	},
	{
	"epoch": 2.103049421661409,
	"grad_norm": 0.6616206251205331,
	"learning_rate": 4.971763344830419e-06,
	"loss": 0.7197,
	"step": 2000
	},
	{
	"epoch": 2.103049421661409,
	"eval_loss": 1.0822256803512573,
	"eval_runtime": 566.9236,
	"eval_samples_per_second": 23.737,
	"eval_steps_per_second": 0.187,
	"step": 2000
	},
	{
	"epoch": 2.108307045215563,
	"grad_norm": 0.747519024431639,
	"learning_rate": 4.91896420009649e-06,
	"loss": 0.7115,
	"step": 2005
	},
	{
	"epoch": 2.1135646687697163,
	"grad_norm": 0.7095283324919017,
	"learning_rate": 4.866355311605547e-06,
	"loss": 0.7215,
	"step": 2010
	},
	{
	"epoch": 2.1188222923238698,
	"grad_norm": 0.7245597363837365,
	"learning_rate": 4.813938649264881e-06,
	"loss": 0.7038,
	"step": 2015
	},
	{
	"epoch": 2.1240799158780233,
	"grad_norm": 0.7212203821120433,
	"learning_rate": 4.7617161757839895e-06,
	"loss": 0.715,
	"step": 2020
	},
	{
	"epoch": 2.1293375394321767,
	"grad_norm": 0.7027132940392441,
	"learning_rate": 4.7096898466010976e-06,
	"loss": 0.716,
	"step": 2025
	},
	{
	"epoch": 2.1345951629863302,
	"grad_norm": 0.6920491890608464,
	"learning_rate": 4.657861609809923e-06,
	"loss": 0.7027,
	"step": 2030
	},
	{
	"epoch": 2.1398527865404837,
	"grad_norm": 0.7246862757367895,
	"learning_rate": 4.6062334060867416e-06,
	"loss": 0.7211,
	"step": 2035
	},
	{
	"epoch": 2.145110410094637,
	"grad_norm": 0.6816731320053306,
	"learning_rate": 4.554807168617703e-06,
	"loss": 0.7127,
	"step": 2040
	},
	{
	"epoch": 2.1503680336487907,
	"grad_norm": 0.7013385203267727,
	"learning_rate": 4.5035848230264715e-06,
	"loss": 0.7158,
	"step": 2045
	},
	{
	"epoch": 2.155625657202944,
	"grad_norm": 0.7169543079018775,
	"learning_rate": 4.452568287302088e-06,
	"loss": 0.7071,
	"step": 2050
	},
	{
	"epoch": 2.1608832807570977,
	"grad_norm": 0.713248407044651,
	"learning_rate": 4.40175947172719e-06,
	"loss": 0.7068,
	"step": 2055
	},
	{
	"epoch": 2.166140904311251,
	"grad_norm": 0.6698951380098755,
	"learning_rate": 4.351160278806444e-06,
	"loss": 0.7169,
	"step": 2060
	},
	{
	"epoch": 2.1713985278654047,
	"grad_norm": 0.6926886822542322,
	"learning_rate": 4.300772603195335e-06,
	"loss": 0.7097,
	"step": 2065
	},
	{
	"epoch": 2.176656151419558,
	"grad_norm": 0.7101604887955768,
	"learning_rate": 4.250598331629215e-06,
	"loss": 0.7199,
	"step": 2070
	},
	{
	"epoch": 2.181913774973712,
	"grad_norm": 0.6817786841786956,
	"learning_rate": 4.200639342852648e-06,
	"loss": 0.709,
	"step": 2075
	},
	{
	"epoch": 2.1871713985278656,
	"grad_norm": 0.670024634466742,
	"learning_rate": 4.150897507549076e-06,
	"loss": 0.7031,
	"step": 2080
	},
	{
	"epoch": 2.192429022082019,
	"grad_norm": 0.704511383930273,
	"learning_rate": 4.101374688270751e-06,
	"loss": 0.716,
	"step": 2085
	},
	{
	"epoch": 2.1976866456361726,
	"grad_norm": 0.6737857814580686,
	"learning_rate": 4.052072739369015e-06,
	"loss": 0.7151,
	"step": 2090
	},
	{
	"epoch": 2.202944269190326,
	"grad_norm": 0.7004818342552892,
	"learning_rate": 4.0029935069248494e-06,
	"loss": 0.7084,
	"step": 2095
	},
	{
	"epoch": 2.2082018927444795,
	"grad_norm": 0.6938485406548258,
	"learning_rate": 3.954138828679762e-06,
	"loss": 0.7137,
	"step": 2100
	},
	{
	"epoch": 2.2082018927444795,
	"eval_loss": 1.0840835571289062,
	"eval_runtime": 554.526,
	"eval_samples_per_second": 24.268,
	"eval_steps_per_second": 0.191,
	"step": 2100
	},
	{
	"epoch": 2.213459516298633,
	"grad_norm": 0.6902078976776752,
	"learning_rate": 3.905510533966959e-06,
	"loss": 0.7096,
	"step": 2105
	},
	{
	"epoch": 2.2187171398527865,
	"grad_norm": 0.7110522716973304,
	"learning_rate": 3.857110443642864e-06,
	"loss": 0.6949,
	"step": 2110
	},
	{
	"epoch": 2.22397476340694,
	"grad_norm": 0.7247408104466715,
	"learning_rate": 3.8089403700189254e-06,
	"loss": 0.7187,
	"step": 2115
	},
	{
	"epoch": 2.2292323869610935,
	"grad_norm": 0.7097288878868501,
	"learning_rate": 3.7610021167937526e-06,
	"loss": 0.7036,
	"step": 2120
	},
	{
	"epoch": 2.234490010515247,
	"grad_norm": 0.7612906599424331,
	"learning_rate": 3.713297478985595e-06,
	"loss": 0.7205,
	"step": 2125
	},
	{
	"epoch": 2.2397476340694005,
	"grad_norm": 0.7985865232124967,
	"learning_rate": 3.6658282428651026e-06,
	"loss": 0.7018,
	"step": 2130
	},
	{
	"epoch": 2.245005257623554,
	"grad_norm": 0.6445514804150951,
	"learning_rate": 3.618596185888471e-06,
	"loss": 0.6983,
	"step": 2135
	},
	{
	"epoch": 2.250262881177708,
	"grad_norm": 0.6788252376343907,
	"learning_rate": 3.5716030766308553e-06,
	"loss": 0.6963,
	"step": 2140
	},
	{
	"epoch": 2.2555205047318614,
	"grad_norm": 0.6558652902911214,
	"learning_rate": 3.5248506747201694e-06,
	"loss": 0.6988,
	"step": 2145
	},
	{
	"epoch": 2.260778128286015,
	"grad_norm": 0.727190238646923,
	"learning_rate": 3.4783407307711913e-06,
	"loss": 0.701,
	"step": 2150
	},
	{
	"epoch": 2.2660357518401684,
	"grad_norm": 0.7053251271830925,
	"learning_rate": 3.4320749863199987e-06,
	"loss": 0.7038,
	"step": 2155
	},
	{
	"epoch": 2.271293375394322,
	"grad_norm": 0.691685408706534,
	"learning_rate": 3.3860551737587857e-06,
	"loss": 0.7068,
	"step": 2160
	},
	{
	"epoch": 2.2765509989484753,
	"grad_norm": 0.6897266118308167,
	"learning_rate": 3.3402830162709644e-06,
	"loss": 0.703,
	"step": 2165
	},
	{
	"epoch": 2.281808622502629,
	"grad_norm": 0.6917521598477109,
	"learning_rate": 3.2947602277666678e-06,
	"loss": 0.7136,
	"step": 2170
	},
	{
	"epoch": 2.2870662460567823,
	"grad_norm": 0.6899343095386444,
	"learning_rate": 3.2494885128185517e-06,
	"loss": 0.6984,
	"step": 2175
	},
	{
	"epoch": 2.292323869610936,
	"grad_norm": 0.6869089208872174,
	"learning_rate": 3.2044695665979865e-06,
	"loss": 0.724,
	"step": 2180
	},
	{
	"epoch": 2.2975814931650893,
	"grad_norm": 0.7005346292608602,
	"learning_rate": 3.1597050748115655e-06,
	"loss": 0.7035,
	"step": 2185
	},
	{
	"epoch": 2.302839116719243,
	"grad_norm": 0.7061499912056902,
	"learning_rate": 3.115196713638e-06,
	"loss": 0.6865,
	"step": 2190
	},
	{
	"epoch": 2.3080967402733963,
	"grad_norm": 0.6815319705079519,
	"learning_rate": 3.0709461496653504e-06,
	"loss": 0.7156,
	"step": 2195
	},
	{
	"epoch": 2.3133543638275498,
	"grad_norm": 0.7049825225126681,
	"learning_rate": 3.0269550398286096e-06,
	"loss": 0.7115,
	"step": 2200
	},
	{
	"epoch": 2.3133543638275498,
	"eval_loss": 1.0800352096557617,
	"eval_runtime": 568.5479,
	"eval_samples_per_second": 23.669,
	"eval_steps_per_second": 0.186,
	"step": 2200
	},
	{
	"epoch": 2.3186119873817033,
	"grad_norm": 0.6675183707377966,
	"learning_rate": 2.983225031347683e-06,
	"loss": 0.7087,
	"step": 2205
	},
	{
	"epoch": 2.3238696109358568,
	"grad_norm": 0.7114348169331429,
	"learning_rate": 2.939757761665686e-06,
	"loss": 0.7077,
	"step": 2210
	},
	{
	"epoch": 2.3291272344900107,
	"grad_norm": 0.7191874914216904,
	"learning_rate": 2.8965548583876534e-06,
	"loss": 0.7201,
	"step": 2215
	},
	{
	"epoch": 2.334384858044164,
	"grad_norm": 0.6766258501238187,
	"learning_rate": 2.853617939219574e-06,
	"loss": 0.7072,
	"step": 2220
	},
	{
	"epoch": 2.3396424815983177,
	"grad_norm": 0.7028752741574394,
	"learning_rate": 2.810948611907832e-06,
	"loss": 0.6955,
	"step": 2225
	},
	{
	"epoch": 2.344900105152471,
	"grad_norm": 0.7210493538085075,
	"learning_rate": 2.7685484741790023e-06,
	"loss": 0.7129,
	"step": 2230
	},
	{
	"epoch": 2.3501577287066246,
	"grad_norm": 0.6928964162595481,
	"learning_rate": 2.7264191136800112e-06,
	"loss": 0.6873,
	"step": 2235
	},
	{
	"epoch": 2.355415352260778,
	"grad_norm": 0.6949752358383088,
	"learning_rate": 2.6845621079187122e-06,
	"loss": 0.7207,
	"step": 2240
	},
	{
	"epoch": 2.3606729758149316,
	"grad_norm": 0.7000497878298911,
	"learning_rate": 2.6429790242047927e-06,
	"loss": 0.7019,
	"step": 2245
	},
	{
	"epoch": 2.365930599369085,
	"grad_norm": 0.6655488986940491,
	"learning_rate": 2.6016714195911085e-06,
	"loss": 0.6909,
	"step": 2250
	},
	{
	"epoch": 2.3711882229232386,
	"grad_norm": 0.6946100724369102,
	"learning_rate": 2.560640840815363e-06,
	"loss": 0.703,
	"step": 2255
	},
	{
	"epoch": 2.376445846477392,
	"grad_norm": 0.6799665527381428,
	"learning_rate": 2.5198888242422014e-06,
	"loss": 0.7029,
	"step": 2260
	},
	{
	"epoch": 2.3817034700315456,
	"grad_norm": 0.698092499847167,
	"learning_rate": 2.4794168958056854e-06,
	"loss": 0.706,
	"step": 2265
	},
	{
	"epoch": 2.386961093585699,
	"grad_norm": 0.6725956864860293,
	"learning_rate": 2.439226570952137e-06,
	"loss": 0.7087,
	"step": 2270
	},
	{
	"epoch": 2.392218717139853,
	"grad_norm": 0.7109494323803826,
	"learning_rate": 2.3993193545834182e-06,
	"loss": 0.7125,
	"step": 2275
	},
	{
	"epoch": 2.3974763406940065,
	"grad_norm": 0.7088160313512611,
	"learning_rate": 2.35969674100056e-06,
	"loss": 0.6979,
	"step": 2280
	},
	{
	"epoch": 2.40273396424816,
	"grad_norm": 0.6826523489540324,
	"learning_rate": 2.3203602138478264e-06,
	"loss": 0.7055,
	"step": 2285
	},
	{
	"epoch": 2.4079915878023135,
	"grad_norm": 0.6930882874841964,
	"learning_rate": 2.281311246057143e-06,
	"loss": 0.7201,
	"step": 2290
	},
	{
	"epoch": 2.413249211356467,
	"grad_norm": 0.6782194389254947,
	"learning_rate": 2.242551299792962e-06,
	"loss": 0.7278,
	"step": 2295
	},
	{
	"epoch": 2.4185068349106205,
	"grad_norm": 0.6611886260527141,
	"learning_rate": 2.204081826397494e-06,
	"loss": 0.7178,
	"step": 2300
	},
	{
	"epoch": 2.4185068349106205,
	"eval_loss": 1.0789012908935547,
	"eval_runtime": 548.9059,
	"eval_samples_per_second": 24.516,
	"eval_steps_per_second": 0.193,
	"step": 2300
	},
	{
	"epoch": 2.423764458464774,
	"grad_norm": 0.6913748928617807,
	"learning_rate": 2.1659042663363795e-06,
	"loss": 0.7031,
	"step": 2305
	},
	{
	"epoch": 2.4290220820189274,
	"grad_norm": 0.68971986235768,
	"learning_rate": 2.1280200491447465e-06,
	"loss": 0.6902,
	"step": 2310
	},
	{
	"epoch": 2.434279705573081,
	"grad_norm": 0.7068453091320502,
	"learning_rate": 2.0904305933736714e-06,
	"loss": 0.7064,
	"step": 2315
	},
	{
	"epoch": 2.4395373291272344,
	"grad_norm": 0.7009937280786678,
	"learning_rate": 2.053137306537082e-06,
	"loss": 0.702,
	"step": 2320
	},
	{
	"epoch": 2.444794952681388,
	"grad_norm": 0.7009541498050648,
	"learning_rate": 2.0161415850590327e-06,
	"loss": 0.7072,
	"step": 2325
	},
	{
	"epoch": 2.4500525762355414,
	"grad_norm": 0.6679413662712783,
	"learning_rate": 1.9794448142214396e-06,
	"loss": 0.7121,
	"step": 2330
	},
	{
	"epoch": 2.455310199789695,
	"grad_norm": 0.6929272185822167,
	"learning_rate": 1.9430483681121836e-06,
	"loss": 0.7164,
	"step": 2335
	},
	{
	"epoch": 2.4605678233438484,
	"grad_norm": 0.7778000958451866,
	"learning_rate": 1.9069536095736817e-06,
	"loss": 0.7091,
	"step": 2340
	},
	{
	"epoch": 2.465825446898002,
	"grad_norm": 0.6672776696135466,
	"learning_rate": 1.8711618901518446e-06,
	"loss": 0.7132,
	"step": 2345
	},
	{
	"epoch": 2.471083070452156,
	"grad_norm": 0.6949140160619673,
	"learning_rate": 1.8356745500454699e-06,
	"loss": 0.6974,
	"step": 2350
	},
	{
	"epoch": 2.4763406940063093,
	"grad_norm": 0.6950911698278153,
	"learning_rate": 1.8004929180560582e-06,
	"loss": 0.6894,
	"step": 2355
	},
	{
	"epoch": 2.481598317560463,
	"grad_norm": 0.6826148060946653,
	"learning_rate": 1.7656183115380577e-06,
	"loss": 0.7043,
	"step": 2360
	},
	{
	"epoch": 2.4868559411146163,
	"grad_norm": 0.7310354415413428,
	"learning_rate": 1.7310520363495454e-06,
	"loss": 0.7021,
	"step": 2365
	},
	{
	"epoch": 2.4921135646687698,
	"grad_norm": 0.6754671470342107,
	"learning_rate": 1.6967953868033104e-06,
	"loss": 0.7043,
	"step": 2370
	},
	{
	"epoch": 2.4973711882229233,
	"grad_norm": 0.6935442287350769,
	"learning_rate": 1.6628496456184107e-06,
	"loss": 0.6994,
	"step": 2375
	},
	{
	"epoch": 2.5026288117770767,
	"grad_norm": 0.690259266155438,
	"learning_rate": 1.6292160838721316e-06,
	"loss": 0.6946,
	"step": 2380
	},
	{
	"epoch": 2.5078864353312302,
	"grad_norm": 0.6934285014568452,
	"learning_rate": 1.5958959609523905e-06,
	"loss": 0.719,
	"step": 2385
	},
	{
	"epoch": 2.5131440588853837,
	"grad_norm": 0.706595235609839,
	"learning_rate": 1.562890524510583e-06,
	"loss": 0.699,
	"step": 2390
	},
	{
	"epoch": 2.518401682439537,
	"grad_norm": 0.7031045404384867,
	"learning_rate": 1.530201010414859e-06,
	"loss": 0.7019,
	"step": 2395
	},
	{
	"epoch": 2.5236593059936907,
	"grad_norm": 0.6611225731580428,
	"learning_rate": 1.4978286427038602e-06,
	"loss": 0.7063,
	"step": 2400
	},
	{
	"epoch": 2.5236593059936907,
	"eval_loss": 1.0776675939559937,
	"eval_runtime": 549.0786,
	"eval_samples_per_second": 24.508,
	"eval_steps_per_second": 0.193,
	"step": 2400
	},
	{
	"epoch": 2.5289169295478446,
	"grad_norm": 0.6876289627741422,
	"learning_rate": 1.4657746335408695e-06,
	"loss": 0.7068,
	"step": 2405
	},
	{
	"epoch": 2.534174553101998,
	"grad_norm": 0.680233555417602,
	"learning_rate": 1.4340401831684413e-06,
	"loss": 0.6807,
	"step": 2410
	},
	{
	"epoch": 2.5394321766561516,
	"grad_norm": 0.6654932547762412,
	"learning_rate": 1.4026264798634359e-06,
	"loss": 0.7179,
	"step": 2415
	},
	{
	"epoch": 2.544689800210305,
	"grad_norm": 0.6945732690751362,
	"learning_rate": 1.371534699892547e-06,
	"loss": 0.7086,
	"step": 2420
	},
	{
	"epoch": 2.5499474237644586,
	"grad_norm": 0.6862420273962914,
	"learning_rate": 1.3407660074682472e-06,
	"loss": 0.7028,
	"step": 2425
	},
	{
	"epoch": 2.555205047318612,
	"grad_norm": 0.651460129300283,
	"learning_rate": 1.3103215547051962e-06,
	"loss": 0.6975,
	"step": 2430
	},
	{
	"epoch": 2.5604626708727656,
	"grad_norm": 0.6970590762896678,
	"learning_rate": 1.2802024815770942e-06,
	"loss": 0.7115,
	"step": 2435
	},
	{
	"epoch": 2.565720294426919,
	"grad_norm": 0.6744240212503375,
	"learning_rate": 1.250409915874007e-06,
	"loss": 0.7057,
	"step": 2440
	},
	{
	"epoch": 2.5709779179810726,
	"grad_norm": 0.6699733139877856,
	"learning_rate": 1.220944973160133e-06,
	"loss": 0.6884,
	"step": 2445
	},
	{
	"epoch": 2.576235541535226,
	"grad_norm": 0.6915305368046275,
	"learning_rate": 1.1918087567320257e-06,
	"loss": 0.7026,
	"step": 2450
	},
	{
	"epoch": 2.5814931650893795,
	"grad_norm": 0.6755768658668228,
	"learning_rate": 1.1630023575772908e-06,
	"loss": 0.6966,
	"step": 2455
	},
	{
	"epoch": 2.586750788643533,
	"grad_norm": 0.705779731938613,
	"learning_rate": 1.1345268543337283e-06,
	"loss": 0.6988,
	"step": 2460
	},
	{
	"epoch": 2.5920084121976865,
	"grad_norm": 0.7111985726538933,
	"learning_rate": 1.1063833132489477e-06,
	"loss": 0.696,
	"step": 2465
	},
	{
	"epoch": 2.59726603575184,
	"grad_norm": 0.6539744158999056,
	"learning_rate": 1.0785727881404329e-06,
	"loss": 0.6961,
	"step": 2470
	},
	{
	"epoch": 2.6025236593059935,
	"grad_norm": 0.6848492944946433,
	"learning_rate": 1.051096320356103e-06,
	"loss": 0.7046,
	"step": 2475
	},
	{
	"epoch": 2.607781282860147,
	"grad_norm": 0.7032823101149783,
	"learning_rate": 1.0239549387352954e-06,
	"loss": 0.7201,
	"step": 2480
	},
	{
	"epoch": 2.6130389064143005,
	"grad_norm": 0.6762173164818084,
	"learning_rate": 9.97149659570259e-07,
	"loss": 0.7116,
	"step": 2485
	},
	{
	"epoch": 2.6182965299684544,
	"grad_norm": 0.6806035208648271,
	"learning_rate": 9.706814865680957e-07,
	"loss": 0.7045,
	"step": 2490
	},
	{
	"epoch": 2.623554153522608,
	"grad_norm": 0.6776503088053696,
	"learning_rate": 9.445514108131693e-07,
	"loss": 0.6888,
	"step": 2495
	},
	{
	"epoch": 2.6288117770767614,
	"grad_norm": 0.6836339268439919,
	"learning_rate": 9.187604107300107e-07,
	"loss": 0.6964,
	"step": 2500
	},
	{
	"epoch": 2.6288117770767614,
	"eval_loss": 1.0754879713058472,
	"eval_runtime": 544.4972,
	"eval_samples_per_second": 24.715,
	"eval_steps_per_second": 0.195,
	"step": 2500
	},
	{
	"epoch": 2.634069400630915,
	"grad_norm": 0.6761130619047382,
	"learning_rate": 8.933094520466634e-07,
	"loss": 0.7058,
	"step": 2505
	},
	{
	"epoch": 2.6393270241850684,
	"grad_norm": 0.6672694366752451,
	"learning_rate": 8.681994877585365e-07,
	"loss": 0.7054,
	"step": 2510
	},
	{
	"epoch": 2.644584647739222,
	"grad_norm": 0.7017173692899314,
	"learning_rate": 8.434314580927105e-07,
	"loss": 0.7003,
	"step": 2515
	},
	{
	"epoch": 2.6498422712933754,
	"grad_norm": 0.6828167224204641,
	"learning_rate": 8.19006290472737e-07,
	"loss": 0.7134,
	"step": 2520
	},
	{
	"epoch": 2.655099894847529,
	"grad_norm": 0.6887161892823586,
	"learning_rate": 7.949248994839131e-07,
	"loss": 0.7107,
	"step": 2525
	},
	{
	"epoch": 2.6603575184016823,
	"grad_norm": 0.6858305599284509,
	"learning_rate": 7.711881868390292e-07,
	"loss": 0.7185,
	"step": 2530
	},
	{
	"epoch": 2.665615141955836,
	"grad_norm": 0.6919951634850794,
	"learning_rate": 7.477970413446089e-07,
	"loss": 0.7038,
	"step": 2535
	},
	{
	"epoch": 2.6708727655099898,
	"grad_norm": 0.7059421711173827,
	"learning_rate": 7.247523388676292e-07,
	"loss": 0.6934,
	"step": 2540
	},
	{
	"epoch": 2.6761303890641432,
	"grad_norm": 0.697370543891664,
	"learning_rate": 7.020549423027223e-07,
	"loss": 0.6874,
	"step": 2545
	},
	{
	"epoch": 2.6813880126182967,
	"grad_norm": 0.6851210955122395,
	"learning_rate": 6.797057015398634e-07,
	"loss": 0.7091,
	"step": 2550
	},
	{
	"epoch": 2.6866456361724502,
	"grad_norm": 0.6810814971271851,
	"learning_rate": 6.577054534325511e-07,
	"loss": 0.6935,
	"step": 2555
	},
	{
	"epoch": 2.6919032597266037,
	"grad_norm": 0.6676833725760639,
	"learning_rate": 6.360550217664685e-07,
	"loss": 0.7088,
	"step": 2560
	},
	{
	"epoch": 2.697160883280757,
	"grad_norm": 0.7148977742599517,
	"learning_rate": 6.147552172286375e-07,
	"loss": 0.6987,
	"step": 2565
	},
	{
	"epoch": 2.7024185068349107,
	"grad_norm": 0.6475197510665502,
	"learning_rate": 5.938068373770667e-07,
	"loss": 0.6864,
	"step": 2570
	},
	{
	"epoch": 2.707676130389064,
	"grad_norm": 0.685110898697612,
	"learning_rate": 5.732106666108827e-07,
	"loss": 0.6937,
	"step": 2575
	},
	{
	"epoch": 2.7129337539432177,
	"grad_norm": 0.6850644373487722,
	"learning_rate": 5.529674761409643e-07,
	"loss": 0.701,
	"step": 2580
	},
	{
	"epoch": 2.718191377497371,
	"grad_norm": 0.6619622645326332,
	"learning_rate": 5.330780239610534e-07,
	"loss": 0.705,
	"step": 2585
	},
	{
	"epoch": 2.7234490010515247,
	"grad_norm": 0.6779887305496379,
	"learning_rate": 5.135430548193909e-07,
	"loss": 0.6912,
	"step": 2590
	},
	{
	"epoch": 2.728706624605678,
	"grad_norm": 0.6695357873979283,
	"learning_rate": 4.943633001908111e-07,
	"loss": 0.7007,
	"step": 2595
	},
	{
	"epoch": 2.7339642481598316,
	"grad_norm": 0.6851094475471325,
	"learning_rate": 4.7553947824936496e-07,
	"loss": 0.7121,
	"step": 2600
	},
	{
	"epoch": 2.7339642481598316,
	"eval_loss": 1.0742169618606567,
	"eval_runtime": 543.8651,
	"eval_samples_per_second": 24.743,
	"eval_steps_per_second": 0.195,
	"step": 2600
	},
	{
	"epoch": 2.739221871713985,
	"grad_norm": 0.6798881286754066,
	"learning_rate": 4.5707229384142184e-07,
	"loss": 0.7043,
	"step": 2605
	},
	{
	"epoch": 2.7444794952681386,
	"grad_norm": 0.6627199879579073,
	"learning_rate": 4.3896243845927943e-07,
	"loss": 0.7083,
	"step": 2610
	},
	{
	"epoch": 2.749737118822292,
	"grad_norm": 0.6911107462785068,
	"learning_rate": 4.21210590215273e-07,
	"loss": 0.7062,
	"step": 2615
	},
	{
	"epoch": 2.7549947423764456,
	"grad_norm": 0.6538298159253733,
	"learning_rate": 4.0381741381638085e-07,
	"loss": 0.6919,
	"step": 2620
	},
	{
	"epoch": 2.7602523659305995,
	"grad_norm": 0.6913261772512153,
	"learning_rate": 3.8678356053933666e-07,
	"loss": 0.6899,
	"step": 2625
	},
	{
	"epoch": 2.765509989484753,
	"grad_norm": 0.6731586319154937,
	"learning_rate": 3.7010966820623996e-07,
	"loss": 0.7115,
	"step": 2630
	},
	{
	"epoch": 2.7707676130389065,
	"grad_norm": 0.6739111157184594,
	"learning_rate": 3.5379636116067764e-07,
	"loss": 0.6938,
	"step": 2635
	},
	{
	"epoch": 2.77602523659306,
	"grad_norm": 0.6775894239204638,
	"learning_rate": 3.378442502443424e-07,
	"loss": 0.7018,
	"step": 2640
	},
	{
	"epoch": 2.7812828601472135,
	"grad_norm": 0.6630535974515509,
	"learning_rate": 3.222539327741592e-07,
	"loss": 0.7108,
	"step": 2645
	},
	{
	"epoch": 2.786540483701367,
	"grad_norm": 0.6476313251006354,
	"learning_rate": 3.070259925199248e-07,
	"loss": 0.7064,
	"step": 2650
	},
	{
	"epoch": 2.7917981072555205,
	"grad_norm": 0.6793550821713811,
	"learning_rate": 2.921609996824437e-07,
	"loss": 0.686,
	"step": 2655
	},
	{
	"epoch": 2.797055730809674,
	"grad_norm": 0.6950659181503308,
	"learning_rate": 2.7765951087218134e-07,
	"loss": 0.6922,
	"step": 2660
	},
	{
	"epoch": 2.8023133543638274,
	"grad_norm": 0.6759277309855073,
	"learning_rate": 2.6352206908841325e-07,
	"loss": 0.7123,
	"step": 2665
	},
	{
	"epoch": 2.807570977917981,
	"grad_norm": 0.6871290912583685,
	"learning_rate": 2.497492036989058e-07,
	"loss": 0.7071,
	"step": 2670
	},
	{
	"epoch": 2.812828601472135,
	"grad_norm": 0.6672178424750838,
	"learning_rate": 2.3634143042008396e-07,
	"loss": 0.7055,
	"step": 2675
	},
	{
	"epoch": 2.8180862250262884,
	"grad_norm": 0.6871427641549465,
	"learning_rate": 2.2329925129772613e-07,
	"loss": 0.7162,
	"step": 2680
	},
	{
	"epoch": 2.823343848580442,
	"grad_norm": 0.6996639531083144,
	"learning_rate": 2.1062315468816318e-07,
	"loss": 0.7116,
	"step": 2685
	},
	{
	"epoch": 2.8286014721345953,
	"grad_norm": 0.7057461914462779,
	"learning_rate": 1.9831361523999227e-07,
	"loss": 0.6978,
	"step": 2690
	},
	{
	"epoch": 2.833859095688749,
	"grad_norm": 0.6606180852855636,
	"learning_rate": 1.8637109387630637e-07,
	"loss": 0.6872,
	"step": 2695
	},
	{
	"epoch": 2.8391167192429023,
	"grad_norm": 0.6603518954437334,
	"learning_rate": 1.7479603777742937e-07,
	"loss": 0.7049,
	"step": 2700
	},
	{
	"epoch": 2.8391167192429023,
	"eval_loss": 1.074755311012268,
	"eval_runtime": 548.3041,
	"eval_samples_per_second": 24.543,
	"eval_steps_per_second": 0.193,
	"step": 2700
	},
	{
	"epoch": 2.844374342797056,
	"grad_norm": 0.7039186631952389,
	"learning_rate": 1.6358888036418053e-07,
	"loss": 0.7076,
	"step": 2705
	},
	{
	"epoch": 2.8496319663512093,
	"grad_norm": 0.6613941861667958,
	"learning_rate": 1.5275004128163407e-07,
	"loss": 0.7022,
	"step": 2710
	},
	{
	"epoch": 2.854889589905363,
	"grad_norm": 0.6784432805911156,
	"learning_rate": 1.422799263834196e-07,
	"loss": 0.7018,
	"step": 2715
	},
	{
	"epoch": 2.8601472134595163,
	"grad_norm": 0.662880920108081,
	"learning_rate": 1.3217892771651087e-07,
	"loss": 0.7039,
	"step": 2720
	},
	{
	"epoch": 2.8654048370136698,
	"grad_norm": 0.674177068306156,
	"learning_rate": 1.224474235065587e-07,
	"loss": 0.6948,
	"step": 2725
	},
	{
	"epoch": 2.8706624605678233,
	"grad_norm": 0.6576941034750949,
	"learning_rate": 1.1308577814371669e-07,
	"loss": 0.6959,
	"step": 2730
	},
	{
	"epoch": 2.8759200841219767,
	"grad_norm": 0.6877738227702634,
	"learning_rate": 1.040943421690055e-07,
	"loss": 0.7016,
	"step": 2735
	},
	{
	"epoch": 2.8811777076761302,
	"grad_norm": 0.6570796449184478,
	"learning_rate": 9.547345226118666e-08,
	"loss": 0.7008,
	"step": 2740
	},
	{
	"epoch": 2.8864353312302837,
	"grad_norm": 0.6556870027002477,
	"learning_rate": 8.722343122414823e-08,
	"loss": 0.7114,
	"step": 2745
	},
	{
	"epoch": 2.891692954784437,
	"grad_norm": 0.6525356309193387,
	"learning_rate": 7.93445879748267e-08,
	"loss": 0.705,
	"step": 2750
	},
	{
	"epoch": 2.8969505783385907,
	"grad_norm": 0.6979809421888648,
	"learning_rate": 7.183721753163508e-08,
	"loss": 0.705,
	"step": 2755
	},
	{
	"epoch": 2.9022082018927446,
	"grad_norm": 0.6680505376816218,
	"learning_rate": 6.470160100341516e-08,
	"loss": 0.7028,
	"step": 2760
	},
	{
	"epoch": 2.907465825446898,
	"grad_norm": 0.6754425700333265,
	"learning_rate": 5.793800557891471e-08,
	"loss": 0.6969,
	"step": 2765
	},
	{
	"epoch": 2.9127234490010516,
	"grad_norm": 0.6770770823855421,
	"learning_rate": 5.154668451678224e-08,
	"loss": 0.709,
	"step": 2770
	},
	{
	"epoch": 2.917981072555205,
	"grad_norm": 0.6880130710385723,
	"learning_rate": 4.552787713608231e-08,
	"loss": 0.69,
	"step": 2775
	},
	{
	"epoch": 2.9232386961093586,
	"grad_norm": 0.6625414510833385,
	"learning_rate": 3.988180880733161e-08,
	"loss": 0.6962,
	"step": 2780
	},
	{
	"epoch": 2.928496319663512,
	"grad_norm": 0.6643252155800653,
	"learning_rate": 3.460869094407127e-08,
	"loss": 0.7037,
	"step": 2785
	},
	{
	"epoch": 2.9337539432176656,
	"grad_norm": 0.6897645676504198,
	"learning_rate": 2.9708720994934272e-08,
	"loss": 0.6896,
	"step": 2790
	},
	{
	"epoch": 2.939011566771819,
	"grad_norm": 0.7113672933129457,
	"learning_rate": 2.5182082436266963e-08,
	"loss": 0.7165,
	"step": 2795
	},
	{
	"epoch": 2.9442691903259726,
	"grad_norm": 0.6781710312687059,
	"learning_rate": 2.1028944765251193e-08,
	"loss": 0.7024,
	"step": 2800
	},
	{
	"epoch": 2.9442691903259726,
	"eval_loss": 1.074735403060913,
	"eval_runtime": 544.9092,
	"eval_samples_per_second": 24.696,
	"eval_steps_per_second": 0.195,
	"step": 2800
	},
	{
	"epoch": 2.949526813880126,
	"grad_norm": 0.7502190973801118,
	"learning_rate": 1.724946349355605e-08,
	"loss": 0.6952,
	"step": 2805
	},
	{
	"epoch": 2.9547844374342795,
	"grad_norm": 0.6554060805074167,
	"learning_rate": 1.3843780141521435e-08,
	"loss": 0.7095,
	"step": 2810
	},
	{
	"epoch": 2.9600420609884335,
	"grad_norm": 0.6884790361695539,
	"learning_rate": 1.081202223285449e-08,
	"loss": 0.7096,
	"step": 2815
	},
	{
	"epoch": 2.965299684542587,
	"grad_norm": 0.6687316519292371,
	"learning_rate": 8.154303289854559e-09,
	"loss": 0.7071,
	"step": 2820
	},
	{
	"epoch": 2.9705573080967405,
	"grad_norm": 0.6719077380861403,
	"learning_rate": 5.870722829164344e-09,
	"loss": 0.6954,
	"step": 2825
	},
	{
	"epoch": 2.975814931650894,
	"grad_norm": 0.6445219670997994,
	"learning_rate": 3.9613663580406745e-09,
	"loss": 0.6844,
	"step": 2830
	},
	{
	"epoch": 2.9810725552050474,
	"grad_norm": 0.6702818163839258,
	"learning_rate": 2.426305371155957e-09,
	"loss": 0.6924,
	"step": 2835
	},
	{
	"epoch": 2.986330178759201,
	"grad_norm": 0.6546313538456479,
	"learning_rate": 1.265597347920311e-09,
	"loss": 0.7013,
	"step": 2840
	},
	{
	"epoch": 2.9915878023133544,
	"grad_norm": 0.6790610179426215,
	"learning_rate": 4.792857503266301e-10,
	"loss": 0.7013,
	"step": 2845
	},
	{
	"epoch": 2.996845425867508,
	"grad_norm": 0.6610872038208641,
	"learning_rate": 6.740002132743506e-11,
	"loss": 0.708,
	"step": 2850
	},
	{
	"epoch": 3.0,
	"step": 2853,
	"total_flos": 1194720315310080.0,
	"train_loss": 0.8973418972260736,
	"train_runtime": 76133.7056,
	"train_samples_per_second": 4.793,
	"train_steps_per_second": 0.037
	}
	],
	"logging_steps": 5,
	"max_steps": 2853,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1194720315310080.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}