RAG-RP-Grokked-4B / training_log.txt
TroyDoesAI's picture
Upload training_log.txt
9615193 verified
Step: 4 {'loss': 0.2071, 'grad_norm': 0.6159770488739014, 'learning_rate': 1.9983709888670598e-05, 'epoch': 0.009823182711198428}
Step: 9 {'loss': 0.2314, 'grad_norm': 0.6118361949920654, 'learning_rate': 1.9967419777341194e-05, 'epoch': 0.019646365422396856}
Step: 14 {'loss': 0.2237, 'grad_norm': 0.6334156394004822, 'learning_rate': 1.995112966601179e-05, 'epoch': 0.029469548133595286}
Step: 19 {'loss': 0.2799, 'grad_norm': 0.6444141268730164, 'learning_rate': 1.9934839554682386e-05, 'epoch': 0.03929273084479371}
Step: 24 {'loss': 0.2476, 'grad_norm': 0.7745044827461243, 'learning_rate': 1.9918549443352982e-05, 'epoch': 0.04911591355599214}
Step: 29 {'loss': 0.277, 'grad_norm': 0.8973643183708191, 'learning_rate': 1.9902259332023575e-05, 'epoch': 0.05893909626719057}
Step: 34 {'loss': 0.2321, 'grad_norm': 0.627887487411499, 'learning_rate': 1.9885969220694174e-05, 'epoch': 0.068762278978389}
Step: 39 {'loss': 0.2383, 'grad_norm': 0.730781614780426, 'learning_rate': 1.9869679109364767e-05, 'epoch': 0.07858546168958742}
Step: 44 {'loss': 0.238, 'grad_norm': 0.6669709086418152, 'learning_rate': 1.9853388998035367e-05, 'epoch': 0.08840864440078586}
Step: 49 {'loss': 0.2379, 'grad_norm': 0.7714710235595703, 'learning_rate': 1.983709888670596e-05, 'epoch': 0.09823182711198428}
Step: 54 {'loss': 0.2427, 'grad_norm': 0.6799819469451904, 'learning_rate': 1.982080877537656e-05, 'epoch': 0.10805500982318271}
Step: 59 {'loss': 0.2173, 'grad_norm': 0.6710262298583984, 'learning_rate': 1.980451866404715e-05, 'epoch': 0.11787819253438114}
Step: 64 {'loss': 0.2533, 'grad_norm': 0.7309572100639343, 'learning_rate': 1.9788228552717748e-05, 'epoch': 0.12770137524557956}
Step: 69 {'loss': 0.2485, 'grad_norm': 0.6614667773246765, 'learning_rate': 1.9771938441388344e-05, 'epoch': 0.137524557956778}
Step: 74 {'loss': 0.2575, 'grad_norm': 0.5746429562568665, 'learning_rate': 1.975564833005894e-05, 'epoch': 0.14734774066797643}
Step: 79 {'loss': 0.2281, 'grad_norm': 0.6749255657196045, 'learning_rate': 1.9739358218729536e-05, 'epoch': 0.15717092337917485}
Step: 84 {'loss': 0.2646, 'grad_norm': 0.8638596534729004, 'learning_rate': 1.9723068107400132e-05, 'epoch': 0.16699410609037327}
Step: 89 {'loss': 0.2481, 'grad_norm': 0.7205433249473572, 'learning_rate': 1.9706777996070728e-05, 'epoch': 0.17681728880157171}
Step: 94 {'loss': 0.2557, 'grad_norm': 0.6703319549560547, 'learning_rate': 1.9690487884741324e-05, 'epoch': 0.18664047151277013}
Step: 99 {'loss': 0.2552, 'grad_norm': 0.8518515825271606, 'learning_rate': 1.967419777341192e-05, 'epoch': 0.19646365422396855}
Step: 104 {'loss': 0.2576, 'grad_norm': 0.7060774564743042, 'learning_rate': 1.9657907662082517e-05, 'epoch': 0.206286836935167}
Step: 109 {'loss': 0.1965, 'grad_norm': 0.5147045254707336, 'learning_rate': 1.9641617550753113e-05, 'epoch': 0.21611001964636542}
Step: 114 {'loss': 0.2043, 'grad_norm': 0.5916358828544617, 'learning_rate': 1.962532743942371e-05, 'epoch': 0.22593320235756384}
Step: 119 {'loss': 0.2068, 'grad_norm': 0.7743695974349976, 'learning_rate': 1.9609037328094305e-05, 'epoch': 0.2357563850687623}
Step: 124 {'loss': 0.2013, 'grad_norm': 0.6146100163459778, 'learning_rate': 1.95927472167649e-05, 'epoch': 0.2455795677799607}
Step: 129 {'loss': 0.273, 'grad_norm': 0.8288483023643494, 'learning_rate': 1.9576457105435497e-05, 'epoch': 0.2554027504911591}
Step: 134 {'loss': 0.2257, 'grad_norm': 0.5965363383293152, 'learning_rate': 1.9560166994106093e-05, 'epoch': 0.26522593320235754}
Step: 139 {'loss': 0.2448, 'grad_norm': 0.7329657077789307, 'learning_rate': 1.9543876882776686e-05, 'epoch': 0.275049115913556}
Step: 144 {'loss': 0.216, 'grad_norm': 0.7113737463951111, 'learning_rate': 1.9527586771447285e-05, 'epoch': 0.28487229862475444}
Step: 149 {'loss': 0.2218, 'grad_norm': 0.5827841758728027, 'learning_rate': 1.9511296660117878e-05, 'epoch': 0.29469548133595286}
Step: 154 {'loss': 0.2618, 'grad_norm': 1.0479822158813477, 'learning_rate': 1.9495006548788478e-05, 'epoch': 0.3045186640471513}
Step: 159 {'loss': 0.233, 'grad_norm': 0.6224740743637085, 'learning_rate': 1.947871643745907e-05, 'epoch': 0.3143418467583497}
Step: 164 {'loss': 0.229, 'grad_norm': 0.7807183265686035, 'learning_rate': 1.946242632612967e-05, 'epoch': 0.3241650294695481}
Step: 169 {'loss': 0.2788, 'grad_norm': 0.9005710482597351, 'learning_rate': 1.9446136214800263e-05, 'epoch': 0.33398821218074654}
Step: 174 {'loss': 0.3099, 'grad_norm': 0.9302765727043152, 'learning_rate': 1.942984610347086e-05, 'epoch': 0.343811394891945}
Step: 179 {'loss': 0.3007, 'grad_norm': 0.6517155170440674, 'learning_rate': 1.9413555992141455e-05, 'epoch': 0.35363457760314343}
Step: 184 {'loss': 0.3263, 'grad_norm': 0.698250412940979, 'learning_rate': 1.939726588081205e-05, 'epoch': 0.36345776031434185}
Step: 189 {'loss': 0.3223, 'grad_norm': 0.689185619354248, 'learning_rate': 1.9380975769482647e-05, 'epoch': 0.37328094302554027}
Step: 194 {'loss': 0.2703, 'grad_norm': 0.5968818068504333, 'learning_rate': 1.9364685658153243e-05, 'epoch': 0.3831041257367387}
Step: 199 {'loss': 0.3435, 'grad_norm': 0.6436284780502319, 'learning_rate': 1.934839554682384e-05, 'epoch': 0.3929273084479371}
Step: 204 {'loss': 0.3006, 'grad_norm': 0.6025826930999756, 'learning_rate': 1.9332105435494435e-05, 'epoch': 0.4027504911591356}
Step: 209 {'loss': 0.3313, 'grad_norm': 0.9338357448577881, 'learning_rate': 1.931581532416503e-05, 'epoch': 0.412573673870334}
Step: 214 {'loss': 0.2516, 'grad_norm': 0.691429853439331, 'learning_rate': 1.9299525212835628e-05, 'epoch': 0.4223968565815324}
Step: 219 {'loss': 0.3594, 'grad_norm': 0.938563883304596, 'learning_rate': 1.9283235101506224e-05, 'epoch': 0.43222003929273084}
Step: 224 {'loss': 0.2988, 'grad_norm': 0.8647168278694153, 'learning_rate': 1.9266944990176817e-05, 'epoch': 0.44204322200392926}
Step: 229 {'loss': 0.3052, 'grad_norm': 0.9312189817428589, 'learning_rate': 1.9250654878847416e-05, 'epoch': 0.4518664047151277}
Step: 234 {'loss': 0.3504, 'grad_norm': 0.804705798625946, 'learning_rate': 1.923436476751801e-05, 'epoch': 0.46168958742632615}
Step: 239 {'loss': 0.3055, 'grad_norm': 0.7460247278213501, 'learning_rate': 1.9218074656188608e-05, 'epoch': 0.4715127701375246}
Step: 244 {'loss': 0.2805, 'grad_norm': 0.7045362591743469, 'learning_rate': 1.92017845448592e-05, 'epoch': 0.481335952848723}
Step: 249 {'loss': 0.2797, 'grad_norm': 0.607958972454071, 'learning_rate': 1.9185494433529797e-05, 'epoch': 0.4911591355599214}
Step: 254 {'loss': 0.2773, 'grad_norm': 0.636614203453064, 'learning_rate': 1.9169204322200393e-05, 'epoch': 0.5009823182711198}
Step: 259 {'loss': 0.3354, 'grad_norm': 0.8025373816490173, 'learning_rate': 1.915291421087099e-05, 'epoch': 0.5108055009823183}
Step: 264 {'loss': 0.289, 'grad_norm': 0.6560590863227844, 'learning_rate': 1.9136624099541585e-05, 'epoch': 0.5206286836935167}
Step: 269 {'loss': 0.3308, 'grad_norm': 0.6710306406021118, 'learning_rate': 1.912033398821218e-05, 'epoch': 0.5304518664047151}
Step: 274 {'loss': 0.3209, 'grad_norm': 0.827606737613678, 'learning_rate': 1.9104043876882778e-05, 'epoch': 0.5402750491159135}
Step: 279 {'loss': 0.3375, 'grad_norm': 0.7361156940460205, 'learning_rate': 1.9087753765553374e-05, 'epoch': 0.550098231827112}
Step: 284 {'loss': 0.277, 'grad_norm': 0.70601487159729, 'learning_rate': 1.907146365422397e-05, 'epoch': 0.5599214145383105}
Step: 289 {'loss': 0.3514, 'grad_norm': 0.8054109811782837, 'learning_rate': 1.9055173542894566e-05, 'epoch': 0.5697445972495089}
Step: 294 {'loss': 0.3521, 'grad_norm': 0.8500304818153381, 'learning_rate': 1.9038883431565162e-05, 'epoch': 0.5795677799607073}
Step: 299 {'loss': 0.434, 'grad_norm': 0.8242791891098022, 'learning_rate': 1.9022593320235758e-05, 'epoch': 0.5893909626719057}
Step: 304 {'loss': 0.4013, 'grad_norm': 0.900187611579895, 'learning_rate': 1.9006303208906354e-05, 'epoch': 0.5992141453831041}
Step: 309 {'loss': 0.4506, 'grad_norm': 0.9188583493232727, 'learning_rate': 1.899001309757695e-05, 'epoch': 0.6090373280943026}
Step: 314 {'loss': 0.3835, 'grad_norm': 0.9156273007392883, 'learning_rate': 1.8973722986247547e-05, 'epoch': 0.618860510805501}
Step: 319 {'loss': 0.464, 'grad_norm': 0.827068030834198, 'learning_rate': 1.8957432874918143e-05, 'epoch': 0.6286836935166994}
Step: 324 {'loss': 0.3961, 'grad_norm': 0.8166849613189697, 'learning_rate': 1.894114276358874e-05, 'epoch': 0.6385068762278978}
Step: 329 {'loss': 0.3947, 'grad_norm': 0.9946207404136658, 'learning_rate': 1.8924852652259335e-05, 'epoch': 0.6483300589390962}
Step: 334 {'loss': 0.4184, 'grad_norm': 0.8289984464645386, 'learning_rate': 1.8908562540929928e-05, 'epoch': 0.6581532416502947}
Step: 339 {'loss': 0.421, 'grad_norm': 0.8176394701004028, 'learning_rate': 1.8892272429600527e-05, 'epoch': 0.6679764243614931}
Step: 344 {'loss': 0.4193, 'grad_norm': 0.7148486971855164, 'learning_rate': 1.887598231827112e-05, 'epoch': 0.6777996070726916}
Step: 349 {'loss': 0.3538, 'grad_norm': 1.0178767442703247, 'learning_rate': 1.885969220694172e-05, 'epoch': 0.68762278978389}
Step: 354 {'loss': 0.3648, 'grad_norm': 0.6765115857124329, 'learning_rate': 1.8843402095612312e-05, 'epoch': 0.6974459724950884}
Step: 359 {'loss': 0.3809, 'grad_norm': 0.6810128092765808, 'learning_rate': 1.882711198428291e-05, 'epoch': 0.7072691552062869}
Step: 364 {'loss': 0.3839, 'grad_norm': 0.6756783127784729, 'learning_rate': 1.8810821872953504e-05, 'epoch': 0.7170923379174853}
Step: 369 {'loss': 0.3648, 'grad_norm': 0.6592079997062683, 'learning_rate': 1.87945317616241e-05, 'epoch': 0.7269155206286837}
Step: 374 {'loss': 0.3862, 'grad_norm': 0.7786710858345032, 'learning_rate': 1.8778241650294696e-05, 'epoch': 0.7367387033398821}
Step: 379 {'loss': 0.3505, 'grad_norm': 0.733860194683075, 'learning_rate': 1.8761951538965293e-05, 'epoch': 0.7465618860510805}
Step: 384 {'loss': 0.3175, 'grad_norm': 0.8807781934738159, 'learning_rate': 1.874566142763589e-05, 'epoch': 0.756385068762279}
Step: 389 {'loss': 0.4313, 'grad_norm': 1.0699989795684814, 'learning_rate': 1.8729371316306485e-05, 'epoch': 0.7662082514734774}
Step: 394 {'loss': 0.3933, 'grad_norm': 0.6217973828315735, 'learning_rate': 1.871308120497708e-05, 'epoch': 0.7760314341846758}
Step: 399 {'loss': 0.4172, 'grad_norm': 0.6713030934333801, 'learning_rate': 1.8696791093647677e-05, 'epoch': 0.7858546168958742}
Step: 404 {'loss': 0.4356, 'grad_norm': 0.7658388018608093, 'learning_rate': 1.8680500982318273e-05, 'epoch': 0.7956777996070727}
Step: 409 {'loss': 0.4231, 'grad_norm': 0.9398330450057983, 'learning_rate': 1.866421087098887e-05, 'epoch': 0.8055009823182712}
Step: 414 {'loss': 0.493, 'grad_norm': 0.8306122422218323, 'learning_rate': 1.8647920759659465e-05, 'epoch': 0.8153241650294696}
Step: 419 {'loss': 0.4749, 'grad_norm': 1.0320240259170532, 'learning_rate': 1.8631630648330058e-05, 'epoch': 0.825147347740668}
Step: 424 {'loss': 0.5142, 'grad_norm': 0.9421079754829407, 'learning_rate': 1.8615340537000658e-05, 'epoch': 0.8349705304518664}
Step: 429 {'loss': 0.3806, 'grad_norm': 0.8402103781700134, 'learning_rate': 1.859905042567125e-05, 'epoch': 0.8447937131630648}
Step: 434 {'loss': 0.4083, 'grad_norm': 1.0285124778747559, 'learning_rate': 1.858276031434185e-05, 'epoch': 0.8546168958742633}
Step: 439 {'loss': 0.3738, 'grad_norm': 0.6517043709754944, 'learning_rate': 1.8566470203012443e-05, 'epoch': 0.8644400785854617}
Step: 444 {'loss': 0.3401, 'grad_norm': 0.5557760000228882, 'learning_rate': 1.855018009168304e-05, 'epoch': 0.8742632612966601}
Step: 449 {'loss': 0.4588, 'grad_norm': 0.7794454097747803, 'learning_rate': 1.8533889980353635e-05, 'epoch': 0.8840864440078585}
Step: 454 {'loss': 0.4136, 'grad_norm': 0.7425034046173096, 'learning_rate': 1.851759986902423e-05, 'epoch': 0.8939096267190569}
Step: 459 {'loss': 0.4735, 'grad_norm': 0.6216546893119812, 'learning_rate': 1.8501309757694827e-05, 'epoch': 0.9037328094302554}
Step: 464 {'loss': 0.3969, 'grad_norm': 0.6370240449905396, 'learning_rate': 1.8485019646365423e-05, 'epoch': 0.9135559921414538}
Step: 469 {'loss': 0.4292, 'grad_norm': 0.6910535097122192, 'learning_rate': 1.846872953503602e-05, 'epoch': 0.9233791748526523}
Step: 474 {'loss': 0.4422, 'grad_norm': 1.1449236869812012, 'learning_rate': 1.8452439423706615e-05, 'epoch': 0.9332023575638507}
Step: 479 {'loss': 0.4819, 'grad_norm': 0.7037743330001831, 'learning_rate': 1.843614931237721e-05, 'epoch': 0.9430255402750491}
Step: 484 {'loss': 0.4099, 'grad_norm': 1.231911301612854, 'learning_rate': 1.8419859201047808e-05, 'epoch': 0.9528487229862476}
Step: 489 {'loss': 0.399, 'grad_norm': 0.9729109406471252, 'learning_rate': 1.8403569089718404e-05, 'epoch': 0.962671905697446}
Step: 494 {'loss': 0.4707, 'grad_norm': 0.5432563424110413, 'learning_rate': 1.8387278978389e-05, 'epoch': 0.9724950884086444}
Step: 499 {'loss': 0.3627, 'grad_norm': 0.9130786061286926, 'learning_rate': 1.8370988867059596e-05, 'epoch': 0.9823182711198428}
Step: 504 {'loss': 0.4424, 'grad_norm': 0.8761870861053467, 'learning_rate': 1.8354698755730192e-05, 'epoch': 0.9921414538310412}
Step: 509 {'loss': 0.3992, 'grad_norm': 0.5126582384109497, 'learning_rate': 1.8338408644400788e-05, 'epoch': 1.0019646365422397}
Step: 514 {'loss': 0.2191, 'grad_norm': 0.39546048641204834, 'learning_rate': 1.8322118533071384e-05, 'epoch': 1.0117878192534382}
Step: 519 {'loss': 0.2251, 'grad_norm': 0.46317949891090393, 'learning_rate': 1.830582842174198e-05, 'epoch': 1.0216110019646365}
Step: 524 {'loss': 0.1817, 'grad_norm': 0.52866530418396, 'learning_rate': 1.8289538310412576e-05, 'epoch': 1.031434184675835}
Step: 529 {'loss': 0.2714, 'grad_norm': 0.734909176826477, 'learning_rate': 1.8273248199083173e-05, 'epoch': 1.0412573673870333}
Step: 534 {'loss': 0.2248, 'grad_norm': 0.6566342711448669, 'learning_rate': 1.825695808775377e-05, 'epoch': 1.0510805500982319}
Step: 539 {'loss': 0.2208, 'grad_norm': 0.5474307537078857, 'learning_rate': 1.824066797642436e-05, 'epoch': 1.0609037328094302}
Step: 544 {'loss': 0.2501, 'grad_norm': 0.616435170173645, 'learning_rate': 1.822437786509496e-05, 'epoch': 1.0707269155206287}
Step: 549 {'loss': 0.2395, 'grad_norm': 0.6381075382232666, 'learning_rate': 1.8208087753765554e-05, 'epoch': 1.080550098231827}
Step: 554 {'loss': 0.2141, 'grad_norm': 0.5885695219039917, 'learning_rate': 1.8191797642436153e-05, 'epoch': 1.0903732809430255}
Step: 559 {'loss': 0.2573, 'grad_norm': 0.7580814361572266, 'learning_rate': 1.8175507531106746e-05, 'epoch': 1.1001964636542239}
Step: 564 {'loss': 0.2455, 'grad_norm': 0.5647069811820984, 'learning_rate': 1.8159217419777342e-05, 'epoch': 1.1100196463654224}
Step: 569 {'loss': 0.2307, 'grad_norm': 0.4571567177772522, 'learning_rate': 1.8142927308447938e-05, 'epoch': 1.119842829076621}
Step: 574 {'loss': 0.2494, 'grad_norm': 0.5625764727592468, 'learning_rate': 1.8126637197118534e-05, 'epoch': 1.1296660117878192}
Step: 579 {'loss': 0.2512, 'grad_norm': 0.7401487231254578, 'learning_rate': 1.811034708578913e-05, 'epoch': 1.1394891944990178}
Step: 584 {'loss': 0.2501, 'grad_norm': 0.62385493516922, 'learning_rate': 1.8094056974459726e-05, 'epoch': 1.149312377210216}
Step: 589 {'loss': 0.225, 'grad_norm': 0.5266279578208923, 'learning_rate': 1.8077766863130323e-05, 'epoch': 1.1591355599214146}
Step: 594 {'loss': 0.2456, 'grad_norm': 0.6872111558914185, 'learning_rate': 1.806147675180092e-05, 'epoch': 1.168958742632613}
Step: 599 {'loss': 0.2555, 'grad_norm': 0.5332751274108887, 'learning_rate': 1.8045186640471515e-05, 'epoch': 1.1787819253438114}
Step: 604 {'loss': 0.2082, 'grad_norm': 0.7124435901641846, 'learning_rate': 1.802889652914211e-05, 'epoch': 1.1886051080550097}
Step: 609 {'loss': 0.2239, 'grad_norm': 0.5000383257865906, 'learning_rate': 1.8012606417812707e-05, 'epoch': 1.1984282907662083}
Step: 614 {'loss': 0.2356, 'grad_norm': 0.6753183603286743, 'learning_rate': 1.79963163064833e-05, 'epoch': 1.2082514734774068}
Step: 619 {'loss': 0.2416, 'grad_norm': 0.596390426158905, 'learning_rate': 1.79800261951539e-05, 'epoch': 1.218074656188605}
Step: 624 {'loss': 0.2738, 'grad_norm': 0.5876522064208984, 'learning_rate': 1.7963736083824492e-05, 'epoch': 1.2278978388998034}
Step: 629 {'loss': 0.2049, 'grad_norm': 0.7777557969093323, 'learning_rate': 1.794744597249509e-05, 'epoch': 1.237721021611002}
Step: 634 {'loss': 0.2246, 'grad_norm': 0.6285082101821899, 'learning_rate': 1.7931155861165684e-05, 'epoch': 1.2475442043222005}
Step: 639 {'loss': 0.2487, 'grad_norm': 0.6431088447570801, 'learning_rate': 1.791486574983628e-05, 'epoch': 1.2573673870333988}
Step: 644 {'loss': 0.244, 'grad_norm': 0.6007729768753052, 'learning_rate': 1.7898575638506876e-05, 'epoch': 1.2671905697445973}
Step: 649 {'loss': 0.2078, 'grad_norm': 0.6399940252304077, 'learning_rate': 1.7882285527177472e-05, 'epoch': 1.2770137524557956}
Step: 654 {'loss': 0.2194, 'grad_norm': 0.735142171382904, 'learning_rate': 1.786599541584807e-05, 'epoch': 1.2868369351669942}
Step: 659 {'loss': 0.2396, 'grad_norm': 0.5172590017318726, 'learning_rate': 1.7849705304518665e-05, 'epoch': 1.2966601178781925}
Step: 664 {'loss': 0.266, 'grad_norm': 0.7722560167312622, 'learning_rate': 1.783341519318926e-05, 'epoch': 1.306483300589391}
Step: 669 {'loss': 0.289, 'grad_norm': 0.7368307113647461, 'learning_rate': 1.7817125081859857e-05, 'epoch': 1.3163064833005893}
Step: 674 {'loss': 0.2133, 'grad_norm': 0.5883134007453918, 'learning_rate': 1.7800834970530453e-05, 'epoch': 1.3261296660117878}
Step: 679 {'loss': 0.2452, 'grad_norm': 0.581271231174469, 'learning_rate': 1.778454485920105e-05, 'epoch': 1.3359528487229864}
Step: 684 {'loss': 0.1964, 'grad_norm': 0.6701071262359619, 'learning_rate': 1.7768254747871645e-05, 'epoch': 1.3457760314341847}
Step: 689 {'loss': 0.2737, 'grad_norm': 0.6320213675498962, 'learning_rate': 1.775196463654224e-05, 'epoch': 1.355599214145383}
Step: 694 {'loss': 0.235, 'grad_norm': 0.6873446106910706, 'learning_rate': 1.7735674525212837e-05, 'epoch': 1.3654223968565815}
Step: 699 {'loss': 0.2376, 'grad_norm': 0.658940315246582, 'learning_rate': 1.7719384413883434e-05, 'epoch': 1.37524557956778}
Step: 704 {'loss': 0.2299, 'grad_norm': 0.6229343414306641, 'learning_rate': 1.770309430255403e-05, 'epoch': 1.3850687622789783}
Step: 709 {'loss': 0.2031, 'grad_norm': 0.7229899168014526, 'learning_rate': 1.7686804191224626e-05, 'epoch': 1.3948919449901769}
Step: 714 {'loss': 0.2488, 'grad_norm': 0.8269477486610413, 'learning_rate': 1.7670514079895222e-05, 'epoch': 1.4047151277013752}
Step: 719 {'loss': 0.2007, 'grad_norm': 0.72757488489151, 'learning_rate': 1.7654223968565818e-05, 'epoch': 1.4145383104125737}
Step: 724 {'loss': 0.2265, 'grad_norm': 0.7629486918449402, 'learning_rate': 1.7637933857236414e-05, 'epoch': 1.424361493123772}
Step: 729 {'loss': 0.2136, 'grad_norm': 0.45824500918388367, 'learning_rate': 1.762164374590701e-05, 'epoch': 1.4341846758349706}
Step: 734 {'loss': 0.2044, 'grad_norm': 0.5940768718719482, 'learning_rate': 1.7605353634577603e-05, 'epoch': 1.4440078585461689}
Step: 739 {'loss': 0.2396, 'grad_norm': 0.7655736804008484, 'learning_rate': 1.7589063523248202e-05, 'epoch': 1.4538310412573674}
Step: 744 {'loss': 0.2403, 'grad_norm': 0.6239913702011108, 'learning_rate': 1.7572773411918795e-05, 'epoch': 1.463654223968566}
Step: 749 {'loss': 0.2375, 'grad_norm': 0.5679169297218323, 'learning_rate': 1.7556483300589395e-05, 'epoch': 1.4734774066797642}
Step: 754 {'loss': 0.2332, 'grad_norm': 0.7249923348426819, 'learning_rate': 1.7540193189259987e-05, 'epoch': 1.4833005893909625}
Step: 759 {'loss': 0.2259, 'grad_norm': 1.2933707237243652, 'learning_rate': 1.7523903077930584e-05, 'epoch': 1.493123772102161}
Step: 764 {'loss': 0.2232, 'grad_norm': 0.5432590246200562, 'learning_rate': 1.750761296660118e-05, 'epoch': 1.5029469548133596}
Step: 769 {'loss': 0.2125, 'grad_norm': 0.7361872792243958, 'learning_rate': 1.7491322855271776e-05, 'epoch': 1.512770137524558}
Step: 774 {'loss': 0.2092, 'grad_norm': 0.7241547703742981, 'learning_rate': 1.7475032743942372e-05, 'epoch': 1.5225933202357562}
Step: 779 {'loss': 0.2131, 'grad_norm': 0.6087746620178223, 'learning_rate': 1.7458742632612968e-05, 'epoch': 1.5324165029469548}
Step: 784 {'loss': 0.2515, 'grad_norm': 0.8379825353622437, 'learning_rate': 1.7442452521283564e-05, 'epoch': 1.5422396856581533}
Step: 789 {'loss': 0.2236, 'grad_norm': 0.7789944410324097, 'learning_rate': 1.742616240995416e-05, 'epoch': 1.5520628683693518}
Step: 794 {'loss': 0.2346, 'grad_norm': 0.6758043766021729, 'learning_rate': 1.7409872298624756e-05, 'epoch': 1.5618860510805501}
Step: 799 {'loss': 0.2273, 'grad_norm': 0.7454090714454651, 'learning_rate': 1.7393582187295352e-05, 'epoch': 1.5717092337917484}
Step: 804 {'loss': 0.2542, 'grad_norm': 0.6845524907112122, 'learning_rate': 1.737729207596595e-05, 'epoch': 1.581532416502947}
Step: 809 {'loss': 0.1918, 'grad_norm': 0.6317906379699707, 'learning_rate': 1.736100196463654e-05, 'epoch': 1.5913555992141455}
Step: 814 {'loss': 0.3118, 'grad_norm': 0.7423324584960938, 'learning_rate': 1.734471185330714e-05, 'epoch': 1.6011787819253438}
Step: 819 {'loss': 0.2388, 'grad_norm': 0.6333624720573425, 'learning_rate': 1.7328421741977733e-05, 'epoch': 1.611001964636542}
Step: 824 {'loss': 0.2259, 'grad_norm': 0.8073064088821411, 'learning_rate': 1.7312131630648333e-05, 'epoch': 1.6208251473477406}
Step: 829 {'loss': 0.2503, 'grad_norm': 0.6911441087722778, 'learning_rate': 1.7295841519318926e-05, 'epoch': 1.6306483300589392}
Step: 834 {'loss': 0.2738, 'grad_norm': 0.6554625034332275, 'learning_rate': 1.7279551407989522e-05, 'epoch': 1.6404715127701375}
Step: 839 {'loss': 0.2354, 'grad_norm': 0.7688614726066589, 'learning_rate': 1.7263261296660118e-05, 'epoch': 1.650294695481336}
Step: 844 {'loss': 0.2541, 'grad_norm': 0.8412281274795532, 'learning_rate': 1.7246971185330714e-05, 'epoch': 1.6601178781925343}
Step: 849 {'loss': 0.2164, 'grad_norm': 0.5592839121818542, 'learning_rate': 1.723068107400131e-05, 'epoch': 1.6699410609037328}
Step: 854 {'loss': 0.2387, 'grad_norm': 0.6939553022384644, 'learning_rate': 1.7214390962671906e-05, 'epoch': 1.6797642436149314}
Step: 859 {'loss': 0.2206, 'grad_norm': 0.6087666153907776, 'learning_rate': 1.7198100851342502e-05, 'epoch': 1.6895874263261297}
Step: 864 {'loss': 0.2315, 'grad_norm': 0.6133489608764648, 'learning_rate': 1.71818107400131e-05, 'epoch': 1.699410609037328}
Step: 869 {'loss': 0.2122, 'grad_norm': 0.540007472038269, 'learning_rate': 1.7165520628683695e-05, 'epoch': 1.7092337917485265}
Step: 874 {'loss': 0.3111, 'grad_norm': 0.921014130115509, 'learning_rate': 1.714923051735429e-05, 'epoch': 1.719056974459725}
Step: 879 {'loss': 0.2525, 'grad_norm': 0.6614503264427185, 'learning_rate': 1.7132940406024887e-05, 'epoch': 1.7288801571709234}
Step: 884 {'loss': 0.1946, 'grad_norm': 0.516295313835144, 'learning_rate': 1.7116650294695483e-05, 'epoch': 1.7387033398821217}
Step: 889 {'loss': 0.2409, 'grad_norm': 0.6690623760223389, 'learning_rate': 1.710036018336608e-05, 'epoch': 1.7485265225933202}
Step: 894 {'loss': 0.2372, 'grad_norm': 0.5299563407897949, 'learning_rate': 1.7084070072036675e-05, 'epoch': 1.7583497053045187}
Step: 899 {'loss': 0.2395, 'grad_norm': 0.5810592770576477, 'learning_rate': 1.706777996070727e-05, 'epoch': 1.768172888015717}
Step: 904 {'loss': 0.2423, 'grad_norm': 0.6997425556182861, 'learning_rate': 1.7051489849377867e-05, 'epoch': 1.7779960707269156}
Step: 909 {'loss': 0.2537, 'grad_norm': 0.6408511996269226, 'learning_rate': 1.703519973804846e-05, 'epoch': 1.7878192534381139}
Step: 914 {'loss': 0.2769, 'grad_norm': 0.7009145617485046, 'learning_rate': 1.701890962671906e-05, 'epoch': 1.7976424361493124}
Step: 919 {'loss': 0.2386, 'grad_norm': 0.4867086708545685, 'learning_rate': 1.7002619515389656e-05, 'epoch': 1.807465618860511}
Step: 924 {'loss': 0.2259, 'grad_norm': 0.6176189184188843, 'learning_rate': 1.6986329404060252e-05, 'epoch': 1.8172888015717092}
Step: 929 {'loss': 0.2378, 'grad_norm': 0.6850773692131042, 'learning_rate': 1.6970039292730845e-05, 'epoch': 1.8271119842829076}
Step: 934 {'loss': 0.255, 'grad_norm': 0.6804670095443726, 'learning_rate': 1.6953749181401444e-05, 'epoch': 1.836935166994106}
Step: 939 {'loss': 0.2084, 'grad_norm': 0.4811651110649109, 'learning_rate': 1.6937459070072037e-05, 'epoch': 1.8467583497053046}
Step: 944 {'loss': 0.2631, 'grad_norm': 0.7618295550346375, 'learning_rate': 1.6921168958742636e-05, 'epoch': 1.856581532416503}
Step: 949 {'loss': 0.2069, 'grad_norm': 0.7135100960731506, 'learning_rate': 1.690487884741323e-05, 'epoch': 1.8664047151277012}
Step: 954 {'loss': 0.27, 'grad_norm': 0.6815476417541504, 'learning_rate': 1.6888588736083825e-05, 'epoch': 1.8762278978388998}
Step: 959 {'loss': 0.1963, 'grad_norm': 0.7779207825660706, 'learning_rate': 1.687229862475442e-05, 'epoch': 1.8860510805500983}
Step: 964 {'loss': 0.2374, 'grad_norm': 0.65095454454422, 'learning_rate': 1.6856008513425017e-05, 'epoch': 1.8958742632612968}
Step: 969 {'loss': 0.2075, 'grad_norm': 0.6065031886100769, 'learning_rate': 1.6839718402095613e-05, 'epoch': 1.9056974459724951}
Step: 974 {'loss': 0.1929, 'grad_norm': 0.68706214427948, 'learning_rate': 1.682342829076621e-05, 'epoch': 1.9155206286836934}
Step: 979 {'loss': 0.2086, 'grad_norm': 0.6132131814956665, 'learning_rate': 1.6807138179436806e-05, 'epoch': 1.925343811394892}
Step: 984 {'loss': 0.2068, 'grad_norm': 0.5136024951934814, 'learning_rate': 1.6790848068107402e-05, 'epoch': 1.9351669941060905}
Step: 989 {'loss': 0.2342, 'grad_norm': 0.6358546614646912, 'learning_rate': 1.6774557956777998e-05, 'epoch': 1.9449901768172888}
Step: 994 {'loss': 0.2111, 'grad_norm': 0.689372718334198, 'learning_rate': 1.6758267845448594e-05, 'epoch': 1.9548133595284871}
Step: 999 {'loss': 0.2523, 'grad_norm': 0.6569370627403259, 'learning_rate': 1.674197773411919e-05, 'epoch': 1.9646365422396856}
Step: 1004 {'loss': 0.2063, 'grad_norm': 0.5031889081001282, 'learning_rate': 1.6725687622789783e-05, 'epoch': 1.9744597249508842}
Step: 1009 {'loss': 0.2973, 'grad_norm': 0.6631793975830078, 'learning_rate': 1.6709397511460382e-05, 'epoch': 1.9842829076620825}
Step: 1014 {'loss': 0.2277, 'grad_norm': 0.5639557242393494, 'learning_rate': 1.6693107400130975e-05, 'epoch': 1.9941060903732808}
Step: 1019 {'loss': 0.214, 'grad_norm': 0.43371278047561646, 'learning_rate': 1.6676817288801575e-05, 'epoch': 2.0039292730844793}
Step: 1024 {'loss': 0.1411, 'grad_norm': 0.43645569682121277, 'learning_rate': 1.6660527177472167e-05, 'epoch': 2.013752455795678}
Step: 1029 {'loss': 0.1509, 'grad_norm': 0.4640417993068695, 'learning_rate': 1.6644237066142763e-05, 'epoch': 2.0235756385068764}
Step: 1034 {'loss': 0.1861, 'grad_norm': 0.6982092261314392, 'learning_rate': 1.662794695481336e-05, 'epoch': 2.0333988212180745}
Step: 1039 {'loss': 0.1516, 'grad_norm': 0.5707835555076599, 'learning_rate': 1.6611656843483956e-05, 'epoch': 2.043222003929273}
Step: 1044 {'loss': 0.1344, 'grad_norm': 0.538029134273529, 'learning_rate': 1.6595366732154552e-05, 'epoch': 2.0530451866404715}
Step: 1049 {'loss': 0.1765, 'grad_norm': 0.6199842095375061, 'learning_rate': 1.6579076620825148e-05, 'epoch': 2.06286836935167}
Step: 1054 {'loss': 0.1464, 'grad_norm': 0.5908105969429016, 'learning_rate': 1.6562786509495744e-05, 'epoch': 2.072691552062868}
Step: 1059 {'loss': 0.1479, 'grad_norm': 0.6463027596473694, 'learning_rate': 1.654649639816634e-05, 'epoch': 2.0825147347740667}
Step: 1064 {'loss': 0.154, 'grad_norm': 0.6889688372612, 'learning_rate': 1.6530206286836936e-05, 'epoch': 2.092337917485265}
Step: 1069 {'loss': 0.1465, 'grad_norm': 0.5016688108444214, 'learning_rate': 1.6513916175507532e-05, 'epoch': 2.1021611001964637}
Step: 1074 {'loss': 0.1549, 'grad_norm': 0.5965439081192017, 'learning_rate': 1.649762606417813e-05, 'epoch': 2.1119842829076623}
Step: 1079 {'loss': 0.1657, 'grad_norm': 0.526199996471405, 'learning_rate': 1.6481335952848725e-05, 'epoch': 2.1218074656188604}
Step: 1084 {'loss': 0.1605, 'grad_norm': 0.4328424334526062, 'learning_rate': 1.646504584151932e-05, 'epoch': 2.131630648330059}
Step: 1089 {'loss': 0.1597, 'grad_norm': 0.4584665596485138, 'learning_rate': 1.6448755730189917e-05, 'epoch': 2.1414538310412574}
Step: 1094 {'loss': 0.1666, 'grad_norm': 0.7015101313591003, 'learning_rate': 1.6432465618860513e-05, 'epoch': 2.151277013752456}
Step: 1099 {'loss': 0.1329, 'grad_norm': 0.4226680397987366, 'learning_rate': 1.641617550753111e-05, 'epoch': 2.161100196463654}
Step: 1104 {'loss': 0.1616, 'grad_norm': 0.9867937564849854, 'learning_rate': 1.63998853962017e-05, 'epoch': 2.1709233791748526}
Step: 1109 {'loss': 0.1682, 'grad_norm': 0.6454806327819824, 'learning_rate': 1.63835952848723e-05, 'epoch': 2.180746561886051}
Step: 1114 {'loss': 0.1483, 'grad_norm': 0.6734035611152649, 'learning_rate': 1.6367305173542897e-05, 'epoch': 2.1905697445972496}
Step: 1119 {'loss': 0.1471, 'grad_norm': 0.5010636448860168, 'learning_rate': 1.6351015062213493e-05, 'epoch': 2.2003929273084477}
Step: 1124 {'loss': 0.1453, 'grad_norm': 0.6037729382514954, 'learning_rate': 1.6334724950884086e-05, 'epoch': 2.2102161100196462}
Step: 1129 {'loss': 0.1471, 'grad_norm': 0.5089741945266724, 'learning_rate': 1.6318434839554686e-05, 'epoch': 2.2200392927308448}
Step: 1134 {'loss': 0.1767, 'grad_norm': 0.7463049292564392, 'learning_rate': 1.630214472822528e-05, 'epoch': 2.2298624754420433}
Step: 1139 {'loss': 0.1444, 'grad_norm': 0.49675294756889343, 'learning_rate': 1.6285854616895878e-05, 'epoch': 2.239685658153242}
Step: 1144 {'loss': 0.153, 'grad_norm': 0.6476811766624451, 'learning_rate': 1.626956450556647e-05, 'epoch': 2.24950884086444}
Step: 1149 {'loss': 0.1886, 'grad_norm': 0.9307346940040588, 'learning_rate': 1.6253274394237067e-05, 'epoch': 2.2593320235756384}
Step: 1154 {'loss': 0.1762, 'grad_norm': 0.4873563349246979, 'learning_rate': 1.6236984282907663e-05, 'epoch': 2.269155206286837}
Step: 1159 {'loss': 0.1399, 'grad_norm': 0.640839159488678, 'learning_rate': 1.622069417157826e-05, 'epoch': 2.2789783889980355}
Step: 1164 {'loss': 0.144, 'grad_norm': 0.48586615920066833, 'learning_rate': 1.6204404060248855e-05, 'epoch': 2.288801571709234}
Step: 1169 {'loss': 0.1546, 'grad_norm': 0.43397071957588196, 'learning_rate': 1.618811394891945e-05, 'epoch': 2.298624754420432}
Step: 1174 {'loss': 0.1483, 'grad_norm': 0.5049881935119629, 'learning_rate': 1.6171823837590047e-05, 'epoch': 2.3084479371316307}
Step: 1179 {'loss': 0.188, 'grad_norm': 0.7935538291931152, 'learning_rate': 1.6155533726260643e-05, 'epoch': 2.318271119842829}
Step: 1184 {'loss': 0.1561, 'grad_norm': 0.39290180802345276, 'learning_rate': 1.613924361493124e-05, 'epoch': 2.3280943025540273}
Step: 1189 {'loss': 0.156, 'grad_norm': 0.7177528142929077, 'learning_rate': 1.6122953503601836e-05, 'epoch': 2.337917485265226}
Step: 1194 {'loss': 0.1504, 'grad_norm': 0.5404071807861328, 'learning_rate': 1.6106663392272432e-05, 'epoch': 2.3477406679764243}
Step: 1199 {'loss': 0.1454, 'grad_norm': 0.4914857745170593, 'learning_rate': 1.6090373280943024e-05, 'epoch': 2.357563850687623}
Step: 1204 {'loss': 0.136, 'grad_norm': 0.7014253735542297, 'learning_rate': 1.6074083169613624e-05, 'epoch': 2.3673870333988214}
Step: 1209 {'loss': 0.1553, 'grad_norm': 0.6066750884056091, 'learning_rate': 1.6057793058284217e-05, 'epoch': 2.3772102161100195}
Step: 1214 {'loss': 0.1472, 'grad_norm': 0.6617081165313721, 'learning_rate': 1.6041502946954816e-05, 'epoch': 2.387033398821218}
Step: 1219 {'loss': 0.1505, 'grad_norm': 0.5253880023956299, 'learning_rate': 1.602521283562541e-05, 'epoch': 2.3968565815324165}
Step: 1224 {'loss': 0.1636, 'grad_norm': 0.5538043975830078, 'learning_rate': 1.6008922724296005e-05, 'epoch': 2.406679764243615}
Step: 1229 {'loss': 0.1658, 'grad_norm': 0.8415005207061768, 'learning_rate': 1.59926326129666e-05, 'epoch': 2.4165029469548136}
Step: 1234 {'loss': 0.1443, 'grad_norm': 0.48325660824775696, 'learning_rate': 1.5976342501637197e-05, 'epoch': 2.4263261296660117}
Step: 1239 {'loss': 0.1273, 'grad_norm': 0.6479746699333191, 'learning_rate': 1.5960052390307793e-05, 'epoch': 2.43614931237721}
Step: 1244 {'loss': 0.1704, 'grad_norm': 0.6262346506118774, 'learning_rate': 1.594376227897839e-05, 'epoch': 2.4459724950884087}
Step: 1249 {'loss': 0.1543, 'grad_norm': 0.6037960052490234, 'learning_rate': 1.5927472167648986e-05, 'epoch': 2.455795677799607}
Step: 1254 {'loss': 0.1291, 'grad_norm': 0.38264748454093933, 'learning_rate': 1.591118205631958e-05, 'epoch': 2.4656188605108054}
Step: 1259 {'loss': 0.1828, 'grad_norm': 0.8341701626777649, 'learning_rate': 1.5894891944990178e-05, 'epoch': 2.475442043222004}
Step: 1264 {'loss': 0.1608, 'grad_norm': 0.6994814276695251, 'learning_rate': 1.5878601833660774e-05, 'epoch': 2.4852652259332024}
Step: 1269 {'loss': 0.166, 'grad_norm': 0.5560505390167236, 'learning_rate': 1.586231172233137e-05, 'epoch': 2.495088408644401}
Step: 1274 {'loss': 0.1469, 'grad_norm': 0.5680766701698303, 'learning_rate': 1.5846021611001966e-05, 'epoch': 2.504911591355599}
Step: 1279 {'loss': 0.1574, 'grad_norm': 0.651357889175415, 'learning_rate': 1.5829731499672562e-05, 'epoch': 2.5147347740667976}
Step: 1284 {'loss': 0.1461, 'grad_norm': 0.5477312207221985, 'learning_rate': 1.581344138834316e-05, 'epoch': 2.524557956777996}
Step: 1289 {'loss': 0.1547, 'grad_norm': 0.803046464920044, 'learning_rate': 1.5797151277013754e-05, 'epoch': 2.5343811394891946}
Step: 1294 {'loss': 0.1314, 'grad_norm': 0.512597382068634, 'learning_rate': 1.578086116568435e-05, 'epoch': 2.544204322200393}
Step: 1299 {'loss': 0.1618, 'grad_norm': 0.48645615577697754, 'learning_rate': 1.5764571054354943e-05, 'epoch': 2.5540275049115913}
Step: 1304 {'loss': 0.1514, 'grad_norm': 0.6166585683822632, 'learning_rate': 1.5748280943025543e-05, 'epoch': 2.56385068762279}
Step: 1309 {'loss': 0.1661, 'grad_norm': 0.7231788039207458, 'learning_rate': 1.573199083169614e-05, 'epoch': 2.5736738703339883}
Step: 1314 {'loss': 0.1698, 'grad_norm': 0.6137287616729736, 'learning_rate': 1.5715700720366735e-05, 'epoch': 2.5834970530451864}
Step: 1319 {'loss': 0.14, 'grad_norm': 0.6160982847213745, 'learning_rate': 1.5699410609037328e-05, 'epoch': 2.593320235756385}
Step: 1324 {'loss': 0.1515, 'grad_norm': 0.5663251876831055, 'learning_rate': 1.5683120497707927e-05, 'epoch': 2.6031434184675835}
Step: 1329 {'loss': 0.1561, 'grad_norm': 0.6104933619499207, 'learning_rate': 1.566683038637852e-05, 'epoch': 2.612966601178782}
Step: 1334 {'loss': 0.1289, 'grad_norm': 0.46442896127700806, 'learning_rate': 1.565054027504912e-05, 'epoch': 2.6227897838899805}
Step: 1339 {'loss': 0.1542, 'grad_norm': 0.5988507866859436, 'learning_rate': 1.5634250163719712e-05, 'epoch': 2.6326129666011786}
Step: 1344 {'loss': 0.1358, 'grad_norm': 0.5989588499069214, 'learning_rate': 1.5617960052390308e-05, 'epoch': 2.642436149312377}
Step: 1349 {'loss': 0.1713, 'grad_norm': 0.8599472045898438, 'learning_rate': 1.5601669941060904e-05, 'epoch': 2.6522593320235757}
Step: 1354 {'loss': 0.1687, 'grad_norm': 0.6585903167724609, 'learning_rate': 1.55853798297315e-05, 'epoch': 2.662082514734774}
Step: 1359 {'loss': 0.1538, 'grad_norm': 0.6269913911819458, 'learning_rate': 1.5569089718402097e-05, 'epoch': 2.6719056974459727}
Step: 1364 {'loss': 0.1601, 'grad_norm': 0.5297213792800903, 'learning_rate': 1.5552799607072693e-05, 'epoch': 2.681728880157171}
Step: 1369 {'loss': 0.1616, 'grad_norm': 0.4998027980327606, 'learning_rate': 1.553650949574329e-05, 'epoch': 2.6915520628683693}
Step: 1374 {'loss': 0.1521, 'grad_norm': 0.75226229429245, 'learning_rate': 1.5520219384413885e-05, 'epoch': 2.701375245579568}
Step: 1379 {'loss': 0.1601, 'grad_norm': 0.6873297095298767, 'learning_rate': 1.550392927308448e-05, 'epoch': 2.711198428290766}
Step: 1384 {'loss': 0.1634, 'grad_norm': 0.7437484860420227, 'learning_rate': 1.5487639161755077e-05, 'epoch': 2.7210216110019645}
Step: 1389 {'loss': 0.1635, 'grad_norm': 0.4928491711616516, 'learning_rate': 1.5471349050425673e-05, 'epoch': 2.730844793713163}
Step: 1394 {'loss': 0.1948, 'grad_norm': 0.8229206800460815, 'learning_rate': 1.5455058939096266e-05, 'epoch': 2.7406679764243616}
Step: 1399 {'loss': 0.1697, 'grad_norm': 0.6951707601547241, 'learning_rate': 1.5438768827766866e-05, 'epoch': 2.75049115913556}
Step: 1404 {'loss': 0.1706, 'grad_norm': 0.7955209016799927, 'learning_rate': 1.5422478716437458e-05, 'epoch': 2.760314341846758}
Step: 1409 {'loss': 0.1722, 'grad_norm': 0.9488746523857117, 'learning_rate': 1.5406188605108058e-05, 'epoch': 2.7701375245579567}
Step: 1414 {'loss': 0.136, 'grad_norm': 0.5169118642807007, 'learning_rate': 1.538989849377865e-05, 'epoch': 2.7799607072691552}
Step: 1419 {'loss': 0.1694, 'grad_norm': 0.6851953268051147, 'learning_rate': 1.5373608382449247e-05, 'epoch': 2.7897838899803538}
Step: 1424 {'loss': 0.1354, 'grad_norm': 0.5306094884872437, 'learning_rate': 1.5357318271119846e-05, 'epoch': 2.7996070726915523}
Step: 1429 {'loss': 0.1562, 'grad_norm': 1.1730802059173584, 'learning_rate': 1.534102815979044e-05, 'epoch': 2.8094302554027504}
Step: 1434 {'loss': 0.1493, 'grad_norm': 0.4521992802619934, 'learning_rate': 1.5324738048461038e-05, 'epoch': 2.819253438113949}
Step: 1439 {'loss': 0.1675, 'grad_norm': 0.558160126209259, 'learning_rate': 1.530844793713163e-05, 'epoch': 2.8290766208251474}
Step: 1444 {'loss': 0.1443, 'grad_norm': 0.6779557466506958, 'learning_rate': 1.5292157825802227e-05, 'epoch': 2.8388998035363455}
Step: 1449 {'loss': 0.1592, 'grad_norm': 0.88018399477005, 'learning_rate': 1.5275867714472823e-05, 'epoch': 2.848722986247544}
Step: 1454 {'loss': 0.1385, 'grad_norm': 0.6150639057159424, 'learning_rate': 1.525957760314342e-05, 'epoch': 2.8585461689587426}
Step: 1459 {'loss': 0.1723, 'grad_norm': 0.797444224357605, 'learning_rate': 1.5243287491814015e-05, 'epoch': 2.868369351669941}
Step: 1464 {'loss': 0.1581, 'grad_norm': 0.6445866227149963, 'learning_rate': 1.5226997380484613e-05, 'epoch': 2.8781925343811396}
Step: 1469 {'loss': 0.1499, 'grad_norm': 0.5285264253616333, 'learning_rate': 1.5210707269155208e-05, 'epoch': 2.8880157170923377}
Step: 1474 {'loss': 0.1719, 'grad_norm': 0.6450355648994446, 'learning_rate': 1.5194417157825805e-05, 'epoch': 2.8978388998035363}
Step: 1479 {'loss': 0.1587, 'grad_norm': 0.5117760896682739, 'learning_rate': 1.51781270464964e-05, 'epoch': 2.907662082514735}
Step: 1484 {'loss': 0.1677, 'grad_norm': 0.5712604522705078, 'learning_rate': 1.5161836935166998e-05, 'epoch': 2.9174852652259333}
Step: 1489 {'loss': 0.1631, 'grad_norm': 0.6161572933197021, 'learning_rate': 1.5145546823837592e-05, 'epoch': 2.927308447937132}
Step: 1494 {'loss': 0.1661, 'grad_norm': 0.6128095984458923, 'learning_rate': 1.5129256712508188e-05, 'epoch': 2.93713163064833}
Step: 1499 {'loss': 0.168, 'grad_norm': 0.7434088587760925, 'learning_rate': 1.5112966601178784e-05, 'epoch': 2.9469548133595285}
Step: 1504 {'loss': 0.1377, 'grad_norm': 0.5545058250427246, 'learning_rate': 1.5096676489849382e-05, 'epoch': 2.956777996070727}
Step: 1509 {'loss': 0.1694, 'grad_norm': 0.7597054243087769, 'learning_rate': 1.5080386378519975e-05, 'epoch': 2.966601178781925}
Step: 1514 {'loss': 0.1621, 'grad_norm': 0.5328817963600159, 'learning_rate': 1.5064096267190573e-05, 'epoch': 2.9764243614931236}
Step: 1519 {'loss': 0.1577, 'grad_norm': 0.6361211538314819, 'learning_rate': 1.5047806155861169e-05, 'epoch': 2.986247544204322}
Step: 1524 {'loss': 0.1696, 'grad_norm': 0.6703838109970093, 'learning_rate': 1.5031516044531765e-05, 'epoch': 2.9960707269155207}
Step: 1529 {'loss': 0.1315, 'grad_norm': 0.49559715390205383, 'learning_rate': 1.5015225933202363e-05, 'epoch': 3.005893909626719}
Step: 1534 {'loss': 0.1086, 'grad_norm': 0.4400518536567688, 'learning_rate': 1.4998935821872957e-05, 'epoch': 3.0157170923379173}
Step: 1539 {'loss': 0.0917, 'grad_norm': 0.3638526499271393, 'learning_rate': 1.4982645710543552e-05, 'epoch': 3.025540275049116}
Step: 1544 {'loss': 0.1111, 'grad_norm': 0.5211286544799805, 'learning_rate': 1.4966355599214146e-05, 'epoch': 3.0353634577603144}
Step: 1549 {'loss': 0.1103, 'grad_norm': 0.6068059206008911, 'learning_rate': 1.4950065487884744e-05, 'epoch': 3.045186640471513}
Step: 1554 {'loss': 0.1041, 'grad_norm': 0.4705624282360077, 'learning_rate': 1.4933775376555342e-05, 'epoch': 3.0550098231827114}
Step: 1559 {'loss': 0.0995, 'grad_norm': 0.3504186272621155, 'learning_rate': 1.4917485265225934e-05, 'epoch': 3.0648330058939095}
Step: 1564 {'loss': 0.1053, 'grad_norm': 0.6889111995697021, 'learning_rate': 1.490119515389653e-05, 'epoch': 3.074656188605108}
Step: 1569 {'loss': 0.0952, 'grad_norm': 0.44175490736961365, 'learning_rate': 1.4884905042567127e-05, 'epoch': 3.0844793713163066}
Step: 1574 {'loss': 0.0913, 'grad_norm': 0.5547015070915222, 'learning_rate': 1.4868614931237724e-05, 'epoch': 3.094302554027505}
Step: 1579 {'loss': 0.1028, 'grad_norm': 0.5337106585502625, 'learning_rate': 1.4852324819908322e-05, 'epoch': 3.104125736738703}
Step: 1584 {'loss': 0.1032, 'grad_norm': 0.5997447967529297, 'learning_rate': 1.4836034708578915e-05, 'epoch': 3.1139489194499017}
Step: 1589 {'loss': 0.1159, 'grad_norm': 0.6150076389312744, 'learning_rate': 1.4819744597249511e-05, 'epoch': 3.1237721021611002}
Step: 1594 {'loss': 0.0988, 'grad_norm': 0.5573973655700684, 'learning_rate': 1.4803454485920107e-05, 'epoch': 3.1335952848722988}
Step: 1599 {'loss': 0.1075, 'grad_norm': 0.6719615459442139, 'learning_rate': 1.4787164374590703e-05, 'epoch': 3.143418467583497}
Step: 1604 {'loss': 0.0944, 'grad_norm': 0.5066360235214233, 'learning_rate': 1.4770874263261301e-05, 'epoch': 3.1532416502946954}
Step: 1609 {'loss': 0.0912, 'grad_norm': 0.5678701996803284, 'learning_rate': 1.4754584151931894e-05, 'epoch': 3.163064833005894}
Step: 1614 {'loss': 0.1072, 'grad_norm': 0.3796596825122833, 'learning_rate': 1.473829404060249e-05, 'epoch': 3.1728880157170924}
Step: 1619 {'loss': 0.1118, 'grad_norm': 0.5344180464744568, 'learning_rate': 1.4722003929273088e-05, 'epoch': 3.182711198428291}
Step: 1624 {'loss': 0.1035, 'grad_norm': 0.45392513275146484, 'learning_rate': 1.4705713817943684e-05, 'epoch': 3.192534381139489}
Step: 1629 {'loss': 0.1045, 'grad_norm': 0.4898543953895569, 'learning_rate': 1.4689423706614282e-05, 'epoch': 3.2023575638506876}
Step: 1634 {'loss': 0.1092, 'grad_norm': 0.40959227085113525, 'learning_rate': 1.4673133595284874e-05, 'epoch': 3.212180746561886}
Step: 1639 {'loss': 0.1011, 'grad_norm': 0.3997109830379486, 'learning_rate': 1.465684348395547e-05, 'epoch': 3.2220039292730847}
Step: 1644 {'loss': 0.107, 'grad_norm': 0.5823128819465637, 'learning_rate': 1.4640553372626067e-05, 'epoch': 3.2318271119842827}
Step: 1649 {'loss': 0.0942, 'grad_norm': 0.4372962415218353, 'learning_rate': 1.4624263261296664e-05, 'epoch': 3.2416502946954813}
Step: 1654 {'loss': 0.1038, 'grad_norm': 0.6867844462394714, 'learning_rate': 1.4607973149967259e-05, 'epoch': 3.25147347740668}
Step: 1659 {'loss': 0.0952, 'grad_norm': 0.5591558218002319, 'learning_rate': 1.4591683038637853e-05, 'epoch': 3.2612966601178783}
Step: 1664 {'loss': 0.1064, 'grad_norm': 0.5519853830337524, 'learning_rate': 1.457539292730845e-05, 'epoch': 3.2711198428290764}
Step: 1669 {'loss': 0.1108, 'grad_norm': 0.6516417860984802, 'learning_rate': 1.4559102815979047e-05, 'epoch': 3.280943025540275}
Step: 1674 {'loss': 0.0992, 'grad_norm': 0.7161891460418701, 'learning_rate': 1.4542812704649643e-05, 'epoch': 3.2907662082514735}
Step: 1679 {'loss': 0.0958, 'grad_norm': 0.49547114968299866, 'learning_rate': 1.4526522593320241e-05, 'epoch': 3.300589390962672}
Step: 1684 {'loss': 0.0966, 'grad_norm': 0.46516233682632446, 'learning_rate': 1.4510232481990834e-05, 'epoch': 3.3104125736738705}
Step: 1689 {'loss': 0.1177, 'grad_norm': 0.7256174087524414, 'learning_rate': 1.449394237066143e-05, 'epoch': 3.3202357563850686}
Step: 1694 {'loss': 0.1029, 'grad_norm': 0.530839204788208, 'learning_rate': 1.4477652259332026e-05, 'epoch': 3.330058939096267}
Step: 1699 {'loss': 0.1009, 'grad_norm': 0.4668157696723938, 'learning_rate': 1.4461362148002624e-05, 'epoch': 3.3398821218074657}
Step: 1704 {'loss': 0.0872, 'grad_norm': 0.3708961308002472, 'learning_rate': 1.4445072036673218e-05, 'epoch': 3.349705304518664}
Step: 1709 {'loss': 0.1102, 'grad_norm': 0.5290087461471558, 'learning_rate': 1.4428781925343813e-05, 'epoch': 3.3595284872298623}
Step: 1714 {'loss': 0.1151, 'grad_norm': 0.6721223592758179, 'learning_rate': 1.4412491814014409e-05, 'epoch': 3.369351669941061}
Step: 1719 {'loss': 0.1007, 'grad_norm': 0.5986893773078918, 'learning_rate': 1.4396201702685006e-05, 'epoch': 3.3791748526522594}
Step: 1719 {'loss': 0.1007, 'grad_norm': 0.5986893773078918, 'learning_rate': 1.4396201702685006e-05, 'epoch': 3.3791748526522594}
Step: 1724 {'loss': 0.0879, 'grad_norm': 0.6157049536705017, 'learning_rate': 1.4379911591355603e-05, 'epoch': 3.388998035363458}
Step: 1729 {'loss': 0.1061, 'grad_norm': 0.46478375792503357, 'learning_rate': 1.43636214800262e-05, 'epoch': 3.398821218074656}
Step: 1734 {'loss': 0.1067, 'grad_norm': 0.5183126926422119, 'learning_rate': 1.4347331368696793e-05, 'epoch': 3.4086444007858545}
Step: 1739 {'loss': 0.0889, 'grad_norm': 0.5094733238220215, 'learning_rate': 1.433104125736739e-05, 'epoch': 3.418467583497053}
Step: 1744 {'loss': 0.1114, 'grad_norm': 0.8008394241333008, 'learning_rate': 1.4314751146037987e-05, 'epoch': 3.4282907662082516}
Step: 1749 {'loss': 0.0978, 'grad_norm': 0.522854208946228, 'learning_rate': 1.4298461034708583e-05, 'epoch': 3.43811394891945}
Step: 1754 {'loss': 0.1111, 'grad_norm': 0.7715378999710083, 'learning_rate': 1.4282170923379178e-05, 'epoch': 3.447937131630648}
Step: 1759 {'loss': 0.102, 'grad_norm': 0.9597034454345703, 'learning_rate': 1.4265880812049772e-05, 'epoch': 3.4577603143418467}
Step: 1764 {'loss': 0.1114, 'grad_norm': 0.6731114387512207, 'learning_rate': 1.4249590700720368e-05, 'epoch': 3.4675834970530452}
Step: 1769 {'loss': 0.0968, 'grad_norm': 0.6546388268470764, 'learning_rate': 1.4233300589390964e-05, 'epoch': 3.477406679764244}
Step: 1774 {'loss': 0.1047, 'grad_norm': 0.5018281936645508, 'learning_rate': 1.4217010478061562e-05, 'epoch': 3.487229862475442}
Step: 1779 {'loss': 0.1014, 'grad_norm': 0.5913351774215698, 'learning_rate': 1.4200720366732156e-05, 'epoch': 3.4970530451866404}
Step: 1784 {'loss': 0.1044, 'grad_norm': 0.47905266284942627, 'learning_rate': 1.4184430255402753e-05, 'epoch': 3.506876227897839}
Step: 1789 {'loss': 0.0934, 'grad_norm': 0.34462350606918335, 'learning_rate': 1.416814014407335e-05, 'epoch': 3.5166994106090375}
Step: 1794 {'loss': 0.0955, 'grad_norm': 0.6524012088775635, 'learning_rate': 1.4151850032743946e-05, 'epoch': 3.5265225933202355}
Step: 1799 {'loss': 0.1065, 'grad_norm': 0.5413931012153625, 'learning_rate': 1.4135559921414543e-05, 'epoch': 3.536345776031434}
Step: 1804 {'loss': 0.1054, 'grad_norm': 0.6434770822525024, 'learning_rate': 1.4119269810085137e-05, 'epoch': 3.5461689587426326}
Step: 1809 {'loss': 0.112, 'grad_norm': 0.565846860408783, 'learning_rate': 1.4102979698755731e-05, 'epoch': 3.555992141453831}
Step: 1814 {'loss': 0.1075, 'grad_norm': 0.3625335991382599, 'learning_rate': 1.408668958742633e-05, 'epoch': 3.5658153241650297}
Step: 1819 {'loss': 0.0942, 'grad_norm': 0.5243363976478577, 'learning_rate': 1.4070399476096924e-05, 'epoch': 3.5756385068762278}
Step: 1824 {'loss': 0.1007, 'grad_norm': 0.5483813285827637, 'learning_rate': 1.4054109364767521e-05, 'epoch': 3.5854616895874263}
Step: 1829 {'loss': 0.0941, 'grad_norm': 0.5225276350975037, 'learning_rate': 1.4037819253438116e-05, 'epoch': 3.595284872298625}
Step: 1834 {'loss': 0.0993, 'grad_norm': 0.5405214428901672, 'learning_rate': 1.4021529142108712e-05, 'epoch': 3.6051080550098233}
Step: 1839 {'loss': 0.1064, 'grad_norm': 0.5546495914459229, 'learning_rate': 1.4005239030779308e-05, 'epoch': 3.614931237721022}
Step: 1844 {'loss': 0.1163, 'grad_norm': 0.721804678440094, 'learning_rate': 1.3988948919449906e-05, 'epoch': 3.62475442043222}
Step: 1849 {'loss': 0.106, 'grad_norm': 0.7990572452545166, 'learning_rate': 1.39726588081205e-05, 'epoch': 3.6345776031434185}
Step: 1854 {'loss': 0.1002, 'grad_norm': 0.42786872386932373, 'learning_rate': 1.3956368696791096e-05, 'epoch': 3.644400785854617}
Step: 1859 {'loss': 0.1087, 'grad_norm': 0.5473964810371399, 'learning_rate': 1.3940078585461691e-05, 'epoch': 3.654223968565815}
Step: 1864 {'loss': 0.1137, 'grad_norm': 0.5831394791603088, 'learning_rate': 1.3923788474132289e-05, 'epoch': 3.6640471512770136}
Step: 1869 {'loss': 0.1072, 'grad_norm': 0.4385971128940582, 'learning_rate': 1.3907498362802885e-05, 'epoch': 3.673870333988212}
Step: 1874 {'loss': 0.0961, 'grad_norm': 0.5091325044631958, 'learning_rate': 1.3891208251473481e-05, 'epoch': 3.6836935166994107}
Step: 1879 {'loss': 0.1125, 'grad_norm': 0.5782859325408936, 'learning_rate': 1.3874918140144075e-05, 'epoch': 3.6935166994106092}
Step: 1884 {'loss': 0.1002, 'grad_norm': 0.7118309736251831, 'learning_rate': 1.3858628028814671e-05, 'epoch': 3.7033398821218073}
Step: 1889 {'loss': 0.121, 'grad_norm': 0.8046311140060425, 'learning_rate': 1.3842337917485268e-05, 'epoch': 3.713163064833006}
Step: 1894 {'loss': 0.1214, 'grad_norm': 0.6442993879318237, 'learning_rate': 1.3826047806155865e-05, 'epoch': 3.7229862475442044}
Step: 1899 {'loss': 0.102, 'grad_norm': 0.4384596347808838, 'learning_rate': 1.380975769482646e-05, 'epoch': 3.732809430255403}
Step: 1904 {'loss': 0.0944, 'grad_norm': 0.5068371891975403, 'learning_rate': 1.3793467583497056e-05, 'epoch': 3.7426326129666014}
Step: 1909 {'loss': 0.1038, 'grad_norm': 0.37940219044685364, 'learning_rate': 1.377717747216765e-05, 'epoch': 3.7524557956777995}
Step: 1914 {'loss': 0.1095, 'grad_norm': 0.5809584856033325, 'learning_rate': 1.3760887360838248e-05, 'epoch': 3.762278978388998}
Step: 1919 {'loss': 0.1113, 'grad_norm': 0.5930246710777283, 'learning_rate': 1.3744597249508844e-05, 'epoch': 3.7721021611001966}
Step: 1924 {'loss': 0.0995, 'grad_norm': 0.7974182963371277, 'learning_rate': 1.372830713817944e-05, 'epoch': 3.7819253438113947}
Step: 1929 {'loss': 0.0957, 'grad_norm': 0.35658225417137146, 'learning_rate': 1.3712017026850035e-05, 'epoch': 3.791748526522593}
Step: 1934 {'loss': 0.1096, 'grad_norm': 0.5661062002182007, 'learning_rate': 1.3695726915520629e-05, 'epoch': 3.8015717092337917}
Step: 1939 {'loss': 0.0954, 'grad_norm': 0.5425280332565308, 'learning_rate': 1.3679436804191227e-05, 'epoch': 3.8113948919449903}
Step: 1944 {'loss': 0.0998, 'grad_norm': 0.5904350876808167, 'learning_rate': 1.3663146692861825e-05, 'epoch': 3.821218074656189}
Step: 1949 {'loss': 0.1068, 'grad_norm': 0.6052883267402649, 'learning_rate': 1.364685658153242e-05, 'epoch': 3.831041257367387}
Step: 1954 {'loss': 0.1064, 'grad_norm': 0.6186457872390747, 'learning_rate': 1.3630566470203012e-05, 'epoch': 3.8408644400785854}
Step: 1959 {'loss': 0.1008, 'grad_norm': 0.5712107419967651, 'learning_rate': 1.361427635887361e-05, 'epoch': 3.850687622789784}
Step: 1964 {'loss': 0.1033, 'grad_norm': 0.44462183117866516, 'learning_rate': 1.3597986247544206e-05, 'epoch': 3.8605108055009825}
Step: 1969 {'loss': 0.1046, 'grad_norm': 0.5895745754241943, 'learning_rate': 1.3581696136214804e-05, 'epoch': 3.870333988212181}
Step: 1974 {'loss': 0.0944, 'grad_norm': 0.557742178440094, 'learning_rate': 1.3565406024885396e-05, 'epoch': 3.880157170923379}
Step: 1979 {'loss': 0.0933, 'grad_norm': 0.42317476868629456, 'learning_rate': 1.3549115913555994e-05, 'epoch': 3.8899803536345776}
Step: 1984 {'loss': 0.1056, 'grad_norm': 0.7631136178970337, 'learning_rate': 1.3532825802226592e-05, 'epoch': 3.899803536345776}
Step: 1989 {'loss': 0.1026, 'grad_norm': 0.4385179579257965, 'learning_rate': 1.3516535690897186e-05, 'epoch': 3.9096267190569742}
Step: 1994 {'loss': 0.1057, 'grad_norm': 0.4839940667152405, 'learning_rate': 1.3500245579567784e-05, 'epoch': 3.9194499017681728}
Step: 1999 {'loss': 0.1156, 'grad_norm': 0.709078311920166, 'learning_rate': 1.3483955468238379e-05, 'epoch': 3.9292730844793713}
Step: 2004 {'loss': 0.1108, 'grad_norm': 0.5859964489936829, 'learning_rate': 1.3467665356908971e-05, 'epoch': 3.93909626719057}
Step: 2009 {'loss': 0.1049, 'grad_norm': 0.647136926651001, 'learning_rate': 1.3451375245579569e-05, 'epoch': 3.9489194499017684}
Step: 2014 {'loss': 0.1013, 'grad_norm': 0.5844690799713135, 'learning_rate': 1.3435085134250165e-05, 'epoch': 3.9587426326129664}
Step: 2019 {'loss': 0.106, 'grad_norm': 0.5613638758659363, 'learning_rate': 1.3418795022920763e-05, 'epoch': 3.968565815324165}
Step: 2024 {'loss': 0.1075, 'grad_norm': 0.6108661890029907, 'learning_rate': 1.3402504911591356e-05, 'epoch': 3.9783889980353635}
Step: 2024 {'loss': 0.1075, 'grad_norm': 0.6108661890029907, 'learning_rate': 1.3402504911591356e-05, 'epoch': 3.9783889980353635}
Step: 2029 {'loss': 0.1119, 'grad_norm': 0.5920859575271606, 'learning_rate': 1.3386214800261954e-05, 'epoch': 3.988212180746562}
Step: 2034 {'loss': 0.1098, 'grad_norm': 0.778079092502594, 'learning_rate': 1.336992468893255e-05, 'epoch': 3.9980353634577606}
Step: 2039 {'loss': 0.0816, 'grad_norm': 0.49618110060691833, 'learning_rate': 1.3353634577603147e-05, 'epoch': 4.007858546168959}
Step: 2044 {'loss': 0.0818, 'grad_norm': 0.4475381672382355, 'learning_rate': 1.3337344466273744e-05, 'epoch': 4.017681728880157}
Step: 2049 {'loss': 0.0759, 'grad_norm': 0.4325600862503052, 'learning_rate': 1.3321054354944338e-05, 'epoch': 4.027504911591356}
Step: 2054 {'loss': 0.0681, 'grad_norm': 0.3931611180305481, 'learning_rate': 1.330476424361493e-05, 'epoch': 4.037328094302554}
Step: 2059 {'loss': 0.0693, 'grad_norm': 0.40681302547454834, 'learning_rate': 1.3288474132285529e-05, 'epoch': 4.047151277013753}
Step: 2064 {'loss': 0.0833, 'grad_norm': 0.43232378363609314, 'learning_rate': 1.3272184020956126e-05, 'epoch': 4.056974459724951}
Step: 2069 {'loss': 0.0708, 'grad_norm': 0.4996907114982605, 'learning_rate': 1.3255893909626722e-05, 'epoch': 4.066797642436149}
Step: 2074 {'loss': 0.0696, 'grad_norm': 0.6230810880661011, 'learning_rate': 1.3239603798297315e-05, 'epoch': 4.076620825147348}
Step: 2079 {'loss': 0.0759, 'grad_norm': 0.49538713693618774, 'learning_rate': 1.3223313686967913e-05, 'epoch': 4.086444007858546}
Step: 2084 {'loss': 0.0749, 'grad_norm': 0.6728142499923706, 'learning_rate': 1.3207023575638509e-05, 'epoch': 4.096267190569745}
Step: 2089 {'loss': 0.0778, 'grad_norm': 0.447089821100235, 'learning_rate': 1.3190733464309107e-05, 'epoch': 4.106090373280943}
Step: 2094 {'loss': 0.072, 'grad_norm': 0.391168475151062, 'learning_rate': 1.3174443352979703e-05, 'epoch': 4.115913555992141}
Step: 2099 {'loss': 0.0785, 'grad_norm': 0.7210859060287476, 'learning_rate': 1.3158153241650297e-05, 'epoch': 4.12573673870334}
Step: 2104 {'loss': 0.0706, 'grad_norm': 0.3549409508705139, 'learning_rate': 1.314186313032089e-05, 'epoch': 4.135559921414538}
Step: 2109 {'loss': 0.0713, 'grad_norm': 0.5365992784500122, 'learning_rate': 1.3125573018991488e-05, 'epoch': 4.145383104125736}
Step: 2114 {'loss': 0.0667, 'grad_norm': 0.6311133503913879, 'learning_rate': 1.3109282907662086e-05, 'epoch': 4.155206286836935}
Step: 2119 {'loss': 0.074, 'grad_norm': 0.4496349096298218, 'learning_rate': 1.3092992796332682e-05, 'epoch': 4.165029469548133}
Step: 2124 {'loss': 0.0729, 'grad_norm': 0.4347710907459259, 'learning_rate': 1.3076702685003275e-05, 'epoch': 4.174852652259332}
Step: 2129 {'loss': 0.0742, 'grad_norm': 0.418367862701416, 'learning_rate': 1.306041257367387e-05, 'epoch': 4.18467583497053}
Step: 2134 {'loss': 0.0763, 'grad_norm': 0.787714958190918, 'learning_rate': 1.3044122462344469e-05, 'epoch': 4.1944990176817285}
Step: 2139 {'loss': 0.0728, 'grad_norm': 0.3468644320964813, 'learning_rate': 1.3027832351015066e-05, 'epoch': 4.2043222003929275}
Step: 2144 {'loss': 0.0722, 'grad_norm': 0.5143178701400757, 'learning_rate': 1.3011542239685662e-05, 'epoch': 4.214145383104126}
Step: 2149 {'loss': 0.0731, 'grad_norm': 0.33902043104171753, 'learning_rate': 1.2995252128356255e-05, 'epoch': 4.2239685658153245}
Step: 2154 {'loss': 0.0784, 'grad_norm': 0.6258221864700317, 'learning_rate': 1.297896201702685e-05, 'epoch': 4.233791748526523}
Step: 2159 {'loss': 0.0776, 'grad_norm': 0.4953524172306061, 'learning_rate': 1.2962671905697447e-05, 'epoch': 4.243614931237721}
Step: 2164 {'loss': 0.0708, 'grad_norm': 0.453294962644577, 'learning_rate': 1.2946381794368045e-05, 'epoch': 4.25343811394892}
Step: 2169 {'loss': 0.07, 'grad_norm': 0.369242787361145, 'learning_rate': 1.293009168303864e-05, 'epoch': 4.263261296660118}
Step: 2174 {'loss': 0.0721, 'grad_norm': 0.4065644443035126, 'learning_rate': 1.2913801571709234e-05, 'epoch': 4.273084479371317}
Step: 2179 {'loss': 0.0769, 'grad_norm': 0.5756891369819641, 'learning_rate': 1.289751146037983e-05, 'epoch': 4.282907662082515}
Step: 2184 {'loss': 0.0763, 'grad_norm': 0.4306510388851166, 'learning_rate': 1.2881221349050428e-05, 'epoch': 4.292730844793713}
Step: 2189 {'loss': 0.0749, 'grad_norm': 0.6273019313812256, 'learning_rate': 1.2864931237721026e-05, 'epoch': 4.302554027504912}
Step: 2194 {'loss': 0.0727, 'grad_norm': 0.3494754433631897, 'learning_rate': 1.2848641126391622e-05, 'epoch': 4.31237721021611}
Step: 2199 {'loss': 0.0781, 'grad_norm': 0.5179152488708496, 'learning_rate': 1.2832351015062215e-05, 'epoch': 4.322200392927308}
Step: 2204 {'loss': 0.0746, 'grad_norm': 0.5077713131904602, 'learning_rate': 1.2816060903732812e-05, 'epoch': 4.332023575638507}
Step: 2209 {'loss': 0.0723, 'grad_norm': 0.567791759967804, 'learning_rate': 1.2799770792403407e-05, 'epoch': 4.341846758349705}
Step: 2214 {'loss': 0.0819, 'grad_norm': 0.4702579379081726, 'learning_rate': 1.2783480681074005e-05, 'epoch': 4.351669941060904}
Step: 2219 {'loss': 0.0797, 'grad_norm': 0.6038694977760315, 'learning_rate': 1.2767190569744599e-05, 'epoch': 4.361493123772102}
Step: 2224 {'loss': 0.0715, 'grad_norm': 0.3569003939628601, 'learning_rate': 1.2750900458415193e-05, 'epoch': 4.3713163064833}
Step: 2229 {'loss': 0.0773, 'grad_norm': 0.6319424510002136, 'learning_rate': 1.2734610347085791e-05, 'epoch': 4.381139489194499}
Step: 2234 {'loss': 0.0697, 'grad_norm': 0.3681614398956299, 'learning_rate': 1.2718320235756387e-05, 'epoch': 4.390962671905697}
Step: 2239 {'loss': 0.0755, 'grad_norm': 0.6312645673751831, 'learning_rate': 1.2702030124426983e-05, 'epoch': 4.400785854616895}
Step: 2244 {'loss': 0.0773, 'grad_norm': 0.4461640417575836, 'learning_rate': 1.2685740013097581e-05, 'epoch': 4.410609037328094}
Step: 2254 {'loss': 0.0767, 'grad_norm': 0.6724976301193237, 'learning_rate': 1.2653159790438772e-05, 'epoch': 4.4302554027504915}
Step: 2259 {'loss': 0.0745, 'grad_norm': 0.38027724623680115, 'learning_rate': 1.2636869679109366e-05, 'epoch': 4.4400785854616895}
Step: 2264 {'loss': 0.0747, 'grad_norm': 0.5298150181770325, 'learning_rate': 1.2620579567779964e-05, 'epoch': 4.449901768172888}
Step: 2269 {'loss': 0.0743, 'grad_norm': 0.40022894740104675, 'learning_rate': 1.2604289456450558e-05, 'epoch': 4.459724950884087}
Step: 2274 {'loss': 0.0736, 'grad_norm': 0.5976121425628662, 'learning_rate': 1.2587999345121153e-05, 'epoch': 4.469548133595285}
Step: 2279 {'loss': 0.0863, 'grad_norm': 0.48736605048179626, 'learning_rate': 1.257170923379175e-05, 'epoch': 4.479371316306484}
Step: 2284 {'loss': 0.085, 'grad_norm': 0.5543437600135803, 'learning_rate': 1.2555419122462348e-05, 'epoch': 4.489194499017682}
Step: 2289 {'loss': 0.0748, 'grad_norm': 0.6940743327140808, 'learning_rate': 1.2539129011132943e-05, 'epoch': 4.49901768172888}
Step: 2294 {'loss': 0.0711, 'grad_norm': 0.4092867970466614, 'learning_rate': 1.252283889980354e-05, 'epoch': 4.508840864440079}
Step: 2299 {'loss': 0.071, 'grad_norm': 0.3631463050842285, 'learning_rate': 1.2506548788474133e-05, 'epoch': 4.518664047151277}
Step: 2304 {'loss': 0.0729, 'grad_norm': 0.4097709655761719, 'learning_rate': 1.2490258677144731e-05, 'epoch': 4.528487229862476}
Step: 2309 {'loss': 0.0825, 'grad_norm': 0.7442981004714966, 'learning_rate': 1.2473968565815326e-05, 'epoch': 4.538310412573674}
Step: 2314 {'loss': 0.0697, 'grad_norm': 0.41960710287094116, 'learning_rate': 1.2457678454485923e-05, 'epoch': 4.548133595284872}
Step: 2319 {'loss': 0.0696, 'grad_norm': 0.3994223475456238, 'learning_rate': 1.2441388343156518e-05, 'epoch': 4.557956777996071}
Step: 2324 {'loss': 0.0717, 'grad_norm': 0.4732381999492645, 'learning_rate': 1.2425098231827112e-05, 'epoch': 4.567779960707269}
Step: 2329 {'loss': 0.0731, 'grad_norm': 0.3318597376346588, 'learning_rate': 1.240880812049771e-05, 'epoch': 4.577603143418468}
Step: 2334 {'loss': 0.0793, 'grad_norm': 0.6508978009223938, 'learning_rate': 1.2392518009168308e-05, 'epoch': 4.587426326129666}
Step: 2339 {'loss': 0.0791, 'grad_norm': 0.6378980875015259, 'learning_rate': 1.2376227897838902e-05, 'epoch': 4.597249508840864}
Step: 2344 {'loss': 0.0759, 'grad_norm': 0.40321260690689087, 'learning_rate': 1.2359937786509497e-05, 'epoch': 4.607072691552063}
Step: 2349 {'loss': 0.0749, 'grad_norm': 0.34375476837158203, 'learning_rate': 1.2343647675180093e-05, 'epoch': 4.616895874263261}
Step: 2354 {'loss': 0.0751, 'grad_norm': 0.4812524914741516, 'learning_rate': 1.2327357563850689e-05, 'epoch': 4.626719056974459}
Step: 2359 {'loss': 0.075, 'grad_norm': 0.43617644906044006, 'learning_rate': 1.2311067452521285e-05, 'epoch': 4.636542239685658}
Step: 2364 {'loss': 0.0751, 'grad_norm': 0.3880643844604492, 'learning_rate': 1.2294777341191881e-05, 'epoch': 4.6463654223968565}
Step: 2369 {'loss': 0.0708, 'grad_norm': 0.4488811790943146, 'learning_rate': 1.2278487229862477e-05, 'epoch': 4.6561886051080545}
Step: 2374 {'loss': 0.0638, 'grad_norm': 0.47522658109664917, 'learning_rate': 1.2262197118533072e-05, 'epoch': 4.6660117878192535}
Step: 2379 {'loss': 0.0752, 'grad_norm': 0.43082642555236816, 'learning_rate': 1.224590700720367e-05, 'epoch': 4.675834970530452}
Step: 2384 {'loss': 0.0777, 'grad_norm': 0.5519529581069946, 'learning_rate': 1.2229616895874267e-05, 'epoch': 4.685658153241651}
Step: 2389 {'loss': 0.077, 'grad_norm': 0.4876145124435425, 'learning_rate': 1.2213326784544862e-05, 'epoch': 4.695481335952849}
Step: 2394 {'loss': 0.0796, 'grad_norm': 0.5474342703819275, 'learning_rate': 1.2197036673215456e-05, 'epoch': 4.705304518664047}
Step: 2399 {'loss': 0.0715, 'grad_norm': 0.6033021211624146, 'learning_rate': 1.2180746561886054e-05, 'epoch': 4.715127701375246}
Step: 2404 {'loss': 0.0805, 'grad_norm': 0.5561412572860718, 'learning_rate': 1.2164456450556648e-05, 'epoch': 4.724950884086444}
Step: 2409 {'loss': 0.0771, 'grad_norm': 0.42971351742744446, 'learning_rate': 1.2148166339227245e-05, 'epoch': 4.734774066797643}
Step: 2414 {'loss': 0.0746, 'grad_norm': 0.562684178352356, 'learning_rate': 1.213187622789784e-05, 'epoch': 4.744597249508841}
Step: 2419 {'loss': 0.0759, 'grad_norm': 0.4865941107273102, 'learning_rate': 1.2115586116568437e-05, 'epoch': 4.754420432220039}
Step: 2424 {'loss': 0.0836, 'grad_norm': 0.7022972106933594, 'learning_rate': 1.2099296005239031e-05, 'epoch': 4.764243614931238}
Step: 2429 {'loss': 0.0775, 'grad_norm': 0.3139597773551941, 'learning_rate': 1.2083005893909629e-05, 'epoch': 4.774066797642436}
Step: 2434 {'loss': 0.0767, 'grad_norm': 0.42801588773727417, 'learning_rate': 1.2066715782580225e-05, 'epoch': 4.783889980353635}
Step: 2439 {'loss': 0.0735, 'grad_norm': 0.4049097001552582, 'learning_rate': 1.2050425671250821e-05, 'epoch': 4.793713163064833}
Step: 2444 {'loss': 0.0729, 'grad_norm': 0.62290358543396, 'learning_rate': 1.2034135559921416e-05, 'epoch': 4.803536345776031}
Step: 2449 {'loss': 0.0804, 'grad_norm': 0.6691663265228271, 'learning_rate': 1.2017845448592013e-05, 'epoch': 4.81335952848723}
Step: 2454 {'loss': 0.0752, 'grad_norm': 0.6039745211601257, 'learning_rate': 1.200155533726261e-05, 'epoch': 4.823182711198428}
Step: 2459 {'loss': 0.0724, 'grad_norm': 0.47128358483314514, 'learning_rate': 1.1985265225933204e-05, 'epoch': 4.833005893909627}
Step: 2464 {'loss': 0.0771, 'grad_norm': 0.49259454011917114, 'learning_rate': 1.19689751146038e-05, 'epoch': 4.842829076620825}
Step: 2469 {'loss': 0.0706, 'grad_norm': 0.3817598819732666, 'learning_rate': 1.1952685003274396e-05, 'epoch': 4.852652259332023}
Step: 2474 {'loss': 0.082, 'grad_norm': 0.43355098366737366, 'learning_rate': 1.193639489194499e-05, 'epoch': 4.862475442043222}
Step: 2479 {'loss': 0.0801, 'grad_norm': 0.4828437566757202, 'learning_rate': 1.1920104780615592e-05, 'epoch': 4.87229862475442}
Step: 2484 {'loss': 0.0803, 'grad_norm': 0.41443493962287903, 'learning_rate': 1.1903814669286184e-05, 'epoch': 4.8821218074656185}
Step: 2489 {'loss': 0.0827, 'grad_norm': 0.5819140672683716, 'learning_rate': 1.188752455795678e-05, 'epoch': 4.8919449901768175}
Step: 2494 {'loss': 0.0834, 'grad_norm': 0.4929649233818054, 'learning_rate': 1.1871234446627375e-05, 'epoch': 4.901768172888016}
Step: 2499 {'loss': 0.078, 'grad_norm': 0.7676188349723816, 'learning_rate': 1.1854944335297973e-05, 'epoch': 4.911591355599214}
Step: 2504 {'loss': 0.0859, 'grad_norm': 0.7701215744018555, 'learning_rate': 1.1838654223968569e-05, 'epoch': 4.921414538310413}
Step: 2509 {'loss': 0.0761, 'grad_norm': 0.4769788682460785, 'learning_rate': 1.1822364112639163e-05, 'epoch': 4.931237721021611}
Step: 2514 {'loss': 0.0777, 'grad_norm': 0.49974289536476135, 'learning_rate': 1.180607400130976e-05, 'epoch': 4.94106090373281}
Step: 2519 {'loss': 0.077, 'grad_norm': 0.37361985445022583, 'learning_rate': 1.1789783889980352e-05, 'epoch': 4.950884086444008}
Step: 2524 {'loss': 0.0762, 'grad_norm': 0.5355178713798523, 'learning_rate': 1.177349377865095e-05, 'epoch': 4.960707269155206}
Step: 2529 {'loss': 0.0772, 'grad_norm': 0.38384002447128296, 'learning_rate': 1.1757203667321551e-05, 'epoch': 4.970530451866405}
Step: 2534 {'loss': 0.0727, 'grad_norm': 0.3595317304134369, 'learning_rate': 1.1740913555992144e-05, 'epoch': 4.980353634577603}
Step: 2539 {'loss': 0.0902, 'grad_norm': 0.7323800325393677, 'learning_rate': 1.172462344466274e-05, 'epoch': 4.990176817288802}
Step: 2544 {'loss': 0.0663, 'grad_norm': 0.4776397943496704, 'learning_rate': 1.1708333333333334e-05, 'epoch': 5.0}
Step: 2554 {'loss': 0.0581, 'grad_norm': 0.4521012604236603, 'learning_rate': 1.1675753110674528e-05, 'epoch': 5.019646365422397}
Step: 2559 {'loss': 0.0568, 'grad_norm': 0.5875500440597534, 'learning_rate': 1.1659462999345123e-05, 'epoch': 5.029469548133595}
Step: 2564 {'loss': 0.0592, 'grad_norm': 0.34049272537231445, 'learning_rate': 1.1643172888015719e-05, 'epoch': 5.039292730844794}
Step: 2569 {'loss': 0.0584, 'grad_norm': 0.33555319905281067, 'learning_rate': 1.1626882776686312e-05, 'epoch': 5.049115913555992}
Step: 2574 {'loss': 0.0563, 'grad_norm': 0.46659383177757263, 'learning_rate': 1.161059266535691e-05, 'epoch': 5.05893909626719}
Step: 2579 {'loss': 0.0537, 'grad_norm': 0.396658718585968, 'learning_rate': 1.159430255402751e-05, 'epoch': 5.068762278978389}
Step: 2584 {'loss': 0.0597, 'grad_norm': 0.5258063673973083, 'learning_rate': 1.1578012442698103e-05, 'epoch': 5.078585461689587}
Step: 2589 {'loss': 0.0528, 'grad_norm': 0.3247913420200348, 'learning_rate': 1.15617223313687e-05, 'epoch': 5.088408644400785}
Step: 2594 {'loss': 0.0533, 'grad_norm': 0.38805627822875977, 'learning_rate': 1.1545432220039297e-05, 'epoch': 5.098231827111984}
Step: 2599 {'loss': 0.0586, 'grad_norm': 0.2619662582874298, 'learning_rate': 1.152914210870989e-05, 'epoch': 5.1080550098231825}
Step: 2604 {'loss': 0.0614, 'grad_norm': 0.4483129382133484, 'learning_rate': 1.1512851997380488e-05, 'epoch': 5.1178781925343815}
Step: 2609 {'loss': 0.0569, 'grad_norm': 0.22142115235328674, 'learning_rate': 1.1496561886051082e-05, 'epoch': 5.12770137524558}
Step: 2614 {'loss': 0.0564, 'grad_norm': 0.4540203809738159, 'learning_rate': 1.1480271774721678e-05, 'epoch': 5.137524557956778}
Step: 2619 {'loss': 0.0556, 'grad_norm': 0.29815706610679626, 'learning_rate': 1.1463981663392274e-05, 'epoch': 5.147347740667977}
Step: 2624 {'loss': 0.0561, 'grad_norm': 0.30661916732788086, 'learning_rate': 1.1447691552062869e-05, 'epoch': 5.157170923379175}
Step: 2629 {'loss': 0.057, 'grad_norm': 0.475419819355011, 'learning_rate': 1.1431401440733467e-05, 'epoch': 5.166994106090374}
Step: 2634 {'loss': 0.0592, 'grad_norm': 0.3524914085865021, 'learning_rate': 1.1415111329404063e-05, 'epoch': 5.176817288801572}
Step: 2639 {'loss': 0.0558, 'grad_norm': 0.34023892879486084, 'learning_rate': 1.1398821218074659e-05, 'epoch': 5.18664047151277}
Step: 2644 {'loss': 0.0577, 'grad_norm': 0.3618604242801666, 'learning_rate': 1.1382531106745257e-05, 'epoch': 5.196463654223969}
Step: 2649 {'loss': 0.0571, 'grad_norm': 0.335341215133667, 'learning_rate': 1.1366240995415851e-05, 'epoch': 5.206286836935167}
Step: 2654 {'loss': 0.0566, 'grad_norm': 0.5478729605674744, 'learning_rate': 1.1349950884086447e-05, 'epoch': 5.216110019646365}
Step: 2659 {'loss': 0.0632, 'grad_norm': 0.26193949580192566, 'learning_rate': 1.1333660772757042e-05, 'epoch': 5.225933202357564}
Step: 2664 {'loss': 0.061, 'grad_norm': 0.5418561697006226, 'learning_rate': 1.1317370661427638e-05, 'epoch': 5.235756385068762}
Step: 2669 {'loss': 0.0571, 'grad_norm': 0.3518489599227905, 'learning_rate': 1.1301080550098234e-05, 'epoch': 5.245579567779961}
Step: 2674 {'loss': 0.0571, 'grad_norm': 0.3432842791080475, 'learning_rate': 1.1284790438768832e-05, 'epoch': 5.255402750491159}
Step: 2679 {'loss': 0.0606, 'grad_norm': 0.3150824308395386, 'learning_rate': 1.1268500327439426e-05, 'epoch': 5.265225933202357}
Step: 2684 {'loss': 0.0601, 'grad_norm': 0.295513391494751, 'learning_rate': 1.1252210216110022e-05, 'epoch': 5.275049115913556}
Step: 2689 {'loss': 0.0559, 'grad_norm': 0.3223499059677124, 'learning_rate': 1.1235920104780618e-05, 'epoch': 5.284872298624754}
Step: 2694 {'loss': 0.0612, 'grad_norm': 0.2944065034389496, 'learning_rate': 1.1219629993451216e-05, 'epoch': 5.294695481335953}
Step: 2699 {'loss': 0.0617, 'grad_norm': 0.46961942315101624, 'learning_rate': 1.120333988212181e-05, 'epoch': 5.304518664047151}
Step: 2704 {'loss': 0.0609, 'grad_norm': 0.3856470286846161, 'learning_rate': 1.1187049770792407e-05, 'epoch': 5.314341846758349}
Step: 2709 {'loss': 0.061, 'grad_norm': 0.31299272179603577, 'learning_rate': 1.1170759659463001e-05, 'epoch': 5.324165029469548}
Step: 2714 {'loss': 0.0598, 'grad_norm': 0.3827720880508423, 'learning_rate': 1.1154469548133595e-05, 'epoch': 5.3339882121807465}
Step: 2719 {'loss': 0.0545, 'grad_norm': 0.30356699228286743, 'learning_rate': 1.1138179436804193e-05, 'epoch': 5.3438113948919455}
Step: 2724 {'loss': 0.0606, 'grad_norm': 0.26465049386024475, 'learning_rate': 1.1121889325474791e-05, 'epoch': 5.3536345776031435}
Step: 2729 {'loss': 0.063, 'grad_norm': 0.6581365466117859, 'learning_rate': 1.1105599214145386e-05, 'epoch': 5.363457760314342}
Step: 2734 {'loss': 0.0617, 'grad_norm': 0.30481529235839844, 'learning_rate': 1.108930910281598e-05, 'epoch': 5.373280943025541}
Step: 2739 {'loss': 0.0587, 'grad_norm': 0.3516814112663269, 'learning_rate': 1.1073018991486578e-05, 'epoch': 5.383104125736739}
Step: 2744 {'loss': 0.0583, 'grad_norm': 0.34693700075149536, 'learning_rate': 1.1056728880157172e-05, 'epoch': 5.392927308447937}
Step: 2749 {'loss': 0.0573, 'grad_norm': 0.3948826789855957, 'learning_rate': 1.104043876882777e-05, 'epoch': 5.402750491159136}
Step: 2754 {'loss': 0.0615, 'grad_norm': 0.3683505654335022, 'learning_rate': 1.1024148657498364e-05, 'epoch': 5.412573673870334}
Step: 2759 {'loss': 0.0594, 'grad_norm': 0.24063314497470856, 'learning_rate': 1.100785854616896e-05, 'epoch': 5.422396856581533}
Step: 2764 {'loss': 0.0555, 'grad_norm': 0.34111884236335754, 'learning_rate': 1.0991568434839555e-05, 'epoch': 5.432220039292731}
Step: 2769 {'loss': 0.0535, 'grad_norm': 0.2523561418056488, 'learning_rate': 1.0975278323510153e-05, 'epoch': 5.442043222003929}
Step: 2774 {'loss': 0.0543, 'grad_norm': 0.27980536222457886, 'learning_rate': 1.095898821218075e-05, 'epoch': 5.451866404715128}
Step: 2779 {'loss': 0.0701, 'grad_norm': 0.5898308753967285, 'learning_rate': 1.0942698100851345e-05, 'epoch': 5.461689587426326}
Step: 2784 {'loss': 0.0617, 'grad_norm': 0.5076333284378052, 'learning_rate': 1.092640798952194e-05, 'epoch': 5.471512770137524}
Step: 2789 {'loss': 0.0568, 'grad_norm': 0.3032815158367157, 'learning_rate': 1.0910117878192537e-05, 'epoch': 5.481335952848723}
Step: 2794 {'loss': 0.0561, 'grad_norm': 0.2811681032180786, 'learning_rate': 1.0893827766863132e-05, 'epoch': 5.491159135559921}
Step: 2799 {'loss': 0.0603, 'grad_norm': 0.5143060088157654, 'learning_rate': 1.087753765553373e-05, 'epoch': 5.50098231827112}
Step: 2804 {'loss': 0.0604, 'grad_norm': 0.3169109523296356, 'learning_rate': 1.0861247544204324e-05, 'epoch': 5.510805500982318}
Step: 2809 {'loss': 0.0604, 'grad_norm': 0.3457639813423157, 'learning_rate': 1.084495743287492e-05, 'epoch': 5.520628683693516}
Step: 2814 {'loss': 0.0611, 'grad_norm': 0.480182409286499, 'learning_rate': 1.0828667321545516e-05, 'epoch': 5.530451866404715}
Step: 2819 {'loss': 0.061, 'grad_norm': 0.5089635848999023, 'learning_rate': 1.0812377210216112e-05, 'epoch': 5.540275049115913}
Step: 2824 {'loss': 0.0605, 'grad_norm': 0.47626808285713196, 'learning_rate': 1.0796087098886707e-05, 'epoch': 5.550098231827112}
Step: 2829 {'loss': 0.0591, 'grad_norm': 0.2883743643760681, 'learning_rate': 1.0779796987557304e-05, 'epoch': 5.5599214145383105}
Step: 2834 {'loss': 0.061, 'grad_norm': 0.4673290252685547, 'learning_rate': 1.0763506876227899e-05, 'epoch': 5.5697445972495085}
Step: 2839 {'loss': 0.0553, 'grad_norm': 0.5774480700492859, 'learning_rate': 1.0747216764898497e-05, 'epoch': 5.5795677799607075}
Step: 2844 {'loss': 0.0629, 'grad_norm': 0.4404275119304657, 'learning_rate': 1.0730926653569094e-05, 'epoch': 5.589390962671906}
Step: 2849 {'loss': 0.0612, 'grad_norm': 0.49033209681510925, 'learning_rate': 1.0714636542239689e-05, 'epoch': 5.599214145383105}
Step: 2854 {'loss': 0.0664, 'grad_norm': 0.48447108268737793, 'learning_rate': 1.0698346430910283e-05, 'epoch': 5.609037328094303}
Step: 2859 {'loss': 0.0666, 'grad_norm': 0.33822864294052124, 'learning_rate': 1.0682056319580881e-05, 'epoch': 5.618860510805501}
Step: 2864 {'loss': 0.0625, 'grad_norm': 0.41990718245506287, 'learning_rate': 1.0665766208251475e-05, 'epoch': 5.6286836935167}
Step: 2869 {'loss': 0.062, 'grad_norm': 0.8366158604621887, 'learning_rate': 1.0649476096922073e-05, 'epoch': 5.638506876227898}
Step: 2874 {'loss': 0.0613, 'grad_norm': 0.33725935220718384, 'learning_rate': 1.0633185985592666e-05, 'epoch': 5.648330058939096}
Step: 2879 {'loss': 0.0591, 'grad_norm': 0.38378503918647766, 'learning_rate': 1.0616895874263264e-05, 'epoch': 5.658153241650295}
Step: 2884 {'loss': 0.0596, 'grad_norm': 0.21410498023033142, 'learning_rate': 1.0600605762933858e-05, 'epoch': 5.667976424361493}
Step: 2889 {'loss': 0.0648, 'grad_norm': 0.4214673340320587, 'learning_rate': 1.0584315651604456e-05, 'epoch': 5.677799607072692}
Step: 2894 {'loss': 0.0668, 'grad_norm': 0.3631124794483185, 'learning_rate': 1.0568025540275054e-05, 'epoch': 5.68762278978389}
Step: 2899 {'loss': 0.0612, 'grad_norm': 0.30390501022338867, 'learning_rate': 1.0551735428945648e-05, 'epoch': 5.697445972495088}
Step: 2904 {'loss': 0.0595, 'grad_norm': 0.5466036200523376, 'learning_rate': 1.0535445317616243e-05, 'epoch': 5.707269155206287}
Step: 2909 {'loss': 0.0627, 'grad_norm': 0.38246139883995056, 'learning_rate': 1.0519155206286837e-05, 'epoch': 5.717092337917485}
Step: 2914 {'loss': 0.0608, 'grad_norm': 0.37013179063796997, 'learning_rate': 1.0502865094957435e-05, 'epoch': 5.726915520628683}
Step: 2919 {'loss': 0.0604, 'grad_norm': 0.46182945370674133, 'learning_rate': 1.0486574983628033e-05, 'epoch': 5.736738703339882}
Step: 2924 {'loss': 0.0668, 'grad_norm': 0.430694580078125, 'learning_rate': 1.0470284872298625e-05, 'epoch': 5.74656188605108}
Step: 2929 {'loss': 0.0601, 'grad_norm': 0.3070358335971832, 'learning_rate': 1.0453994760969222e-05, 'epoch': 5.756385068762279}
Step: 2934 {'loss': 0.0602, 'grad_norm': 0.33750590682029724, 'learning_rate': 1.0437704649639818e-05, 'epoch': 5.766208251473477}
Step: 2939 {'loss': 0.0625, 'grad_norm': 0.45089006423950195, 'learning_rate': 1.0421414538310415e-05, 'epoch': 5.7760314341846755}
Step: 2944 {'loss': 0.0619, 'grad_norm': 0.8161846995353699, 'learning_rate': 1.0405124426981013e-05, 'epoch': 5.785854616895874}
Step: 2949 {'loss': 0.0587, 'grad_norm': 0.41679874062538147, 'learning_rate': 1.0388834315651608e-05, 'epoch': 5.7956777996070725}
Step: 2954 {'loss': 0.0619, 'grad_norm': 0.37687745690345764, 'learning_rate': 1.0372544204322202e-05, 'epoch': 5.8055009823182715}
Step: 2959 {'loss': 0.0594, 'grad_norm': 0.3366577625274658, 'learning_rate': 1.0356254092992796e-05, 'epoch': 5.81532416502947}
Step: 2964 {'loss': 0.0642, 'grad_norm': 0.5046921968460083, 'learning_rate': 1.0339963981663394e-05, 'epoch': 5.825147347740668}
Step: 2969 {'loss': 0.0554, 'grad_norm': 0.2917594313621521, 'learning_rate': 1.0323673870333992e-05, 'epoch': 5.834970530451867}
Step: 2974 {'loss': 0.0639, 'grad_norm': 0.5164881348609924, 'learning_rate': 1.0307383759004585e-05, 'epoch': 5.844793713163065}
Step: 2979 {'loss': 0.0619, 'grad_norm': 0.35898134112358093, 'learning_rate': 1.0291093647675181e-05, 'epoch': 5.854616895874264}
Step: 2984 {'loss': 0.0612, 'grad_norm': 0.33414193987846375, 'learning_rate': 1.0274803536345777e-05, 'epoch': 5.864440078585462}
Step: 2989 {'loss': 0.0578, 'grad_norm': 0.3283986747264862, 'learning_rate': 1.0258513425016375e-05, 'epoch': 5.87426326129666}
Step: 2994 {'loss': 0.0632, 'grad_norm': 0.6161862015724182, 'learning_rate': 1.0242223313686973e-05, 'epoch': 5.884086444007859}
Step: 2999 {'loss': 0.0577, 'grad_norm': 0.36895766854286194, 'learning_rate': 1.0225933202357565e-05, 'epoch': 5.893909626719057}
Step: 3004 {'loss': 0.0641, 'grad_norm': 0.32490408420562744, 'learning_rate': 1.0209643091028161e-05, 'epoch': 5.903732809430255}
Step: 3009 {'loss': 0.0665, 'grad_norm': 0.40633171796798706, 'learning_rate': 1.019335297969876e-05, 'epoch': 5.913555992141454}
Step: 3014 {'loss': 0.0604, 'grad_norm': 0.522960901260376, 'learning_rate': 1.0177062868369354e-05, 'epoch': 5.923379174852652}
Step: 3019 {'loss': 0.0611, 'grad_norm': 0.36968564987182617, 'learning_rate': 1.016077275703995e-05, 'epoch': 5.933202357563851}
Step: 3024 {'loss': 0.0615, 'grad_norm': 0.5081744194030762, 'learning_rate': 1.0144482645710544e-05, 'epoch': 5.943025540275049}
Step: 3029 {'loss': 0.0654, 'grad_norm': 0.4702548384666443, 'learning_rate': 1.012819253438114e-05, 'epoch': 5.952848722986247}
Step: 3034 {'loss': 0.0634, 'grad_norm': 0.41750088334083557, 'learning_rate': 1.0111902423051738e-05, 'epoch': 5.962671905697446}
Step: 3039 {'loss': 0.0577, 'grad_norm': 0.49620795249938965, 'learning_rate': 1.0095612311722334e-05, 'epoch': 5.972495088408644}
Step: 3044 {'loss': 0.0626, 'grad_norm': 0.5090745091438293, 'learning_rate': 1.0079322200392932e-05, 'epoch': 5.982318271119842}
Step: 3049 {'loss': 0.0645, 'grad_norm': 0.5178577303886414, 'learning_rate': 1.0063032089063525e-05, 'epoch': 5.992141453831041}
Step: 3054 {'loss': 0.0625, 'grad_norm': 0.24076998233795166, 'learning_rate': 1.0046741977734121e-05, 'epoch': 6.001964636542239}
Step: 3059 {'loss': 0.0497, 'grad_norm': 0.2382848560810089, 'learning_rate': 1.0030451866404719e-05, 'epoch': 6.011787819253438}
Step: 3064 {'loss': 0.051, 'grad_norm': 0.2604595422744751, 'learning_rate': 1.0014161755075313e-05, 'epoch': 6.0216110019646365}
Step: 3069 {'loss': 0.048, 'grad_norm': 0.42400142550468445, 'learning_rate': 9.99787164374591e-06, 'epoch': 6.031434184675835}
Step: 3074 {'loss': 0.0493, 'grad_norm': 0.39244312047958374, 'learning_rate': 9.981581532416505e-06, 'epoch': 6.041257367387034}
Step: 3079 {'loss': 0.0465, 'grad_norm': 0.25466296076774597, 'learning_rate': 9.965291421087101e-06, 'epoch': 6.051080550098232}
Step: 3084 {'loss': 0.0529, 'grad_norm': 0.4328427314758301, 'learning_rate': 9.949001309757698e-06, 'epoch': 6.060903732809431}
Step: 3089 {'loss': 0.0508, 'grad_norm': 0.42761480808258057, 'learning_rate': 9.932711198428292e-06, 'epoch': 6.070726915520629}
Step: 3094 {'loss': 0.0484, 'grad_norm': 0.24768559634685516, 'learning_rate': 9.91642108709889e-06, 'epoch': 6.080550098231827}
Step: 3099 {'loss': 0.051, 'grad_norm': 0.4492540657520294, 'learning_rate': 9.900130975769484e-06, 'epoch': 6.090373280943026}
Step: 3104 {'loss': 0.0462, 'grad_norm': 0.30859020352363586, 'learning_rate': 9.883840864440082e-06, 'epoch': 6.100196463654224}
Step: 3109 {'loss': 0.0498, 'grad_norm': 0.24100035429000854, 'learning_rate': 9.867550753110676e-06, 'epoch': 6.110019646365423}
Step: 3114 {'loss': 0.0494, 'grad_norm': 0.3383577764034271, 'learning_rate': 9.851260641781271e-06, 'epoch': 6.119842829076621}
Step: 3119 {'loss': 0.0504, 'grad_norm': 0.16829340159893036, 'learning_rate': 9.834970530451869e-06, 'epoch': 6.129666011787819}
Step: 3124 {'loss': 0.0446, 'grad_norm': 0.22986243665218353, 'learning_rate': 9.818680419122463e-06, 'epoch': 6.139489194499018}
Step: 3129 {'loss': 0.0517, 'grad_norm': 0.26552143692970276, 'learning_rate': 9.802390307793061e-06, 'epoch': 6.149312377210216}
Step: 3134 {'loss': 0.048, 'grad_norm': 0.33718612790107727, 'learning_rate': 9.786100196463655e-06, 'epoch': 6.159135559921414}
Step: 3139 {'loss': 0.0485, 'grad_norm': 0.3911612927913666, 'learning_rate': 9.769810085134251e-06, 'epoch': 6.168958742632613}
Step: 3144 {'loss': 0.0505, 'grad_norm': 0.2699517011642456, 'learning_rate': 9.75351997380485e-06, 'epoch': 6.178781925343811}
Step: 3149 {'loss': 0.0472, 'grad_norm': 0.3138607144355774, 'learning_rate': 9.737229862475444e-06, 'epoch': 6.18860510805501}
Step: 3154 {'loss': 0.0489, 'grad_norm': 0.311149537563324, 'learning_rate': 9.720939751146041e-06, 'epoch': 6.198428290766208}
Step: 3159 {'loss': 0.0502, 'grad_norm': 0.2929224371910095, 'learning_rate': 9.704649639816636e-06, 'epoch': 6.208251473477406}
Step: 3164 {'loss': 0.0525, 'grad_norm': 0.35076919198036194, 'learning_rate': 9.688359528487234e-06, 'epoch': 6.218074656188605}
Step: 3169 {'loss': 0.0482, 'grad_norm': 0.26406028866767883, 'learning_rate': 9.672069417157828e-06, 'epoch': 6.227897838899803}
Step: 3174 {'loss': 0.0485, 'grad_norm': 0.3748334050178528, 'learning_rate': 9.655779305828423e-06, 'epoch': 6.237721021611002}
Step: 3179 {'loss': 0.0469, 'grad_norm': 0.28485339879989624, 'learning_rate': 9.63948919449902e-06, 'epoch': 6.2475442043222005}
Step: 3184 {'loss': 0.0533, 'grad_norm': 0.3593737483024597, 'learning_rate': 9.623199083169615e-06, 'epoch': 6.257367387033399}
Step: 3189 {'loss': 0.0552, 'grad_norm': 0.44734445214271545, 'learning_rate': 9.606908971840213e-06, 'epoch': 6.2671905697445975}
Step: 3194 {'loss': 0.0503, 'grad_norm': 0.3742864429950714, 'learning_rate': 9.590618860510807e-06, 'epoch': 6.277013752455796}
Step: 3199 {'loss': 0.0536, 'grad_norm': 0.41083824634552, 'learning_rate': 9.574328749181403e-06, 'epoch': 6.286836935166994}
Step: 3204 {'loss': 0.0502, 'grad_norm': 0.26996150612831116, 'learning_rate': 9.558038637852e-06, 'epoch': 6.296660117878193}
Step: 3209 {'loss': 0.0518, 'grad_norm': 0.41704031825065613, 'learning_rate': 9.541748526522595e-06, 'epoch': 6.306483300589391}
Step: 3214 {'loss': 0.052, 'grad_norm': 0.2750642001628876, 'learning_rate': 9.525458415193191e-06, 'epoch': 6.31630648330059}
Step: 3219 {'loss': 0.0523, 'grad_norm': 0.4800208508968353, 'learning_rate': 9.509168303863788e-06, 'epoch': 6.326129666011788}
Step: 3224 {'loss': 0.057, 'grad_norm': 0.29562243819236755, 'learning_rate': 9.492878192534382e-06, 'epoch': 6.335952848722986}
Step: 3229 {'loss': 0.0437, 'grad_norm': 0.36032190918922424, 'learning_rate': 9.47658808120498e-06, 'epoch': 6.345776031434185}
Step: 3234 {'loss': 0.0523, 'grad_norm': 0.3099859058856964, 'learning_rate': 9.460297969875574e-06, 'epoch': 6.355599214145383}
Step: 3239 {'loss': 0.0548, 'grad_norm': 0.34214505553245544, 'learning_rate': 9.444007858546172e-06, 'epoch': 6.365422396856582}
Step: 3244 {'loss': 0.0509, 'grad_norm': 0.3540189862251282, 'learning_rate': 9.427717747216766e-06, 'epoch': 6.37524557956778}
Step: 3249 {'loss': 0.0504, 'grad_norm': 0.4237115979194641, 'learning_rate': 9.411427635887363e-06, 'epoch': 6.385068762278978}
Step: 3259 {'loss': 0.0531, 'grad_norm': 0.42130205035209656, 'learning_rate': 9.378847413228555e-06, 'epoch': 6.404715127701375}
Step: 3264 {'loss': 0.0507, 'grad_norm': 0.29026973247528076, 'learning_rate': 9.36255730189915e-06, 'epoch': 6.414538310412573}
Step: 3269 {'loss': 0.0512, 'grad_norm': 0.28038790822029114, 'learning_rate': 9.346267190569747e-06, 'epoch': 6.424361493123772}
Step: 3274 {'loss': 0.0453, 'grad_norm': 0.24588234722614288, 'learning_rate': 9.329977079240343e-06, 'epoch': 6.43418467583497}
Step: 3279 {'loss': 0.0525, 'grad_norm': 0.38207578659057617, 'learning_rate': 9.31368696791094e-06, 'epoch': 6.444007858546169}
Step: 3284 {'loss': 0.0574, 'grad_norm': 0.3622764050960541, 'learning_rate': 9.297396856581534e-06, 'epoch': 6.453831041257367}
Step: 3289 {'loss': 0.0491, 'grad_norm': 0.37079954147338867, 'learning_rate': 9.281106745252131e-06, 'epoch': 6.4636542239685655}
Step: 3294 {'loss': 0.0531, 'grad_norm': 0.363761305809021, 'learning_rate': 9.264816633922726e-06, 'epoch': 6.4734774066797645}
Step: 3299 {'loss': 0.0469, 'grad_norm': 0.2632995843887329, 'learning_rate': 9.248526522593324e-06, 'epoch': 6.4833005893909625}
Step: 3304 {'loss': 0.0525, 'grad_norm': 0.24934126436710358, 'learning_rate': 9.232236411263918e-06, 'epoch': 6.493123772102161}
Step: 3309 {'loss': 0.0504, 'grad_norm': 0.33489519357681274, 'learning_rate': 9.215946299934512e-06, 'epoch': 6.50294695481336}
Step: 3314 {'loss': 0.0523, 'grad_norm': 0.5013138651847839, 'learning_rate': 9.19965618860511e-06, 'epoch': 6.512770137524558}
Step: 3319 {'loss': 0.0513, 'grad_norm': 0.2907508909702301, 'learning_rate': 9.183366077275705e-06, 'epoch': 6.522593320235757}
Step: 3324 {'loss': 0.0477, 'grad_norm': 0.2950580418109894, 'learning_rate': 9.167075965946302e-06, 'epoch': 6.532416502946955}
Step: 3329 {'loss': 0.0463, 'grad_norm': 0.2570635974407196, 'learning_rate': 9.150785854616897e-06, 'epoch': 6.542239685658153}
Step: 3334 {'loss': 0.0464, 'grad_norm': 0.21365414559841156, 'learning_rate': 9.134495743287493e-06, 'epoch': 6.552062868369352}
Step: 3339 {'loss': 0.0564, 'grad_norm': 0.4880813658237457, 'learning_rate': 9.11820563195809e-06, 'epoch': 6.56188605108055}
Step: 3344 {'loss': 0.0514, 'grad_norm': 0.2530289590358734, 'learning_rate': 9.101915520628685e-06, 'epoch': 6.571709233791749}
Step: 3349 {'loss': 0.0561, 'grad_norm': 0.3688508868217468, 'learning_rate': 9.085625409299283e-06, 'epoch': 6.581532416502947}
Step: 3354 {'loss': 0.0468, 'grad_norm': 0.3233175277709961, 'learning_rate': 9.069335297969877e-06, 'epoch': 6.591355599214145}
Step: 3359 {'loss': 0.0526, 'grad_norm': 0.32170265913009644, 'learning_rate': 9.053045186640472e-06, 'epoch': 6.601178781925344}
Step: 3364 {'loss': 0.0524, 'grad_norm': 0.41692471504211426, 'learning_rate': 9.03675507531107e-06, 'epoch': 6.611001964636542}
Step: 3369 {'loss': 0.0491, 'grad_norm': 0.251555472612381, 'learning_rate': 9.020464963981664e-06, 'epoch': 6.620825147347741}
Step: 3374 {'loss': 0.0492, 'grad_norm': 0.2022753357887268, 'learning_rate': 9.004174852652262e-06, 'epoch': 6.630648330058939}
Step: 3379 {'loss': 0.0493, 'grad_norm': 0.35821327567100525, 'learning_rate': 8.987884741322856e-06, 'epoch': 6.640471512770137}
Step: 3384 {'loss': 0.0549, 'grad_norm': 0.2862684428691864, 'learning_rate': 8.971594629993454e-06, 'epoch': 6.650294695481336}
Step: 3389 {'loss': 0.0522, 'grad_norm': 0.3554161489009857, 'learning_rate': 8.955304518664049e-06, 'epoch': 6.660117878192534}
Step: 3394 {'loss': 0.0498, 'grad_norm': 0.3186638057231903, 'learning_rate': 8.939014407334645e-06, 'epoch': 6.669941060903733}
Step: 3399 {'loss': 0.0503, 'grad_norm': 0.22863027453422546, 'learning_rate': 8.92272429600524e-06, 'epoch': 6.679764243614931}
Step: 3404 {'loss': 0.0557, 'grad_norm': 0.26429009437561035, 'learning_rate': 8.906434184675837e-06, 'epoch': 6.6895874263261295}
Step: 3409 {'loss': 0.052, 'grad_norm': 0.3494521379470825, 'learning_rate': 8.890144073346433e-06, 'epoch': 6.699410609037328}
Step: 3414 {'loss': 0.0511, 'grad_norm': 0.3640083968639374, 'learning_rate': 8.873853962017029e-06, 'epoch': 6.7092337917485265}
Step: 3419 {'loss': 0.0534, 'grad_norm': 0.28708481788635254, 'learning_rate': 8.857563850687624e-06, 'epoch': 6.719056974459725}
Step: 3424 {'loss': 0.0469, 'grad_norm': 0.2157570719718933, 'learning_rate': 8.841273739358221e-06, 'epoch': 6.728880157170924}
Step: 3429 {'loss': 0.0492, 'grad_norm': 0.3055846691131592, 'learning_rate': 8.824983628028816e-06, 'epoch': 6.738703339882122}
Step: 3434 {'loss': 0.0536, 'grad_norm': 0.45860621333122253, 'learning_rate': 8.808693516699414e-06, 'epoch': 6.74852652259332}
Step: 3439 {'loss': 0.0493, 'grad_norm': 0.27806901931762695, 'learning_rate': 8.792403405370008e-06, 'epoch': 6.758349705304519}
Step: 3444 {'loss': 0.0503, 'grad_norm': 0.22388257086277008, 'learning_rate': 8.776113294040604e-06, 'epoch': 6.768172888015717}
Step: 3449 {'loss': 0.054, 'grad_norm': 0.4766697287559509, 'learning_rate': 8.7598231827112e-06, 'epoch': 6.777996070726916}
Step: 3454 {'loss': 0.057, 'grad_norm': 0.567842960357666, 'learning_rate': 8.743533071381796e-06, 'epoch': 6.787819253438114}
Step: 3459 {'loss': 0.0527, 'grad_norm': 0.3204675018787384, 'learning_rate': 8.727242960052392e-06, 'epoch': 6.797642436149312}
Step: 3464 {'loss': 0.0567, 'grad_norm': 0.34818223118782043, 'learning_rate': 8.710952848722989e-06, 'epoch': 6.807465618860511}
Step: 3469 {'loss': 0.0524, 'grad_norm': 0.3641193211078644, 'learning_rate': 8.694662737393585e-06, 'epoch': 6.817288801571709}
Step: 3474 {'loss': 0.0507, 'grad_norm': 0.3720994293689728, 'learning_rate': 8.67837262606418e-06, 'epoch': 6.827111984282908}
Step: 3479 {'loss': 0.049, 'grad_norm': 0.3279467523097992, 'learning_rate': 8.662082514734775e-06, 'epoch': 6.836935166994106}
Step: 3484 {'loss': 0.0541, 'grad_norm': 0.6355412602424622, 'learning_rate': 8.645792403405373e-06, 'epoch': 6.846758349705304}
Step: 3489 {'loss': 0.0591, 'grad_norm': 0.4770020544528961, 'learning_rate': 8.629502292075967e-06, 'epoch': 6.856581532416503}
Step: 3494 {'loss': 0.0498, 'grad_norm': 0.3936624526977539, 'learning_rate': 8.613212180746565e-06, 'epoch': 6.866404715127701}
Step: 3499 {'loss': 0.0531, 'grad_norm': 0.3051680028438568, 'learning_rate': 8.59692206941716e-06, 'epoch': 6.8762278978389}
Step: 3504 {'loss': 0.0473, 'grad_norm': 0.3533349931240082, 'learning_rate': 8.580631958087754e-06, 'epoch': 6.886051080550098}
Step: 3509 {'loss': 0.0504, 'grad_norm': 0.22242675721645355, 'learning_rate': 8.564341846758352e-06, 'epoch': 6.895874263261296}
Step: 3514 {'loss': 0.0532, 'grad_norm': 0.3579179346561432, 'learning_rate': 8.548051735428946e-06, 'epoch': 6.905697445972495}
Step: 3519 {'loss': 0.0545, 'grad_norm': 0.2513076663017273, 'learning_rate': 8.531761624099544e-06, 'epoch': 6.915520628683693}
Step: 3524 {'loss': 0.0507, 'grad_norm': 0.5860397219657898, 'learning_rate': 8.515471512770138e-06, 'epoch': 6.925343811394892}
Step: 3529 {'loss': 0.0578, 'grad_norm': 0.6025645136833191, 'learning_rate': 8.499181401440735e-06, 'epoch': 6.9351669941060905}
Step: 3534 {'loss': 0.052, 'grad_norm': 0.35618382692337036, 'learning_rate': 8.482891290111332e-06, 'epoch': 6.944990176817289}
Step: 3539 {'loss': 0.0537, 'grad_norm': 0.28247958421707153, 'learning_rate': 8.466601178781927e-06, 'epoch': 6.954813359528488}
Step: 3544 {'loss': 0.0544, 'grad_norm': 0.35288023948669434, 'learning_rate': 8.450311067452525e-06, 'epoch': 6.964636542239686}
Step: 3549 {'loss': 0.0571, 'grad_norm': 0.5093522667884827, 'learning_rate': 8.434020956123119e-06, 'epoch': 6.974459724950884}
Step: 3554 {'loss': 0.0563, 'grad_norm': 0.26592016220092773, 'learning_rate': 8.417730844793713e-06, 'epoch': 6.984282907662083}
Step: 3559 {'loss': 0.0504, 'grad_norm': 0.1860288679599762, 'learning_rate': 8.401440733464311e-06, 'epoch': 6.994106090373281}
Step: 3564 {'loss': 0.0518, 'grad_norm': 0.19609984755516052, 'learning_rate': 8.385150622134906e-06, 'epoch': 7.00392927308448}
Step: 3569 {'loss': 0.0436, 'grad_norm': 0.42749232053756714, 'learning_rate': 8.368860510805503e-06, 'epoch': 7.013752455795678}
Step: 3574 {'loss': 0.0438, 'grad_norm': 0.39837875962257385, 'learning_rate': 8.352570399476098e-06, 'epoch': 7.023575638506876}
Step: 3579 {'loss': 0.0417, 'grad_norm': 0.23593924939632416, 'learning_rate': 8.336280288146696e-06, 'epoch': 7.033398821218075}
Step: 3584 {'loss': 0.0445, 'grad_norm': 0.21249957382678986, 'learning_rate': 8.31999017681729e-06, 'epoch': 7.043222003929273}
Step: 3589 {'loss': 0.0395, 'grad_norm': 0.3549557626247406, 'learning_rate': 8.303700065487886e-06, 'epoch': 7.053045186640471}
Step: 3594 {'loss': 0.0472, 'grad_norm': 0.23151805996894836, 'learning_rate': 8.287409954158482e-06, 'epoch': 7.06286836935167}
Step: 3599 {'loss': 0.0426, 'grad_norm': 0.23210588097572327, 'learning_rate': 8.271119842829078e-06, 'epoch': 7.072691552062868}
Step: 3604 {'loss': 0.0445, 'grad_norm': 0.3110956847667694, 'learning_rate': 8.254829731499675e-06, 'epoch': 7.082514734774067}
Step: 3609 {'loss': 0.0473, 'grad_norm': 0.20097176730632782, 'learning_rate': 8.23853962017027e-06, 'epoch': 7.092337917485265}
Step: 3614 {'loss': 0.0385, 'grad_norm': 0.23555229604244232, 'learning_rate': 8.222249508840865e-06, 'epoch': 7.102161100196463}
Step: 3619 {'loss': 0.0407, 'grad_norm': 0.2892974317073822, 'learning_rate': 8.205959397511463e-06, 'epoch': 7.111984282907662}
Step: 3624 {'loss': 0.0433, 'grad_norm': 0.3192358613014221, 'learning_rate': 8.189669286182057e-06, 'epoch': 7.12180746561886}
Step: 3629 {'loss': 0.0433, 'grad_norm': 0.23947983980178833, 'learning_rate': 8.173379174852655e-06, 'epoch': 7.131630648330059}
Step: 3634 {'loss': 0.0467, 'grad_norm': 0.2326444387435913, 'learning_rate': 8.15708906352325e-06, 'epoch': 7.141453831041257}
Step: 3639 {'loss': 0.0404, 'grad_norm': 0.3675975799560547, 'learning_rate': 8.140798952193846e-06, 'epoch': 7.1512770137524555}
Step: 3644 {'loss': 0.0411, 'grad_norm': 0.29567795991897583, 'learning_rate': 8.124508840864442e-06, 'epoch': 7.1611001964636545}
Step: 3649 {'loss': 0.0515, 'grad_norm': 0.3474736511707306, 'learning_rate': 8.108218729535038e-06, 'epoch': 7.170923379174853}
Step: 3654 {'loss': 0.0437, 'grad_norm': 0.17795202136039734, 'learning_rate': 8.091928618205634e-06, 'epoch': 7.1807465618860515}
Step: 3659 {'loss': 0.0445, 'grad_norm': 0.2625427544116974, 'learning_rate': 8.07563850687623e-06, 'epoch': 7.19056974459725}
Step: 3664 {'loss': 0.0475, 'grad_norm': 0.2324841022491455, 'learning_rate': 8.059348395546825e-06, 'epoch': 7.200392927308448}
Step: 3669 {'loss': 0.0439, 'grad_norm': 0.16346438229084015, 'learning_rate': 8.043058284217422e-06, 'epoch': 7.210216110019647}
Step: 3674 {'loss': 0.0445, 'grad_norm': 0.5751412510871887, 'learning_rate': 8.026768172888017e-06, 'epoch': 7.220039292730845}
Step: 3679 {'loss': 0.0413, 'grad_norm': 0.17409572005271912, 'learning_rate': 8.010478061558615e-06, 'epoch': 7.229862475442043}
Step: 3684 {'loss': 0.0437, 'grad_norm': 0.2473941594362259, 'learning_rate': 7.994187950229209e-06, 'epoch': 7.239685658153242}
Step: 3689 {'loss': 0.0432, 'grad_norm': 0.24969787895679474, 'learning_rate': 7.977897838899807e-06, 'epoch': 7.24950884086444}
Step: 3694 {'loss': 0.0456, 'grad_norm': 0.29508310556411743, 'learning_rate': 7.961607727570401e-06, 'epoch': 7.259332023575639}
Step: 3699 {'loss': 0.0477, 'grad_norm': 0.28802168369293213, 'learning_rate': 7.945317616240996e-06, 'epoch': 7.269155206286837}
Step: 3704 {'loss': 0.0489, 'grad_norm': 0.2657318115234375, 'learning_rate': 7.929027504911593e-06, 'epoch': 7.278978388998035}
Step: 3709 {'loss': 0.0462, 'grad_norm': 0.16735269129276276, 'learning_rate': 7.912737393582188e-06, 'epoch': 7.288801571709234}
Step: 3714 {'loss': 0.04, 'grad_norm': 0.26558294892311096, 'learning_rate': 7.896447282252786e-06, 'epoch': 7.298624754420432}
Step: 3719 {'loss': 0.0445, 'grad_norm': 0.17470423877239227, 'learning_rate': 7.88015717092338e-06, 'epoch': 7.30844793713163}
Step: 3724 {'loss': 0.0498, 'grad_norm': 0.5081800222396851, 'learning_rate': 7.863867059593976e-06, 'epoch': 7.318271119842829}
Step: 3729 {'loss': 0.0457, 'grad_norm': 0.23335549235343933, 'learning_rate': 7.847576948264574e-06, 'epoch': 7.328094302554027}
Step: 3734 {'loss': 0.0483, 'grad_norm': 0.3253103792667389, 'learning_rate': 7.831286836935168e-06, 'epoch': 7.337917485265226}
Step: 3744 {'loss': 0.0455, 'grad_norm': 0.25534942746162415, 'learning_rate': 7.79870661427636e-06, 'epoch': 7.357563850687622}
Step: 3749 {'loss': 0.0487, 'grad_norm': 0.2836906313896179, 'learning_rate': 7.782416502946955e-06, 'epoch': 7.367387033398821}
Step: 3754 {'loss': 0.0462, 'grad_norm': 0.3059728145599365, 'learning_rate': 7.766126391617553e-06, 'epoch': 7.3772102161100195}
Step: 3759 {'loss': 0.0444, 'grad_norm': 0.2270870953798294, 'learning_rate': 7.749836280288147e-06, 'epoch': 7.3870333988212185}
Step: 3764 {'loss': 0.0443, 'grad_norm': 0.3657494783401489, 'learning_rate': 7.733546168958745e-06, 'epoch': 7.3968565815324165}
Step: 3769 {'loss': 0.0414, 'grad_norm': 0.2882401943206787, 'learning_rate': 7.71725605762934e-06, 'epoch': 7.406679764243615}
Step: 3774 {'loss': 0.051, 'grad_norm': 0.49531102180480957, 'learning_rate': 7.700965946299937e-06, 'epoch': 7.416502946954814}
Step: 3779 {'loss': 0.0464, 'grad_norm': 0.17252881824970245, 'learning_rate': 7.684675834970532e-06, 'epoch': 7.426326129666012}
Step: 3784 {'loss': 0.0479, 'grad_norm': 0.5334557890892029, 'learning_rate': 7.668385723641126e-06, 'epoch': 7.436149312377211}
Step: 3789 {'loss': 0.0411, 'grad_norm': 0.28398633003234863, 'learning_rate': 7.652095612311724e-06, 'epoch': 7.445972495088409}
Step: 3794 {'loss': 0.0466, 'grad_norm': 0.259147047996521, 'learning_rate': 7.63580550098232e-06, 'epoch': 7.455795677799607}
Step: 3799 {'loss': 0.0453, 'grad_norm': 0.22035323083400726, 'learning_rate': 7.619515389652916e-06, 'epoch': 7.465618860510806}
Step: 3804 {'loss': 0.0522, 'grad_norm': 0.36303460597991943, 'learning_rate': 7.6032252783235114e-06, 'epoch': 7.475442043222004}
Step: 3809 {'loss': 0.053, 'grad_norm': 0.2706242501735687, 'learning_rate': 7.586935166994106e-06, 'epoch': 7.485265225933202}
Step: 3814 {'loss': 0.0478, 'grad_norm': 0.3660188913345337, 'learning_rate': 7.570645055664704e-06, 'epoch': 7.495088408644401}
Step: 3819 {'loss': 0.0487, 'grad_norm': 0.3029720187187195, 'learning_rate': 7.554354944335298e-06, 'epoch': 7.504911591355599}
Step: 3824 {'loss': 0.0466, 'grad_norm': 0.29359063506126404, 'learning_rate': 7.538064833005896e-06, 'epoch': 7.514734774066798}
Step: 3829 {'loss': 0.0428, 'grad_norm': 0.26422637701034546, 'learning_rate': 7.52177472167649e-06, 'epoch': 7.524557956777996}
Step: 3834 {'loss': 0.0484, 'grad_norm': 0.2763463854789734, 'learning_rate': 7.5054846103470856e-06, 'epoch': 7.534381139489194}
Step: 3839 {'loss': 0.0474, 'grad_norm': 0.3931662142276764, 'learning_rate': 7.4891944990176825e-06, 'epoch': 7.544204322200393}
Step: 3844 {'loss': 0.0456, 'grad_norm': 0.23876842856407166, 'learning_rate': 7.472904387688278e-06, 'epoch': 7.554027504911591}
Step: 3849 {'loss': 0.0398, 'grad_norm': 0.19359494745731354, 'learning_rate': 7.456614276358876e-06, 'epoch': 7.563850687622789}
Step: 3854 {'loss': 0.0478, 'grad_norm': 0.724157452583313, 'learning_rate': 7.44032416502947e-06, 'epoch': 7.573673870333988}
Step: 3859 {'loss': 0.0445, 'grad_norm': 0.32993313670158386, 'learning_rate': 7.424034053700065e-06, 'epoch': 7.583497053045186}
Step: 3864 {'loss': 0.0472, 'grad_norm': 0.31283724308013916, 'learning_rate': 7.407743942370662e-06, 'epoch': 7.593320235756385}
Step: 3869 {'loss': 0.0392, 'grad_norm': 0.6367641091346741, 'learning_rate': 7.3914538310412575e-06, 'epoch': 7.6031434184675835}
Step: 3874 {'loss': 0.0452, 'grad_norm': 0.36334189772605896, 'learning_rate': 7.3751637197118545e-06, 'epoch': 7.6129666011787815}
Step: 3879 {'loss': 0.0541, 'grad_norm': 0.3502427637577057, 'learning_rate': 7.35887360838245e-06, 'epoch': 7.6227897838899805}
Step: 3884 {'loss': 0.0493, 'grad_norm': 0.3340410888195038, 'learning_rate': 7.342583497053047e-06, 'epoch': 7.632612966601179}
Step: 3889 {'loss': 0.0446, 'grad_norm': 0.4741010367870331, 'learning_rate': 7.326293385723642e-06, 'epoch': 7.642436149312378}
Step: 3894 {'loss': 0.0452, 'grad_norm': 0.18362532556056976, 'learning_rate': 7.310003274394237e-06, 'epoch': 7.652259332023576}
Step: 3899 {'loss': 0.0418, 'grad_norm': 0.18142090737819672, 'learning_rate': 7.293713163064834e-06, 'epoch': 7.662082514734774}
Step: 3904 {'loss': 0.0466, 'grad_norm': 0.20465505123138428, 'learning_rate': 7.2774230517354294e-06, 'epoch': 7.671905697445973}
Step: 3909 {'loss': 0.045, 'grad_norm': 0.44177863001823425, 'learning_rate': 7.261132940406026e-06, 'epoch': 7.681728880157171}
Step: 3914 {'loss': 0.0475, 'grad_norm': 0.3421650230884552, 'learning_rate': 7.244842829076622e-06, 'epoch': 7.69155206286837}
Step: 3919 {'loss': 0.0472, 'grad_norm': 0.2443607896566391, 'learning_rate': 7.228552717747217e-06, 'epoch': 7.701375245579568}
Step: 3924 {'loss': 0.0412, 'grad_norm': 0.42488908767700195, 'learning_rate': 7.212262606417814e-06, 'epoch': 7.711198428290766}
Step: 3929 {'loss': 0.044, 'grad_norm': 0.22506505250930786, 'learning_rate': 7.195972495088409e-06, 'epoch': 7.721021611001965}
Step: 3934 {'loss': 0.049, 'grad_norm': 0.23335878551006317, 'learning_rate': 7.179682383759006e-06, 'epoch': 7.730844793713163}
Step: 3939 {'loss': 0.0449, 'grad_norm': 0.20831340551376343, 'learning_rate': 7.163392272429601e-06, 'epoch': 7.740667976424361}
Step: 3944 {'loss': 0.0449, 'grad_norm': 0.23997904360294342, 'learning_rate': 7.147102161100197e-06, 'epoch': 7.75049115913556}
Step: 3949 {'loss': 0.0443, 'grad_norm': 0.26195672154426575, 'learning_rate': 7.130812049770794e-06, 'epoch': 7.760314341846758}
Step: 3954 {'loss': 0.05, 'grad_norm': 0.2665024995803833, 'learning_rate': 7.114521938441389e-06, 'epoch': 7.770137524557957}
Step: 3959 {'loss': 0.0463, 'grad_norm': 0.3736078143119812, 'learning_rate': 7.098231827111986e-06, 'epoch': 7.779960707269155}
Step: 3964 {'loss': 0.0477, 'grad_norm': 0.22135210037231445, 'learning_rate': 7.081941715782581e-06, 'epoch': 7.789783889980353}
Step: 3969 {'loss': 0.0468, 'grad_norm': 0.2258184850215912, 'learning_rate': 7.065651604453177e-06, 'epoch': 7.799607072691552}
Step: 3974 {'loss': 0.049, 'grad_norm': 0.24369360506534576, 'learning_rate': 7.049361493123773e-06, 'epoch': 7.80943025540275}
Step: 3979 {'loss': 0.0441, 'grad_norm': 0.25484639406204224, 'learning_rate': 7.033071381794368e-06, 'epoch': 7.8192534381139485}
Step: 3984 {'loss': 0.0444, 'grad_norm': 0.187218576669693, 'learning_rate': 7.0167812704649655e-06, 'epoch': 7.829076620825147}
Step: 3989 {'loss': 0.0472, 'grad_norm': 0.5139181017875671, 'learning_rate': 7.000491159135561e-06, 'epoch': 7.8388998035363455}
Step: 3994 {'loss': 0.0461, 'grad_norm': 0.24268154799938202, 'learning_rate': 6.984201047806157e-06, 'epoch': 7.8487229862475445}
Step: 3999 {'loss': 0.0463, 'grad_norm': 0.25417235493659973, 'learning_rate': 6.967910936476753e-06, 'epoch': 7.858546168958743}
Step: 4004 {'loss': 0.0494, 'grad_norm': 0.3513392508029938, 'learning_rate': 6.9516208251473474e-06, 'epoch': 7.868369351669941}
Step: 4009 {'loss': 0.0454, 'grad_norm': 0.24120482802391052, 'learning_rate': 6.935330713817945e-06, 'epoch': 7.87819253438114}
Step: 4014 {'loss': 0.0438, 'grad_norm': 0.17804163694381714, 'learning_rate': 6.91904060248854e-06, 'epoch': 7.888015717092338}
Step: 4019 {'loss': 0.0457, 'grad_norm': 0.1991977095603943, 'learning_rate': 6.902750491159137e-06, 'epoch': 7.897838899803537}
Step: 4024 {'loss': 0.0467, 'grad_norm': 0.21362154185771942, 'learning_rate': 6.886460379829731e-06, 'epoch': 7.907662082514735}
Step: 4029 {'loss': 0.0456, 'grad_norm': 0.4060196578502655, 'learning_rate': 6.870170268500327e-06, 'epoch': 7.917485265225933}
Step: 4034 {'loss': 0.0463, 'grad_norm': 0.29915544390678406, 'learning_rate': 6.853880157170925e-06, 'epoch': 7.927308447937132}
Step: 4039 {'loss': 0.0458, 'grad_norm': 0.23088093101978302, 'learning_rate': 6.837590045841519e-06, 'epoch': 7.93713163064833}
Step: 4044 {'loss': 0.0448, 'grad_norm': 0.2755122184753418, 'learning_rate': 6.821299934512116e-06, 'epoch': 7.946954813359529}
Step: 4049 {'loss': 0.0476, 'grad_norm': 0.2024105042219162, 'learning_rate': 6.805009823182711e-06, 'epoch': 7.956777996070727}
Step: 4054 {'loss': 0.0467, 'grad_norm': 0.21806125342845917, 'learning_rate': 6.788719711853307e-06, 'epoch': 7.966601178781925}
Step: 4059 {'loss': 0.0481, 'grad_norm': 0.3123648464679718, 'learning_rate': 6.772429600523905e-06, 'epoch': 7.976424361493124}
Step: 4064 {'loss': 0.0482, 'grad_norm': 0.42502138018608093, 'learning_rate': 6.756139489194499e-06, 'epoch': 7.986247544204322}
Step: 4069 {'loss': 0.0475, 'grad_norm': 0.2416055053472519, 'learning_rate': 6.739849377865096e-06, 'epoch': 7.996070726915521}
Step: 4074 {'loss': 0.0423, 'grad_norm': 0.20718368887901306, 'learning_rate': 6.7235592665356905e-06, 'epoch': 8.00589390962672}
Step: 4079 {'loss': 0.0404, 'grad_norm': 0.15851129591464996, 'learning_rate': 6.707269155206288e-06, 'epoch': 8.015717092337917}
Step: 4084 {'loss': 0.0458, 'grad_norm': 0.2920588254928589, 'learning_rate': 6.690979043876884e-06, 'epoch': 8.025540275049115}
Step: 4089 {'loss': 0.0423, 'grad_norm': 0.24423357844352722, 'learning_rate': 6.674688932547479e-06, 'epoch': 8.035363457760313}
Step: 4094 {'loss': 0.0417, 'grad_norm': 0.2397707998752594, 'learning_rate': 6.658398821218076e-06, 'epoch': 8.045186640471513}
Step: 4099 {'loss': 0.0366, 'grad_norm': 0.2438919097185135, 'learning_rate': 6.64210870988867e-06, 'epoch': 8.055009823182711}
Step: 4104 {'loss': 0.0428, 'grad_norm': 0.2523016333580017, 'learning_rate': 6.625818598559268e-06, 'epoch': 8.06483300589391}
Step: 4109 {'loss': 0.0419, 'grad_norm': 0.2444152981042862, 'learning_rate': 6.609528487229864e-06, 'epoch': 8.074656188605108}
Step: 4114 {'loss': 0.0395, 'grad_norm': 0.16577459871768951, 'learning_rate': 6.5932383759004585e-06, 'epoch': 8.084479371316306}
Step: 4119 {'loss': 0.0401, 'grad_norm': 0.1580280214548111, 'learning_rate': 6.5769482645710555e-06, 'epoch': 8.094302554027506}
Step: 4124 {'loss': 0.0383, 'grad_norm': 0.1869710385799408, 'learning_rate': 6.56065815324165e-06, 'epoch': 8.104125736738704}
Step: 4129 {'loss': 0.0355, 'grad_norm': 0.21130865812301636, 'learning_rate': 6.544368041912248e-06, 'epoch': 8.113948919449902}
Step: 4134 {'loss': 0.0422, 'grad_norm': 0.19911782443523407, 'learning_rate': 6.528077930582844e-06, 'epoch': 8.1237721021611}
Step: 4139 {'loss': 0.0381, 'grad_norm': 0.224561870098114, 'learning_rate': 6.511787819253438e-06, 'epoch': 8.133595284872298}
Step: 4144 {'loss': 0.0384, 'grad_norm': 0.20178444683551788, 'learning_rate': 6.495497707924035e-06, 'epoch': 8.143418467583498}
Step: 4149 {'loss': 0.0429, 'grad_norm': 0.19744084775447845, 'learning_rate': 6.47920759659463e-06, 'epoch': 8.153241650294696}
Step: 4154 {'loss': 0.0433, 'grad_norm': 0.2437160313129425, 'learning_rate': 6.462917485265227e-06, 'epoch': 8.163064833005894}
Step: 4159 {'loss': 0.0388, 'grad_norm': 0.33132314682006836, 'learning_rate': 6.4466273739358235e-06, 'epoch': 8.172888015717092}
Step: 4164 {'loss': 0.0422, 'grad_norm': 0.27003955841064453, 'learning_rate': 6.430337262606418e-06, 'epoch': 8.18271119842829}
Step: 4169 {'loss': 0.0418, 'grad_norm': 0.18630188703536987, 'learning_rate': 6.414047151277015e-06, 'epoch': 8.19253438113949}
Step: 4174 {'loss': 0.0372, 'grad_norm': 0.22717294096946716, 'learning_rate': 6.397757039947609e-06, 'epoch': 8.202357563850688}
Step: 4179 {'loss': 0.0374, 'grad_norm': 0.2144678235054016, 'learning_rate': 6.381466928618207e-06, 'epoch': 8.212180746561886}
Step: 4184 {'loss': 0.0405, 'grad_norm': 0.2792550027370453, 'learning_rate': 6.365176817288803e-06, 'epoch': 8.222003929273084}
Step: 4189 {'loss': 0.0389, 'grad_norm': 0.25919008255004883, 'learning_rate': 6.348886705959399e-06, 'epoch': 8.231827111984282}
Step: 4194 {'loss': 0.0405, 'grad_norm': 0.16602951288223267, 'learning_rate': 6.332596594629995e-06, 'epoch': 8.241650294695482}
Step: 4199 {'loss': 0.0402, 'grad_norm': 0.19114181399345398, 'learning_rate': 6.316306483300589e-06, 'epoch': 8.25147347740668}
Step: 4204 {'loss': 0.0381, 'grad_norm': 0.24649636447429657, 'learning_rate': 6.300016371971187e-06, 'epoch': 8.261296660117878}
Step: 4209 {'loss': 0.038, 'grad_norm': 0.1343780905008316, 'learning_rate': 6.283726260641781e-06, 'epoch': 8.271119842829076}
Step: 4214 {'loss': 0.04, 'grad_norm': 0.19188612699508667, 'learning_rate': 6.267436149312379e-06, 'epoch': 8.280943025540275}
Step: 4219 {'loss': 0.0404, 'grad_norm': 0.22378191351890564, 'learning_rate': 6.2511460379829735e-06, 'epoch': 8.290766208251473}
Step: 4224 {'loss': 0.0405, 'grad_norm': 0.2459530234336853, 'learning_rate': 6.234855926653569e-06, 'epoch': 8.300589390962672}
Step: 4229 {'loss': 0.041, 'grad_norm': 0.21647503972053528, 'learning_rate': 6.2185658153241665e-06, 'epoch': 8.31041257367387}
Step: 4234 {'loss': 0.0418, 'grad_norm': 0.23540553450584412, 'learning_rate': 6.202275703994761e-06, 'epoch': 8.320235756385069}
Step: 4239 {'loss': 0.0388, 'grad_norm': 0.22953157126903534, 'learning_rate': 6.185985592665359e-06, 'epoch': 8.330058939096267}
Step: 4244 {'loss': 0.0443, 'grad_norm': 0.3031914234161377, 'learning_rate': 6.169695481335953e-06, 'epoch': 8.339882121807465}
Step: 4249 {'loss': 0.0451, 'grad_norm': 0.20346599817276, 'learning_rate': 6.1534053700065484e-06, 'epoch': 8.349705304518665}
Step: 4254 {'loss': 0.0421, 'grad_norm': 0.18602612614631653, 'learning_rate': 6.137115258677145e-06, 'epoch': 8.359528487229863}
Step: 4259 {'loss': 0.0418, 'grad_norm': 0.21076636016368866, 'learning_rate': 6.120825147347741e-06, 'epoch': 8.36935166994106}
Step: 4264 {'loss': 0.039, 'grad_norm': 0.21052268147468567, 'learning_rate': 6.104535036018338e-06, 'epoch': 8.379174852652259}
Step: 4269 {'loss': 0.0395, 'grad_norm': 0.2357845902442932, 'learning_rate': 6.088244924688933e-06, 'epoch': 8.388998035363457}
Step: 4274 {'loss': 0.0371, 'grad_norm': 0.20499715209007263, 'learning_rate': 6.07195481335953e-06, 'epoch': 8.398821218074657}
Step: 4279 {'loss': 0.0402, 'grad_norm': 0.19614075124263763, 'learning_rate': 6.055664702030125e-06, 'epoch': 8.408644400785855}
Step: 4284 {'loss': 0.0408, 'grad_norm': 0.20862716436386108, 'learning_rate': 6.03937459070072e-06, 'epoch': 8.418467583497053}
Step: 4289 {'loss': 0.0403, 'grad_norm': 0.319487065076828, 'learning_rate': 6.023084479371317e-06, 'epoch': 8.428290766208251}
Step: 4294 {'loss': 0.04, 'grad_norm': 0.21774046123027802, 'learning_rate': 6.006794368041913e-06, 'epoch': 8.43811394891945}
Step: 4299 {'loss': 0.0387, 'grad_norm': 0.18975003063678741, 'learning_rate': 5.9905042567125096e-06, 'epoch': 8.447937131630649}
Step: 4304 {'loss': 0.0395, 'grad_norm': 0.17612934112548828, 'learning_rate': 5.974214145383105e-06, 'epoch': 8.457760314341847}
Step: 4309 {'loss': 0.0418, 'grad_norm': 0.3053020238876343, 'learning_rate': 5.9579240340537e-06, 'epoch': 8.467583497053045}
Step: 4314 {'loss': 0.041, 'grad_norm': 0.26194286346435547, 'learning_rate': 5.941633922724297e-06, 'epoch': 8.477406679764243}
Step: 4319 {'loss': 0.0477, 'grad_norm': 0.22917525470256805, 'learning_rate': 5.925343811394892e-06, 'epoch': 8.487229862475441}
Step: 4324 {'loss': 0.0382, 'grad_norm': 0.2176438570022583, 'learning_rate': 5.909053700065489e-06, 'epoch': 8.497053045186641}
Step: 4329 {'loss': 0.0431, 'grad_norm': 0.19099187850952148, 'learning_rate': 5.8927635887360845e-06, 'epoch': 8.50687622789784}
Step: 4334 {'loss': 0.0442, 'grad_norm': 0.20562744140625, 'learning_rate': 5.87647347740668e-06, 'epoch': 8.516699410609037}
Step: 4339 {'loss': 0.0452, 'grad_norm': 0.22304990887641907, 'learning_rate': 5.860183366077277e-06, 'epoch': 8.526522593320236}
Step: 4344 {'loss': 0.0451, 'grad_norm': 0.20175115764141083, 'learning_rate': 5.843893254747872e-06, 'epoch': 8.536345776031434}
Step: 4349 {'loss': 0.0419, 'grad_norm': 0.3440610468387604, 'learning_rate': 5.827603143418469e-06, 'epoch': 8.546168958742633}
Step: 4354 {'loss': 0.0402, 'grad_norm': 0.21283669769763947, 'learning_rate': 5.811313032089064e-06, 'epoch': 8.555992141453832}
Step: 4359 {'loss': 0.0425, 'grad_norm': 0.2332228571176529, 'learning_rate': 5.795022920759659e-06, 'epoch': 8.56581532416503}
Step: 4364 {'loss': 0.043, 'grad_norm': 0.3889504373073578, 'learning_rate': 5.7787328094302565e-06, 'epoch': 8.575638506876228}
Step: 4369 {'loss': 0.0432, 'grad_norm': 0.2278076559305191, 'learning_rate': 5.762442698100851e-06, 'epoch': 8.585461689587426}
Step: 4374 {'loss': 0.0424, 'grad_norm': 0.22216151654720306, 'learning_rate': 5.746152586771449e-06, 'epoch': 8.595284872298624}
Step: 4379 {'loss': 0.0417, 'grad_norm': 0.2652859687805176, 'learning_rate': 5.729862475442044e-06, 'epoch': 8.605108055009824}
Step: 4384 {'loss': 0.0404, 'grad_norm': 0.17495520412921906, 'learning_rate': 5.713572364112641e-06, 'epoch': 8.614931237721022}
Step: 4389 {'loss': 0.0465, 'grad_norm': 0.20075714588165283, 'learning_rate': 5.697282252783236e-06, 'epoch': 8.62475442043222}
Step: 4394 {'loss': 0.0393, 'grad_norm': 0.23195676505565643, 'learning_rate': 5.680992141453831e-06, 'epoch': 8.634577603143418}
Step: 4399 {'loss': 0.0436, 'grad_norm': 0.45615679025650024, 'learning_rate': 5.664702030124428e-06, 'epoch': 8.644400785854616}
Step: 4404 {'loss': 0.044, 'grad_norm': 0.19806045293807983, 'learning_rate': 5.648411918795023e-06, 'epoch': 8.654223968565816}
Step: 4409 {'loss': 0.0414, 'grad_norm': 0.23188987374305725, 'learning_rate': 5.632121807465621e-06, 'epoch': 8.664047151277014}
Step: 4414 {'loss': 0.0392, 'grad_norm': 0.18124698102474213, 'learning_rate': 5.615831696136215e-06, 'epoch': 8.673870333988212}
Step: 4419 {'loss': 0.0438, 'grad_norm': 0.5948047041893005, 'learning_rate': 5.59954158480681e-06, 'epoch': 8.68369351669941}
Step: 4424 {'loss': 0.0389, 'grad_norm': 0.28116679191589355, 'learning_rate': 5.583251473477408e-06, 'epoch': 8.693516699410608}
Step: 4429 {'loss': 0.0398, 'grad_norm': 0.21296647191047668, 'learning_rate': 5.5669613621480025e-06, 'epoch': 8.703339882121808}
Step: 4434 {'loss': 0.0435, 'grad_norm': 0.18864841759204865, 'learning_rate': 5.5506712508186e-06, 'epoch': 8.713163064833006}
Step: 4439 {'loss': 0.0431, 'grad_norm': 0.1943126767873764, 'learning_rate': 5.534381139489195e-06, 'epoch': 8.722986247544204}
Step: 4444 {'loss': 0.0393, 'grad_norm': 0.20195429027080536, 'learning_rate': 5.51809102815979e-06, 'epoch': 8.732809430255402}
Step: 4449 {'loss': 0.0473, 'grad_norm': 0.19078758358955383, 'learning_rate': 5.501800916830386e-06, 'epoch': 8.7426326129666}
Step: 4454 {'loss': 0.0406, 'grad_norm': 0.16698379814624786, 'learning_rate': 5.485510805500982e-06, 'epoch': 8.7524557956778}
Step: 4459 {'loss': 0.0412, 'grad_norm': 0.2531149685382843, 'learning_rate': 5.46922069417158e-06, 'epoch': 8.762278978388998}
Step: 4464 {'loss': 0.0461, 'grad_norm': 0.2652638256549835, 'learning_rate': 5.4529305828421745e-06, 'epoch': 8.772102161100197}
Step: 4469 {'loss': 0.0452, 'grad_norm': 0.2892680764198303, 'learning_rate': 5.43664047151277e-06, 'epoch': 8.781925343811395}
Step: 4474 {'loss': 0.04, 'grad_norm': 0.2045031040906906, 'learning_rate': 5.420350360183366e-06, 'epoch': 8.791748526522593}
Step: 4479 {'loss': 0.0437, 'grad_norm': 0.22738292813301086, 'learning_rate': 5.404060248853962e-06, 'epoch': 8.80157170923379}
Step: 4484 {'loss': 0.0425, 'grad_norm': 0.1527172178030014, 'learning_rate': 5.38777013752456e-06, 'epoch': 8.81139489194499}
Step: 4489 {'loss': 0.0404, 'grad_norm': 0.46645838022232056, 'learning_rate': 5.371480026195154e-06, 'epoch': 8.821218074656189}
Step: 4494 {'loss': 0.0418, 'grad_norm': 0.2999444305896759, 'learning_rate': 5.355189914865752e-06, 'epoch': 8.831041257367387}
Step: 4499 {'loss': 0.0469, 'grad_norm': 0.20387627184391022, 'learning_rate': 5.3388998035363456e-06, 'epoch': 8.840864440078585}
Step: 4504 {'loss': 0.0413, 'grad_norm': 0.5135303139686584, 'learning_rate': 5.322609692206942e-06, 'epoch': 8.850687622789785}
Step: 4509 {'loss': 0.0403, 'grad_norm': 0.4348132312297821, 'learning_rate': 5.3063195808775395e-06, 'epoch': 8.860510805500983}
Step: 4514 {'loss': 0.0421, 'grad_norm': 0.2093244045972824, 'learning_rate': 5.290029469548134e-06, 'epoch': 8.870333988212181}
Step: 4519 {'loss': 0.0491, 'grad_norm': 0.2094055712223053, 'learning_rate': 5.273739358218732e-06, 'epoch': 8.880157170923379}
Step: 4524 {'loss': 0.0393, 'grad_norm': 0.16462406516075134, 'learning_rate': 5.257449246889325e-06, 'epoch': 8.889980353634577}
Step: 4529 {'loss': 0.0423, 'grad_norm': 0.17452342808246613, 'learning_rate': 5.241159135559921e-06, 'epoch': 8.899803536345775}
Step: 4534 {'loss': 0.046, 'grad_norm': 0.3402617573738098, 'learning_rate': 5.224869024230519e-06, 'epoch': 8.909626719056975}
Step: 4539 {'loss': 0.0392, 'grad_norm': 0.26362621784210205, 'learning_rate': 5.208578912901114e-06, 'epoch': 8.919449901768173}
Step: 4544 {'loss': 0.0464, 'grad_norm': 0.19949962198734283, 'learning_rate': 5.192288801571711e-06, 'epoch': 8.929273084479371}
Step: 4549 {'loss': 0.0413, 'grad_norm': 0.20706747472286224, 'learning_rate': 5.175998690242305e-06, 'epoch': 8.93909626719057}
Step: 4554 {'loss': 0.0398, 'grad_norm': 0.1775372475385666, 'learning_rate': 5.159708578912899e-06, 'epoch': 8.948919449901767}
Step: 4559 {'loss': 0.045, 'grad_norm': 0.34125715494155884, 'learning_rate': 5.143418467583499e-06, 'epoch': 8.958742632612967}
Step: 4564 {'loss': 0.0447, 'grad_norm': 0.26007160544395447, 'learning_rate': 5.127128356254093e-06, 'epoch': 8.968565815324165}
Step: 4569 {'loss': 0.0407, 'grad_norm': 0.23903121054172516, 'learning_rate': 5.110838244924691e-06, 'epoch': 8.978388998035363}
Step: 4574 {'loss': 0.0444, 'grad_norm': 0.21330779790878296, 'learning_rate': 5.094548133595285e-06, 'epoch': 8.988212180746562}
Step: 4579 {'loss': 0.0404, 'grad_norm': 0.2559284567832947, 'learning_rate': 5.0782580222658825e-06, 'epoch': 8.99803536345776}
Step: 4584 {'loss': 0.0394, 'grad_norm': 0.15446072816848755, 'learning_rate': 5.061967910936477e-06, 'epoch': 9.00785854616896}
Step: 4589 {'loss': 0.0391, 'grad_norm': 0.13164378702640533, 'learning_rate': 5.045677799607073e-06, 'epoch': 9.017681728880158}
Step: 4594 {'loss': 0.0361, 'grad_norm': 0.22279112040996552, 'learning_rate': 5.029387688277671e-06, 'epoch': 9.027504911591356}
Step: 4599 {'loss': 0.0335, 'grad_norm': 0.1547861248254776, 'learning_rate': 5.013097576948264e-06, 'epoch': 9.037328094302554}
Step: 4604 {'loss': 0.0349, 'grad_norm': 0.20495609939098358, 'learning_rate': 4.996807465618862e-06, 'epoch': 9.047151277013752}
Step: 4609 {'loss': 0.0395, 'grad_norm': 0.2085525244474411, 'learning_rate': 4.980517354289457e-06, 'epoch': 9.056974459724952}
Step: 4614 {'loss': 0.038, 'grad_norm': 0.22796083986759186, 'learning_rate': 4.964227242960052e-06, 'epoch': 9.06679764243615}
Step: 4619 {'loss': 0.0345, 'grad_norm': 0.16907742619514465, 'learning_rate': 4.94793713163065e-06, 'epoch': 9.076620825147348}
Step: 4624 {'loss': 0.0369, 'grad_norm': 0.1197466030716896, 'learning_rate': 4.931647020301244e-06, 'epoch': 9.086444007858546}
Step: 4629 {'loss': 0.0368, 'grad_norm': 0.1975533664226532, 'learning_rate': 4.915356908971842e-06, 'epoch': 9.096267190569744}
Step: 4634 {'loss': 0.036, 'grad_norm': 0.13002796471118927, 'learning_rate': 4.899066797642436e-06, 'epoch': 9.106090373280942}
Step: 4639 {'loss': 0.0375, 'grad_norm': 0.31049177050590515, 'learning_rate': 4.882776686313032e-06, 'epoch': 9.115913555992142}
Step: 4644 {'loss': 0.0405, 'grad_norm': 0.239750936627388, 'learning_rate': 4.8664865749836286e-06, 'epoch': 9.12573673870334}
Step: 4649 {'loss': 0.0396, 'grad_norm': 0.23878324031829834, 'learning_rate': 4.850196463654224e-06, 'epoch': 9.135559921414538}
Step: 4654 {'loss': 0.0401, 'grad_norm': 0.1861095279455185, 'learning_rate': 4.833906352324821e-06, 'epoch': 9.145383104125736}
Step: 4659 {'loss': 0.0349, 'grad_norm': 0.16985760629177094, 'learning_rate': 4.817616240995416e-06, 'epoch': 9.155206286836934}
Step: 4664 {'loss': 0.0426, 'grad_norm': 0.17009836435317993, 'learning_rate': 4.801326129666011e-06, 'epoch': 9.165029469548134}
Step: 4669 {'loss': 0.0401, 'grad_norm': 0.2079649716615677, 'learning_rate': 4.785036018336608e-06, 'epoch': 9.174852652259332}
Step: 4674 {'loss': 0.0385, 'grad_norm': 0.18132852017879486, 'learning_rate': 4.7687459070072035e-06, 'epoch': 9.18467583497053}
Step: 4679 {'loss': 0.041, 'grad_norm': 0.20221124589443207, 'learning_rate': 4.7524557956778005e-06, 'epoch': 9.194499017681729}
Step: 4684 {'loss': 0.0373, 'grad_norm': 0.17744384706020355, 'learning_rate': 4.736165684348396e-06, 'epoch': 9.204322200392927}
Step: 4689 {'loss': 0.041, 'grad_norm': 0.19608069956302643, 'learning_rate': 4.719875573018993e-06, 'epoch': 9.214145383104126}
Step: 4694 {'loss': 0.0421, 'grad_norm': 0.22698000073432922, 'learning_rate': 4.703585461689588e-06, 'epoch': 9.223968565815325}
Step: 4699 {'loss': 0.0337, 'grad_norm': 0.19042794406414032, 'learning_rate': 4.687295350360183e-06, 'epoch': 9.233791748526523}
Step: 4704 {'loss': 0.0373, 'grad_norm': 0.4523622393608093, 'learning_rate': 4.67100523903078e-06, 'epoch': 9.24361493123772}
Step: 4709 {'loss': 0.0361, 'grad_norm': 0.3582930564880371, 'learning_rate': 4.6547151277013755e-06, 'epoch': 9.253438113948919}
Step: 4714 {'loss': 0.0417, 'grad_norm': 0.29909399151802063, 'learning_rate': 4.6384250163719724e-06, 'epoch': 9.263261296660119}
Step: 4719 {'loss': 0.0378, 'grad_norm': 0.1924785077571869, 'learning_rate': 4.622134905042568e-06, 'epoch': 9.273084479371317}
Step: 4724 {'loss': 0.036, 'grad_norm': 0.11849845945835114, 'learning_rate': 4.605844793713163e-06, 'epoch': 9.282907662082515}
Step: 4729 {'loss': 0.0364, 'grad_norm': 0.1781131625175476, 'learning_rate': 4.58955468238376e-06, 'epoch': 9.292730844793713}
Step: 4734 {'loss': 0.0365, 'grad_norm': 0.21284346282482147, 'learning_rate': 4.573264571054355e-06, 'epoch': 9.302554027504911}
Step: 4739 {'loss': 0.0345, 'grad_norm': 0.19390298426151276, 'learning_rate': 4.556974459724952e-06, 'epoch': 9.31237721021611}
Step: 4744 {'loss': 0.0397, 'grad_norm': 0.28776928782463074, 'learning_rate': 4.540684348395547e-06, 'epoch': 9.322200392927309}
Step: 4749 {'loss': 0.0416, 'grad_norm': 0.20229855179786682, 'learning_rate': 4.524394237066142e-06, 'epoch': 9.332023575638507}
Step: 4754 {'loss': 0.0397, 'grad_norm': 0.147837296128273, 'learning_rate': 4.50810412573674e-06, 'epoch': 9.341846758349705}
Step: 4759 {'loss': 0.0434, 'grad_norm': 0.6787984371185303, 'learning_rate': 4.491814014407335e-06, 'epoch': 9.351669941060903}
Step: 4764 {'loss': 0.0403, 'grad_norm': 0.3049580752849579, 'learning_rate': 4.475523903077932e-06, 'epoch': 9.361493123772103}
Step: 4769 {'loss': 0.0388, 'grad_norm': 0.22458255290985107, 'learning_rate': 4.459233791748527e-06, 'epoch': 9.371316306483301}
Step: 4774 {'loss': 0.0394, 'grad_norm': 0.34738484025001526, 'learning_rate': 4.442943680419124e-06, 'epoch': 9.3811394891945}
Step: 4779 {'loss': 0.0407, 'grad_norm': 0.28538748621940613, 'learning_rate': 4.426653569089719e-06, 'epoch': 9.390962671905697}
Step: 4784 {'loss': 0.0363, 'grad_norm': 0.26383665204048157, 'learning_rate': 4.410363457760314e-06, 'epoch': 9.400785854616895}
Step: 4789 {'loss': 0.0384, 'grad_norm': 0.16455033421516418, 'learning_rate': 4.3940733464309116e-06, 'epoch': 9.410609037328094}
Step: 4794 {'loss': 0.0382, 'grad_norm': 0.49213358759880066, 'learning_rate': 4.377783235101506e-06, 'epoch': 9.420432220039293}
Step: 4799 {'loss': 0.0371, 'grad_norm': 0.18052716553211212, 'learning_rate': 4.361493123772104e-06, 'epoch': 9.430255402750491}
Step: 4804 {'loss': 0.0375, 'grad_norm': 0.14754407107830048, 'learning_rate': 4.345203012442698e-06, 'epoch': 9.44007858546169}
Step: 4809 {'loss': 0.038, 'grad_norm': 0.14789757132530212, 'learning_rate': 4.3289129011132935e-06, 'epoch': 9.449901768172888}
Step: 4814 {'loss': 0.0388, 'grad_norm': 0.19680945575237274, 'learning_rate': 4.312622789783891e-06, 'epoch': 9.459724950884086}
Step: 4819 {'loss': 0.0373, 'grad_norm': 0.38831672072410583, 'learning_rate': 4.296332678454486e-06, 'epoch': 9.469548133595286}
Step: 4824 {'loss': 0.0413, 'grad_norm': 0.18046335875988007, 'learning_rate': 4.2800425671250835e-06, 'epoch': 9.479371316306484}
Step: 4829 {'loss': 0.0369, 'grad_norm': 0.3118574321269989, 'learning_rate': 4.263752455795678e-06, 'epoch': 9.489194499017682}
Step: 4834 {'loss': 0.0404, 'grad_norm': 0.16242827475070953, 'learning_rate': 4.247462344466273e-06, 'epoch': 9.49901768172888}
Step: 4839 {'loss': 0.0354, 'grad_norm': 0.3099168539047241, 'learning_rate': 4.23117223313687e-06, 'epoch': 9.508840864440078}
Step: 4844 {'loss': 0.0414, 'grad_norm': 0.17922835052013397, 'learning_rate': 4.214882121807465e-06, 'epoch': 9.518664047151278}
Step: 4849 {'loss': 0.0365, 'grad_norm': 0.3781214952468872, 'learning_rate': 4.198592010478062e-06, 'epoch': 9.528487229862476}
Step: 4854 {'loss': 0.0383, 'grad_norm': 0.18920287489891052, 'learning_rate': 4.182301899148658e-06, 'epoch': 9.538310412573674}
Step: 4859 {'loss': 0.0402, 'grad_norm': 0.18171194195747375, 'learning_rate': 4.166011787819253e-06, 'epoch': 9.548133595284872}
Step: 4864 {'loss': 0.0348, 'grad_norm': 0.1801978498697281, 'learning_rate': 4.14972167648985e-06, 'epoch': 9.55795677799607}
Step: 4869 {'loss': 0.0403, 'grad_norm': 0.2651177942752838, 'learning_rate': 4.133431565160445e-06, 'epoch': 9.56777996070727}
Step: 4874 {'loss': 0.0397, 'grad_norm': 0.1390943080186844, 'learning_rate': 4.117141453831042e-06, 'epoch': 9.577603143418468}
Step: 4879 {'loss': 0.0364, 'grad_norm': 0.32072946429252625, 'learning_rate': 4.100851342501637e-06, 'epoch': 9.587426326129666}
Step: 4884 {'loss': 0.0394, 'grad_norm': 0.2556709945201874, 'learning_rate': 4.084561231172234e-06, 'epoch': 9.597249508840864}
Step: 4889 {'loss': 0.0412, 'grad_norm': 0.1917014718055725, 'learning_rate': 4.0682711198428296e-06, 'epoch': 9.607072691552062}
Step: 4894 {'loss': 0.0388, 'grad_norm': 0.22497403621673584, 'learning_rate': 4.051981008513425e-06, 'epoch': 9.61689587426326}
Step: 4899 {'loss': 0.037, 'grad_norm': 0.14199498295783997, 'learning_rate': 4.035690897184022e-06, 'epoch': 9.62671905697446}
Step: 4904 {'loss': 0.0387, 'grad_norm': 0.22563308477401733, 'learning_rate': 4.019400785854617e-06, 'epoch': 9.636542239685658}
Step: 4909 {'loss': 0.0377, 'grad_norm': 0.12692001461982727, 'learning_rate': 4.003110674525214e-06, 'epoch': 9.646365422396856}
Step: 4914 {'loss': 0.0376, 'grad_norm': 0.20583581924438477, 'learning_rate': 3.986820563195809e-06, 'epoch': 9.656188605108055}
Step: 4919 {'loss': 0.0381, 'grad_norm': 0.23412570357322693, 'learning_rate': 3.9705304518664046e-06, 'epoch': 9.666011787819253}
Step: 4924 {'loss': 0.0381, 'grad_norm': 0.3593074381351471, 'learning_rate': 3.9542403405370015e-06, 'epoch': 9.675834970530452}
Step: 4929 {'loss': 0.0407, 'grad_norm': 0.228542298078537, 'learning_rate': 3.937950229207597e-06, 'epoch': 9.68565815324165}
Step: 4934 {'loss': 0.0375, 'grad_norm': 0.25068676471710205, 'learning_rate': 3.921660117878194e-06, 'epoch': 9.695481335952849}
Step: 4939 {'loss': 0.038, 'grad_norm': 0.14965330064296722, 'learning_rate': 3.905370006548789e-06, 'epoch': 9.705304518664047}
Step: 4944 {'loss': 0.037, 'grad_norm': 0.40517643094062805, 'learning_rate': 3.889079895219384e-06, 'epoch': 9.715127701375245}
Step: 4949 {'loss': 0.0382, 'grad_norm': 0.2956530451774597, 'learning_rate': 3.872789783889981e-06, 'epoch': 9.724950884086445}
Step: 4954 {'loss': 0.0415, 'grad_norm': 0.28898462653160095, 'learning_rate': 3.8564996725605765e-06, 'epoch': 9.734774066797643}
Step: 4959 {'loss': 0.0396, 'grad_norm': 0.1777937263250351, 'learning_rate': 3.8402095612311734e-06, 'epoch': 9.74459724950884}
Step: 4964 {'loss': 0.0365, 'grad_norm': 0.22101283073425293, 'learning_rate': 3.823919449901769e-06, 'epoch': 9.754420432220039}
Step: 4969 {'loss': 0.0393, 'grad_norm': 0.1619068682193756, 'learning_rate': 3.8076293385723636e-06, 'epoch': 9.764243614931237}
Step: 4974 {'loss': 0.0366, 'grad_norm': 0.30560973286628723, 'learning_rate': 3.7913392272429605e-06, 'epoch': 9.774066797642437}
Step: 4979 {'loss': 0.0385, 'grad_norm': 0.21011723577976227, 'learning_rate': 3.775049115913556e-06, 'epoch': 9.783889980353635}
Step: 4984 {'loss': 0.0386, 'grad_norm': 0.13692490756511688, 'learning_rate': 3.7587590045841527e-06, 'epoch': 9.793713163064833}
Step: 4989 {'loss': 0.0391, 'grad_norm': 0.21884119510650635, 'learning_rate': 3.742468893254748e-06, 'epoch': 9.803536345776031}
Step: 4994 {'loss': 0.0368, 'grad_norm': 0.12653784453868866, 'learning_rate': 3.7261787819253454e-06, 'epoch': 9.81335952848723}
Step: 4999 {'loss': 0.0387, 'grad_norm': 0.21254204213619232, 'learning_rate': 3.7098886705959402e-06, 'epoch': 9.82318271119843}
Step: 5004 {'loss': 0.0398, 'grad_norm': 0.17447595298290253, 'learning_rate': 3.693598559266535e-06, 'epoch': 9.833005893909627}
Step: 5009 {'loss': 0.0402, 'grad_norm': 0.31914952397346497, 'learning_rate': 3.6773084479371324e-06, 'epoch': 9.842829076620825}
Step: 5014 {'loss': 0.0362, 'grad_norm': 0.18996021151542664, 'learning_rate': 3.6610183366077277e-06, 'epoch': 9.852652259332023}
Step: 5019 {'loss': 0.0406, 'grad_norm': 0.27662599086761475, 'learning_rate': 3.6447282252783247e-06, 'epoch': 9.862475442043221}
Step: 5024 {'loss': 0.0408, 'grad_norm': 0.11599532514810562, 'learning_rate': 3.62843811394892e-06, 'epoch': 9.872298624754421}
Step: 5029 {'loss': 0.038, 'grad_norm': 0.19485971331596375, 'learning_rate': 3.6121480026195148e-06, 'epoch': 9.88212180746562}
Step: 5034 {'loss': 0.0371, 'grad_norm': 0.20913071930408478, 'learning_rate': 3.595857891290112e-06, 'epoch': 9.891944990176817}
Step: 5039 {'loss': 0.0434, 'grad_norm': 0.2038012593984604, 'learning_rate': 3.579567779960707e-06, 'epoch': 9.901768172888016}
Step: 5044 {'loss': 0.039, 'grad_norm': 0.44824567437171936, 'learning_rate': 3.5632776686313044e-06, 'epoch': 9.911591355599214}
Step: 5049 {'loss': 0.0381, 'grad_norm': 0.23142310976982117, 'learning_rate': 3.5469875573018992e-06, 'epoch': 9.921414538310412}
Step: 5054 {'loss': 0.0422, 'grad_norm': 0.22168534994125366, 'learning_rate': 3.5306974459724945e-06, 'epoch': 9.931237721021612}
Step: 5059 {'loss': 0.0355, 'grad_norm': 0.16511711478233337, 'learning_rate': 3.5144073346430914e-06, 'epoch': 9.94106090373281}
Step: 5064 {'loss': 0.039, 'grad_norm': 0.24561871588230133, 'learning_rate': 3.4981172233136867e-06, 'epoch': 9.950884086444008}
Step: 5069 {'loss': 0.0403, 'grad_norm': 0.17779690027236938, 'learning_rate': 3.481827111984284e-06, 'epoch': 9.960707269155206}
Step: 5074 {'loss': 0.0376, 'grad_norm': 0.2986574172973633, 'learning_rate': 3.465537000654879e-06, 'epoch': 9.970530451866404}
Step: 5079 {'loss': 0.0389, 'grad_norm': 0.1854124814271927, 'learning_rate': 3.4492468893254767e-06, 'epoch': 9.980353634577604}
Step: 5084 {'loss': 0.0399, 'grad_norm': 0.20597027242183685, 'learning_rate': 3.432956777996071e-06, 'epoch': 9.990176817288802}
Step: 5089 {'loss': 0.0345, 'grad_norm': 0.15599343180656433, 'learning_rate': 3.4166666666666664e-06, 'epoch': 10.0}
Step: 5094 {'loss': 0.0353, 'grad_norm': 0.17636969685554504, 'learning_rate': 3.400376555337264e-06, 'epoch': 10.009823182711198}
Step: 5099 {'loss': 0.0329, 'grad_norm': 0.14508040249347687, 'learning_rate': 3.3840864440078586e-06, 'epoch': 10.019646365422396}
Step: 5104 {'loss': 0.0363, 'grad_norm': 0.19749264419078827, 'learning_rate': 3.3677963326784556e-06, 'epoch': 10.029469548133596}
Step: 5109 {'loss': 0.0389, 'grad_norm': 0.14762261509895325, 'learning_rate': 3.351506221349051e-06, 'epoch': 10.039292730844794}
Step: 5114 {'loss': 0.0372, 'grad_norm': 0.15477167069911957, 'learning_rate': 3.3352161100196457e-06, 'epoch': 10.049115913555992}
Step: 5119 {'loss': 0.0328, 'grad_norm': 0.22476963698863983, 'learning_rate': 3.3189259986902435e-06, 'epoch': 10.05893909626719}
Step: 5124 {'loss': 0.0364, 'grad_norm': 0.15403422713279724, 'learning_rate': 3.302635887360838e-06, 'epoch': 10.068762278978388}
Step: 5129 {'loss': 0.0334, 'grad_norm': 0.1778753399848938, 'learning_rate': 3.2863457760314353e-06, 'epoch': 10.078585461689588}
Step: 5134 {'loss': 0.035, 'grad_norm': 0.44465965032577515, 'learning_rate': 3.2700556647020306e-06, 'epoch': 10.088408644400786}
Step: 5139 {'loss': 0.0349, 'grad_norm': 0.15465568006038666, 'learning_rate': 3.2537655533726254e-06, 'epoch': 10.098231827111984}
Step: 5144 {'loss': 0.0355, 'grad_norm': 0.12462396919727325, 'learning_rate': 3.2374754420432232e-06, 'epoch': 10.108055009823183}
Step: 5149 {'loss': 0.0336, 'grad_norm': 0.14240923523902893, 'learning_rate': 3.2211853307138176e-06, 'epoch': 10.11787819253438}
Step: 5154 {'loss': 0.0373, 'grad_norm': 0.1376047432422638, 'learning_rate': 3.204895219384415e-06, 'epoch': 10.127701375245579}
Step: 5159 {'loss': 0.0374, 'grad_norm': 0.17434027791023254, 'learning_rate': 3.1886051080550103e-06, 'epoch': 10.137524557956779}
Step: 5164 {'loss': 0.0325, 'grad_norm': 0.11772686243057251, 'learning_rate': 3.172314996725605e-06, 'epoch': 10.147347740667977}
Step: 5169 {'loss': 0.037, 'grad_norm': 0.24405387043952942, 'learning_rate': 3.156024885396202e-06, 'epoch': 10.157170923379175}
Step: 5174 {'loss': 0.0361, 'grad_norm': 0.22698672115802765, 'learning_rate': 3.1397347740667974e-06, 'epoch': 10.166994106090373}
Step: 5179 {'loss': 0.0376, 'grad_norm': 0.13965202867984772, 'learning_rate': 3.1234446627373943e-06, 'epoch': 10.17681728880157}
Step: 5184 {'loss': 0.0357, 'grad_norm': 0.26815372705459595, 'learning_rate': 3.10715455140799e-06, 'epoch': 10.18664047151277}
Step: 5189 {'loss': 0.0336, 'grad_norm': 0.199231818318367, 'learning_rate': 3.090864440078587e-06, 'epoch': 10.196463654223969}
Step: 5194 {'loss': 0.0325, 'grad_norm': 0.20683401823043823, 'learning_rate': 3.074574328749182e-06, 'epoch': 10.206286836935167}
Step: 5199 {'loss': 0.0368, 'grad_norm': 0.16488656401634216, 'learning_rate': 3.058284217419777e-06, 'epoch': 10.216110019646365}
Step: 5204 {'loss': 0.0335, 'grad_norm': 0.18792696297168732, 'learning_rate': 3.041994106090374e-06, 'epoch': 10.225933202357563}
Step: 5209 {'loss': 0.0347, 'grad_norm': 0.16578319668769836, 'learning_rate': 3.0257039947609697e-06, 'epoch': 10.235756385068763}
Step: 5214 {'loss': 0.0379, 'grad_norm': 0.26522383093833923, 'learning_rate': 3.0094138834315663e-06, 'epoch': 10.245579567779961}
Step: 5219 {'loss': 0.0358, 'grad_norm': 0.2841581702232361, 'learning_rate': 2.9931237721021615e-06, 'epoch': 10.25540275049116}
Step: 5224 {'loss': 0.0329, 'grad_norm': 0.14160098135471344, 'learning_rate': 2.9768336607727568e-06, 'epoch': 10.265225933202357}
Step: 5229 {'loss': 0.035, 'grad_norm': 0.26741138100624084, 'learning_rate': 2.9605435494433537e-06, 'epoch': 10.275049115913555}
Step: 5234 {'loss': 0.0343, 'grad_norm': 0.14752589166164398, 'learning_rate': 2.9442534381139486e-06, 'epoch': 10.284872298624755}
Step: 5239 {'loss': 0.0371, 'grad_norm': 0.1455446183681488, 'learning_rate': 2.927963326784546e-06, 'epoch': 10.294695481335953}
Step: 5244 {'loss': 0.0322, 'grad_norm': 0.16153378784656525, 'learning_rate': 2.911673215455141e-06, 'epoch': 10.304518664047151}
Step: 5249 {'loss': 0.0401, 'grad_norm': 0.18480360507965088, 'learning_rate': 2.8953831041257365e-06, 'epoch': 10.31434184675835}
Step: 5254 {'loss': 0.0406, 'grad_norm': 0.15346036851406097, 'learning_rate': 2.879092992796333e-06, 'epoch': 10.324165029469548}
Step: 5259 {'loss': 0.0375, 'grad_norm': 0.16394345462322235, 'learning_rate': 2.8628028814669283e-06, 'epoch': 10.333988212180747}
Step: 5264 {'loss': 0.039, 'grad_norm': 0.13896431028842926, 'learning_rate': 2.8465127701375257e-06, 'epoch': 10.343811394891945}
Step: 5269 {'loss': 0.0361, 'grad_norm': 0.20013056695461273, 'learning_rate': 2.8302226588081205e-06, 'epoch': 10.353634577603144}
Step: 5274 {'loss': 0.0363, 'grad_norm': 0.1398565024137497, 'learning_rate': 2.813932547478718e-06, 'epoch': 10.363457760314342}
Step: 5279 {'loss': 0.0383, 'grad_norm': 0.14929325878620148, 'learning_rate': 2.7976424361493127e-06, 'epoch': 10.37328094302554}
Step: 5284 {'loss': 0.0366, 'grad_norm': 0.17530305683612823, 'learning_rate': 2.781352324819908e-06, 'epoch': 10.38310412573674}
Step: 5289 {'loss': 0.0369, 'grad_norm': 0.14448915421962738, 'learning_rate': 2.7650622134905045e-06, 'epoch': 10.392927308447938}
Step: 5294 {'loss': 0.0377, 'grad_norm': 0.18306614458560944, 'learning_rate': 2.7487721021611002e-06, 'epoch': 10.402750491159136}
Step: 5299 {'loss': 0.0385, 'grad_norm': 0.1420927792787552, 'learning_rate': 2.7324819908316976e-06, 'epoch': 10.412573673870334}
Step: 5304 {'loss': 0.0362, 'grad_norm': 0.18165405094623566, 'learning_rate': 2.7161918795022925e-06, 'epoch': 10.422396856581532}
Step: 5309 {'loss': 0.0373, 'grad_norm': 0.1344439834356308, 'learning_rate': 2.6999017681728873e-06, 'epoch': 10.43222003929273}
Step: 5314 {'loss': 0.0382, 'grad_norm': 0.1522543877363205, 'learning_rate': 2.6836116568434843e-06, 'epoch': 10.44204322200393}
Step: 5319 {'loss': 0.0334, 'grad_norm': 0.16545896232128143, 'learning_rate': 2.6673215455140795e-06, 'epoch': 10.451866404715128}
Step: 5324 {'loss': 0.0354, 'grad_norm': 0.2236928790807724, 'learning_rate': 2.6510314341846773e-06, 'epoch': 10.461689587426326}
Step: 5329 {'loss': 0.0376, 'grad_norm': 0.3907144069671631, 'learning_rate': 2.634741322855272e-06, 'epoch': 10.471512770137524}
Step: 5334 {'loss': 0.0342, 'grad_norm': 0.18484556674957275, 'learning_rate': 2.618451211525867e-06, 'epoch': 10.481335952848722}
Step: 5339 {'loss': 0.0376, 'grad_norm': 0.16938738524913788, 'learning_rate': 2.602161100196464e-06, 'epoch': 10.491159135559922}
Step: 5344 {'loss': 0.0338, 'grad_norm': 0.15018975734710693, 'learning_rate': 2.5858709888670592e-06, 'epoch': 10.50098231827112}
Step: 5349 {'loss': 0.0384, 'grad_norm': 0.17913486063480377, 'learning_rate': 2.569580877537657e-06, 'epoch': 10.510805500982318}
Step: 5354 {'loss': 0.0354, 'grad_norm': 0.17555706202983856, 'learning_rate': 2.553290766208251e-06, 'epoch': 10.520628683693516}
Step: 5359 {'loss': 0.037, 'grad_norm': 0.21052585542201996, 'learning_rate': 2.5370006548788467e-06, 'epoch': 10.530451866404714}
Step: 5364 {'loss': 0.0395, 'grad_norm': 0.16352085769176483, 'learning_rate': 2.5207105435494437e-06, 'epoch': 10.540275049115914}
Step: 5369 {'loss': 0.0338, 'grad_norm': 0.12730486690998077, 'learning_rate': 2.504420432220039e-06, 'epoch': 10.550098231827112}
Step: 5374 {'loss': 0.0372, 'grad_norm': 0.14204423129558563, 'learning_rate': 2.488130320890636e-06, 'epoch': 10.55992141453831}
Step: 5379 {'loss': 0.039, 'grad_norm': 0.21812666952610016, 'learning_rate': 2.471840209561231e-06, 'epoch': 10.569744597249509}
Step: 5384 {'loss': 0.0365, 'grad_norm': 0.22455881536006927, 'learning_rate': 2.4555500982318285e-06, 'epoch': 10.579567779960707}
Step: 5389 {'loss': 0.0352, 'grad_norm': 0.2159944474697113, 'learning_rate': 2.4392599869024234e-06, 'epoch': 10.589390962671906}
Step: 5394 {'loss': 0.0356, 'grad_norm': 0.14907972514629364, 'learning_rate': 2.4229698755730182e-06, 'epoch': 10.599214145383105}
Step: 5399 {'loss': 0.0363, 'grad_norm': 0.24791380763053894, 'learning_rate': 2.4066797642436156e-06, 'epoch': 10.609037328094303}
Step: 5404 {'loss': 0.0349, 'grad_norm': 0.16804809868335724, 'learning_rate': 2.390389652914211e-06, 'epoch': 10.6188605108055}
Step: 5409 {'loss': 0.0331, 'grad_norm': 0.14856158196926117, 'learning_rate': 2.374099541584808e-06, 'epoch': 10.628683693516699}
Step: 5414 {'loss': 0.0336, 'grad_norm': 0.12642315030097961, 'learning_rate': 2.357809430255403e-06, 'epoch': 10.638506876227897}
Step: 5419 {'loss': 0.039, 'grad_norm': 0.16313233971595764, 'learning_rate': 2.341519318925998e-06, 'epoch': 10.648330058939097}
Step: 5424 {'loss': 0.0365, 'grad_norm': 0.19463671743869781, 'learning_rate': 2.3252292075965953e-06, 'epoch': 10.658153241650295}
Step: 5429 {'loss': 0.0366, 'grad_norm': 0.1952219307422638, 'learning_rate': 2.30893909626719e-06, 'epoch': 10.667976424361493}
Step: 5434 {'loss': 0.036, 'grad_norm': 0.18808452785015106, 'learning_rate': 2.2926489849377876e-06, 'epoch': 10.677799607072691}
Step: 5439 {'loss': 0.0373, 'grad_norm': 0.15106236934661865, 'learning_rate': 2.2763588736083824e-06, 'epoch': 10.687622789783891}
Step: 5444 {'loss': 0.0367, 'grad_norm': 0.19808511435985565, 'learning_rate': 2.2600687622789777e-06, 'epoch': 10.697445972495089}
Step: 5449 {'loss': 0.036, 'grad_norm': 0.20171695947647095, 'learning_rate': 2.243778650949575e-06, 'epoch': 10.707269155206287}
Step: 5454 {'loss': 0.0354, 'grad_norm': 0.17779451608657837, 'learning_rate': 2.22748853962017e-06, 'epoch': 10.717092337917485}
Step: 5459 {'loss': 0.0355, 'grad_norm': 0.16394898295402527, 'learning_rate': 2.2111984282907673e-06, 'epoch': 10.726915520628683}
Step: 5464 {'loss': 0.0362, 'grad_norm': 0.21211855113506317, 'learning_rate': 2.194908316961362e-06, 'epoch': 10.736738703339881}
Step: 5469 {'loss': 0.0343, 'grad_norm': 0.2212281972169876, 'learning_rate': 2.1786182056319574e-06, 'epoch': 10.746561886051081}
Step: 5474 {'loss': 0.0364, 'grad_norm': 0.14474497735500336, 'learning_rate': 2.1623280943025543e-06, 'epoch': 10.75638506876228}
Step: 5479 {'loss': 0.0349, 'grad_norm': 0.2107614427804947, 'learning_rate': 2.1460379829731496e-06, 'epoch': 10.766208251473477}
Step: 5484 {'loss': 0.0351, 'grad_norm': 0.19666777551174164, 'learning_rate': 2.1297478716437466e-06, 'epoch': 10.776031434184675}
Step: 5489 {'loss': 0.0359, 'grad_norm': 0.16078639030456543, 'learning_rate': 2.113457760314342e-06, 'epoch': 10.785854616895874}
Step: 5494 {'loss': 0.0358, 'grad_norm': 0.17042210698127747, 'learning_rate': 2.0971676489849388e-06, 'epoch': 10.795677799607073}
Step: 5499 {'loss': 0.0396, 'grad_norm': 0.19637195765972137, 'learning_rate': 2.080877537655534e-06, 'epoch': 10.805500982318271}
Step: 5504 {'loss': 0.0335, 'grad_norm': 0.14090454578399658, 'learning_rate': 2.064587426326129e-06, 'epoch': 10.81532416502947}
Step: 5509 {'loss': 0.0366, 'grad_norm': 0.1328117698431015, 'learning_rate': 2.0482973149967263e-06, 'epoch': 10.825147347740668}
Step: 5514 {'loss': 0.0404, 'grad_norm': 0.16397269070148468, 'learning_rate': 2.032007203667321e-06, 'epoch': 10.834970530451866}
Step: 5519 {'loss': 0.0317, 'grad_norm': 0.15999336540699005, 'learning_rate': 2.0157170923379185e-06, 'epoch': 10.844793713163066}
Step: 5524 {'loss': 0.0386, 'grad_norm': 0.17104409635066986, 'learning_rate': 1.9994269810085138e-06, 'epoch': 10.854616895874264}
Step: 5529 {'loss': 0.0383, 'grad_norm': 0.174419566988945, 'learning_rate': 1.9831368696791086e-06, 'epoch': 10.864440078585462}
Step: 5534 {'loss': 0.0333, 'grad_norm': 0.16557449102401733, 'learning_rate': 1.966846758349706e-06, 'epoch': 10.87426326129666}
Step: 5539 {'loss': 0.0345, 'grad_norm': 0.18017950654029846, 'learning_rate': 1.950556647020301e-06, 'epoch': 10.884086444007858}
Step: 5544 {'loss': 0.0359, 'grad_norm': 0.18261092901229858, 'learning_rate': 1.934266535690898e-06, 'epoch': 10.893909626719058}
Step: 5549 {'loss': 0.0417, 'grad_norm': 0.14519909024238586, 'learning_rate': 1.917976424361493e-06, 'epoch': 10.903732809430256}
Step: 5554 {'loss': 0.0346, 'grad_norm': 0.12482920289039612, 'learning_rate': 1.9016863130320883e-06, 'epoch': 10.913555992141454}
Step: 5559 {'loss': 0.0341, 'grad_norm': 0.15387654304504395, 'learning_rate': 1.8853962017026855e-06, 'epoch': 10.923379174852652}
Step: 5564 {'loss': 0.0387, 'grad_norm': 0.17957906424999237, 'learning_rate': 1.8691060903732805e-06, 'epoch': 10.93320235756385}
Step: 5569 {'loss': 0.0367, 'grad_norm': 0.1852586567401886, 'learning_rate': 1.852815979043878e-06, 'epoch': 10.943025540275048}
Step: 5574 {'loss': 0.0349, 'grad_norm': 0.15216422080993652, 'learning_rate': 1.836525867714473e-06, 'epoch': 10.952848722986248}
Step: 5579 {'loss': 0.0399, 'grad_norm': 0.21537379920482635, 'learning_rate': 1.8202357563850701e-06, 'epoch': 10.962671905697446}
Step: 5584 {'loss': 0.0383, 'grad_norm': 0.13463245332241058, 'learning_rate': 1.803945645055665e-06, 'epoch': 10.972495088408644}
Step: 5589 {'loss': 0.0351, 'grad_norm': 0.26945799589157104, 'learning_rate': 1.7876555337262602e-06, 'epoch': 10.982318271119842}
Step: 5594 {'loss': 0.0333, 'grad_norm': 0.13311709463596344, 'learning_rate': 1.7713654223968572e-06, 'epoch': 10.99214145383104}
Step: 5599 {'loss': 0.0369, 'grad_norm': 0.139459028840065, 'learning_rate': 1.7550753110674523e-06, 'epoch': 11.00196463654224}
Step: 5604 {'loss': 0.032, 'grad_norm': 0.16811370849609375, 'learning_rate': 1.7387851997380498e-06, 'epoch': 11.011787819253438}
Step: 5609 {'loss': 0.0334, 'grad_norm': 0.15404735505580902, 'learning_rate': 1.7224950884086447e-06, 'epoch': 11.021611001964637}
Step: 5614 {'loss': 0.0353, 'grad_norm': 0.11498257517814636, 'learning_rate': 1.7062049770792397e-06, 'epoch': 11.031434184675835}
Step: 5619 {'loss': 0.0317, 'grad_norm': 0.1298391968011856, 'learning_rate': 1.689914865749837e-06, 'epoch': 11.041257367387033}
Step: 5624 {'loss': 0.0361, 'grad_norm': 0.16694577038288116, 'learning_rate': 1.673624754420432e-06, 'epoch': 11.051080550098233}
Step: 5629 {'loss': 0.0318, 'grad_norm': 0.14961546659469604, 'learning_rate': 1.6573346430910291e-06, 'epoch': 11.06090373280943}
Step: 5634 {'loss': 0.0336, 'grad_norm': 0.12564443051815033, 'learning_rate': 1.6410445317616244e-06, 'epoch': 11.070726915520629}
Step: 5639 {'loss': 0.0335, 'grad_norm': 0.1782381534576416, 'learning_rate': 1.6247544204322195e-06, 'epoch': 11.080550098231827}
Step: 5644 {'loss': 0.034, 'grad_norm': 0.14756131172180176, 'learning_rate': 1.6084643091028166e-06, 'epoch': 11.090373280943025}
Step: 5649 {'loss': 0.0385, 'grad_norm': 0.15613532066345215, 'learning_rate': 1.5921741977734115e-06, 'epoch': 11.100196463654225}
Step: 5654 {'loss': 0.036, 'grad_norm': 0.17148229479789734, 'learning_rate': 1.5758840864440088e-06, 'epoch': 11.110019646365423}
Step: 5659 {'loss': 0.0296, 'grad_norm': 0.12884292006492615, 'learning_rate': 1.5595939751146037e-06, 'epoch': 11.119842829076621}
Step: 5664 {'loss': 0.0333, 'grad_norm': 0.15821492671966553, 'learning_rate': 1.5433038637851992e-06, 'epoch': 11.129666011787819}
Step: 5669 {'loss': 0.0359, 'grad_norm': 0.16116151213645935, 'learning_rate': 1.527013752455796e-06, 'epoch': 11.139489194499017}
Step: 5674 {'loss': 0.0335, 'grad_norm': 0.15500637888908386, 'learning_rate': 1.5107236411263912e-06, 'epoch': 11.149312377210217}
Step: 5679 {'loss': 0.0315, 'grad_norm': 0.1400390863418579, 'learning_rate': 1.4944335297969886e-06, 'epoch': 11.159135559921415}
Step: 5684 {'loss': 0.0353, 'grad_norm': 0.14772409200668335, 'learning_rate': 1.4781434184675834e-06, 'epoch': 11.168958742632613}
Step: 5689 {'loss': 0.0311, 'grad_norm': 0.1288837194442749, 'learning_rate': 1.4618533071381808e-06, 'epoch': 11.178781925343811}
Step: 5694 {'loss': 0.0301, 'grad_norm': 0.2020895630121231, 'learning_rate': 1.4455631958087756e-06, 'epoch': 11.18860510805501}
Step: 5699 {'loss': 0.0375, 'grad_norm': 0.21745552122592926, 'learning_rate': 1.4292730844793709e-06, 'epoch': 11.198428290766207}
Step: 5704 {'loss': 0.0349, 'grad_norm': 0.11784134060144424, 'learning_rate': 1.4129829731499678e-06, 'epoch': 11.208251473477407}
Step: 5709 {'loss': 0.0329, 'grad_norm': 0.14987410604953766, 'learning_rate': 1.3966928618205631e-06, 'epoch': 11.218074656188605}
Step: 5714 {'loss': 0.0348, 'grad_norm': 0.1220676451921463, 'learning_rate': 1.3804027504911603e-06, 'epoch': 11.227897838899803}
Step: 5719 {'loss': 0.0358, 'grad_norm': 0.14391198754310608, 'learning_rate': 1.3641126391617553e-06, 'epoch': 11.237721021611002}
Step: 5724 {'loss': 0.031, 'grad_norm': 0.17773672938346863, 'learning_rate': 1.34782252783235e-06, 'epoch': 11.2475442043222}
Step: 5729 {'loss': 0.0351, 'grad_norm': 0.10447195172309875, 'learning_rate': 1.3315324165029476e-06, 'epoch': 11.2573673870334}
Step: 5734 {'loss': 0.0357, 'grad_norm': 0.13608446717262268, 'learning_rate': 1.3152423051735424e-06, 'epoch': 11.267190569744598}
Step: 5739 {'loss': 0.0304, 'grad_norm': 0.126750648021698, 'learning_rate': 1.29895219384414e-06, 'epoch': 11.277013752455796}
Step: 5744 {'loss': 0.0321, 'grad_norm': 0.14604635536670685, 'learning_rate': 1.282662082514735e-06, 'epoch': 11.286836935166994}
Step: 5749 {'loss': 0.0334, 'grad_norm': 0.1772008240222931, 'learning_rate': 1.2663719711853299e-06, 'epoch': 11.296660117878192}
Step: 5754 {'loss': 0.0297, 'grad_norm': 0.13273683190345764, 'learning_rate': 1.2500818598559273e-06, 'epoch': 11.306483300589392}
Step: 5759 {'loss': 0.0308, 'grad_norm': 0.1329345554113388, 'learning_rate': 1.2337917485265221e-06, 'epoch': 11.31630648330059}
Step: 5764 {'loss': 0.0328, 'grad_norm': 0.14098842442035675, 'learning_rate': 1.2175016371971195e-06, 'epoch': 11.326129666011788}
Step: 5769 {'loss': 0.0348, 'grad_norm': 0.12867935001850128, 'learning_rate': 1.2012115258677143e-06, 'epoch': 11.335952848722986}
Step: 5774 {'loss': 0.0317, 'grad_norm': 0.11713173985481262, 'learning_rate': 1.1849214145383096e-06, 'epoch': 11.345776031434184}
Step: 5779 {'loss': 0.0344, 'grad_norm': 0.1751333624124527, 'learning_rate': 1.1686313032089066e-06, 'epoch': 11.355599214145384}
Step: 5784 {'loss': 0.0358, 'grad_norm': 0.23530931770801544, 'learning_rate': 1.1523411918795018e-06, 'epoch': 11.365422396856582}
Step: 5789 {'loss': 0.0334, 'grad_norm': 0.15985295176506042, 'learning_rate': 1.1360510805500988e-06, 'epoch': 11.37524557956778}
Step: 5794 {'loss': 0.0402, 'grad_norm': 0.15143448114395142, 'learning_rate': 1.119760969220694e-06, 'epoch': 11.385068762278978}
Step: 5799 {'loss': 0.0359, 'grad_norm': 0.14522282779216766, 'learning_rate': 1.1034708578912914e-06, 'epoch': 11.394891944990176}
Step: 5804 {'loss': 0.0357, 'grad_norm': 0.16850288212299347, 'learning_rate': 1.0871807465618863e-06, 'epoch': 11.404715127701376}
Step: 5809 {'loss': 0.0339, 'grad_norm': 0.18317244946956635, 'learning_rate': 1.0708906352324811e-06, 'epoch': 11.414538310412574}
Step: 5814 {'loss': 0.035, 'grad_norm': 0.13048744201660156, 'learning_rate': 1.0546005239030785e-06, 'epoch': 11.424361493123772}
Step: 5819 {'loss': 0.0369, 'grad_norm': 0.1954958289861679, 'learning_rate': 1.0383104125736735e-06, 'epoch': 11.43418467583497}
Step: 5824 {'loss': 0.0342, 'grad_norm': 0.18617352843284607, 'learning_rate': 1.0220203012442707e-06, 'epoch': 11.444007858546168}
Step: 5829 {'loss': 0.0349, 'grad_norm': 0.1879536658525467, 'learning_rate': 1.005730189914866e-06, 'epoch': 11.453831041257367}
Step: 5834 {'loss': 0.0325, 'grad_norm': 0.1976957470178604, 'learning_rate': 9.894400785854608e-07, 'epoch': 11.463654223968566}
Step: 5839 {'loss': 0.0308, 'grad_norm': 0.13651709258556366, 'learning_rate': 9.731499672560582e-07, 'epoch': 11.473477406679764}
Step: 5844 {'loss': 0.0326, 'grad_norm': 0.12932683527469635, 'learning_rate': 9.56859855926653e-07, 'epoch': 11.483300589390963}
Step: 5849 {'loss': 0.037, 'grad_norm': 0.19912157952785492, 'learning_rate': 9.405697445972504e-07, 'epoch': 11.49312377210216}
Step: 5854 {'loss': 0.0329, 'grad_norm': 0.12475074827671051, 'learning_rate': 9.242796332678454e-07, 'epoch': 11.502946954813359}
Step: 5859 {'loss': 0.0393, 'grad_norm': 0.2217794507741928, 'learning_rate': 9.079895219384404e-07, 'epoch': 11.512770137524559}
Step: 5864 {'loss': 0.0363, 'grad_norm': 0.1689150333404541, 'learning_rate': 8.916994106090376e-07, 'epoch': 11.522593320235757}
Step: 5869 {'loss': 0.0391, 'grad_norm': 0.13944292068481445, 'learning_rate': 8.754092992796328e-07, 'epoch': 11.532416502946955}
Step: 5874 {'loss': 0.0335, 'grad_norm': 0.14869530498981476, 'learning_rate': 8.591191879502299e-07, 'epoch': 11.542239685658153}
Step: 5879 {'loss': 0.031, 'grad_norm': 0.134893998503685, 'learning_rate': 8.42829076620825e-07, 'epoch': 11.552062868369351}
Step: 5884 {'loss': 0.0395, 'grad_norm': 0.17104321718215942, 'learning_rate': 8.265389652914223e-07, 'epoch': 11.56188605108055}
Step: 5889 {'loss': 0.0353, 'grad_norm': 0.14725327491760254, 'learning_rate': 8.102488539620173e-07, 'epoch': 11.571709233791749}
Step: 5894 {'loss': 0.0366, 'grad_norm': 0.17239244282245636, 'learning_rate': 7.939587426326123e-07, 'epoch': 11.581532416502947}
Step: 5899 {'loss': 0.0318, 'grad_norm': 0.14179760217666626, 'learning_rate': 7.776686313032096e-07, 'epoch': 11.591355599214145}
Step: 5904 {'loss': 0.0335, 'grad_norm': 0.16281521320343018, 'learning_rate': 7.613785199738046e-07, 'epoch': 11.601178781925343}
Step: 5909 {'loss': 0.0356, 'grad_norm': 0.13906440138816833, 'learning_rate': 7.450884086444019e-07, 'epoch': 11.611001964636543}
Step: 5914 {'loss': 0.0305, 'grad_norm': 0.1717899590730667, 'learning_rate': 7.287982973149968e-07, 'epoch': 11.620825147347741}
Step: 5919 {'loss': 0.0322, 'grad_norm': 0.1597202569246292, 'learning_rate': 7.125081859855919e-07, 'epoch': 11.63064833005894}
Step: 5924 {'loss': 0.034, 'grad_norm': 0.15033362805843353, 'learning_rate': 6.962180746561891e-07, 'epoch': 11.640471512770137}
Step: 5929 {'loss': 0.033, 'grad_norm': 0.16276460886001587, 'learning_rate': 6.799279633267843e-07, 'epoch': 11.650294695481335}
Step: 5934 {'loss': 0.0349, 'grad_norm': 0.12570664286613464, 'learning_rate': 6.636378519973815e-07, 'epoch': 11.660117878192535}
Step: 5939 {'loss': 0.0339, 'grad_norm': 0.14264124631881714, 'learning_rate': 6.473477406679764e-07, 'epoch': 11.669941060903733}
Step: 5944 {'loss': 0.0354, 'grad_norm': 0.1559097170829773, 'learning_rate': 6.310576293385715e-07, 'epoch': 11.679764243614931}
Step: 5949 {'loss': 0.0328, 'grad_norm': 0.1353122889995575, 'learning_rate': 6.147675180091687e-07, 'epoch': 11.68958742632613}
Step: 5954 {'loss': 0.0371, 'grad_norm': 0.15838900208473206, 'learning_rate': 5.984774066797637e-07, 'epoch': 11.699410609037328}
Step: 5959 {'loss': 0.0351, 'grad_norm': 0.19074858725070953, 'learning_rate': 5.82187295350361e-07, 'epoch': 11.709233791748527}
Step: 5964 {'loss': 0.0376, 'grad_norm': 0.20642933249473572, 'learning_rate': 5.65897184020956e-07, 'epoch': 11.719056974459725}
Step: 5969 {'loss': 0.0323, 'grad_norm': 0.15952904522418976, 'learning_rate': 5.49607072691551e-07, 'epoch': 11.728880157170924}
Step: 5974 {'loss': 0.0354, 'grad_norm': 0.10993322730064392, 'learning_rate': 5.333169613621484e-07, 'epoch': 11.738703339882122}
Step: 5979 {'loss': 0.0311, 'grad_norm': 0.12571489810943604, 'learning_rate': 5.170268500327433e-07, 'epoch': 11.74852652259332}
Step: 5984 {'loss': 0.038, 'grad_norm': 0.15199397504329681, 'learning_rate': 5.007367387033406e-07, 'epoch': 11.758349705304518}
Step: 5989 {'loss': 0.0384, 'grad_norm': 0.15109926462173462, 'learning_rate': 4.844466273739356e-07, 'epoch': 11.768172888015718}
Step: 5994 {'loss': 0.036, 'grad_norm': 0.16977766156196594, 'learning_rate': 4.681565160445328e-07, 'epoch': 11.777996070726916}
Step: 5999 {'loss': 0.0355, 'grad_norm': 0.21574822068214417, 'learning_rate': 4.5186640471512786e-07, 'epoch': 11.787819253438114}
Step: 6004 {'loss': 0.0345, 'grad_norm': 0.13756902515888214, 'learning_rate': 4.355762933857229e-07, 'epoch': 11.797642436149312}
Step: 6009 {'loss': 0.0371, 'grad_norm': 0.1466086506843567, 'learning_rate': 4.1928618205632013e-07, 'epoch': 11.80746561886051}
Step: 6014 {'loss': 0.0335, 'grad_norm': 0.1607837826013565, 'learning_rate': 4.029960707269152e-07, 'epoch': 11.81728880157171}
Step: 6019 {'loss': 0.0315, 'grad_norm': 0.2136838287115097, 'learning_rate': 3.867059593975124e-07, 'epoch': 11.827111984282908}
Step: 6024 {'loss': 0.033, 'grad_norm': 0.12336410582065582, 'learning_rate': 3.7041584806810746e-07, 'epoch': 11.836935166994106}
Step: 6029 {'loss': 0.0345, 'grad_norm': 0.147445946931839, 'learning_rate': 3.541257367387024e-07, 'epoch': 11.846758349705304}
Step: 6034 {'loss': 0.0324, 'grad_norm': 0.1429373323917389, 'learning_rate': 3.378356254092997e-07, 'epoch': 11.856581532416502}
Step: 6039 {'loss': 0.0365, 'grad_norm': 0.17021459341049194, 'learning_rate': 3.2154551407989474e-07, 'epoch': 11.866404715127702}
Step: 6044 {'loss': 0.0319, 'grad_norm': 0.1368800401687622, 'learning_rate': 3.05255402750492e-07, 'epoch': 11.8762278978389}
Step: 6049 {'loss': 0.035, 'grad_norm': 0.17716579139232635, 'learning_rate': 2.88965291421087e-07, 'epoch': 11.886051080550098}
Step: 6054 {'loss': 0.0335, 'grad_norm': 0.1491864025592804, 'learning_rate': 2.72675180091682e-07, 'epoch': 11.895874263261296}
Step: 6059 {'loss': 0.0331, 'grad_norm': 0.1556503176689148, 'learning_rate': 2.563850687622793e-07, 'epoch': 11.905697445972494}
Step: 6064 {'loss': 0.0421, 'grad_norm': 0.13473618030548096, 'learning_rate': 2.4009495743287434e-07, 'epoch': 11.915520628683694}
Step: 6069 {'loss': 0.0348, 'grad_norm': 0.17591646313667297, 'learning_rate': 2.2380484610347157e-07, 'epoch': 11.925343811394892}
Step: 6074 {'loss': 0.0393, 'grad_norm': 0.1523435115814209, 'learning_rate': 2.075147347740666e-07, 'epoch': 11.93516699410609}
Step: 6079 {'loss': 0.033, 'grad_norm': 0.16331450641155243, 'learning_rate': 1.9122462344466384e-07, 'epoch': 11.944990176817289}
Step: 6084 {'loss': 0.0331, 'grad_norm': 0.1401781588792801, 'learning_rate': 1.749345121152589e-07, 'epoch': 11.954813359528487}
Step: 6089 {'loss': 0.0338, 'grad_norm': 0.13443300127983093, 'learning_rate': 1.586444007858539e-07, 'epoch': 11.964636542239685}
Step: 6094 {'loss': 0.0389, 'grad_norm': 0.21606864035129547, 'learning_rate': 1.4235428945645115e-07, 'epoch': 11.974459724950885}
Step: 6099 {'loss': 0.0376, 'grad_norm': 0.19694702327251434, 'learning_rate': 1.2606417812704617e-07, 'epoch': 11.984282907662083}
Step: 6104 {'loss': 0.0379, 'grad_norm': 0.41890206933021545, 'learning_rate': 1.0977406679764344e-07, 'epoch': 11.99410609037328}
Step: 6107 {'train_runtime': 25707.7377, 'train_samples_per_second': 2.136, 'train_steps_per_second': 0.238, 'train_loss': 0.10068660371673989, 'epoch': 12.0}
21:22:59-220014 INFO LoRA training run is completed and saved.
21:22:59-719745 INFO Training complete, saving
21:23:02-072550 INFO Training complete!