llm_model_m_unigram_hm_1e_v0.1 / trainer_state.json

load model

061a7e0 almost 2 years ago

163 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9999954795108831,
	"eval_steps": 1000,
	"global_step": 110607,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.00024521369940743435,
	"loss": 5.4472,
	"step": 100
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002927618508292659,
	"loss": 3.467,
	"step": 200
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002997989257927486,
	"loss": 3.3454,
	"step": 300
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.00029952720389105764,
	"loss": 3.2872,
	"step": 400
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.00029925548198936656,
	"loss": 3.2489,
	"step": 500
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002989837600876756,
	"loss": 3.2458,
	"step": 600
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029871475540500146,
	"loss": 3.2073,
	"step": 700
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029844303350331044,
	"loss": 3.1957,
	"step": 800
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002981713116016194,
	"loss": 3.1817,
	"step": 900
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029789958969992844,
	"loss": 3.1631,
	"step": 1000
	},
	{
	"epoch": 0.01,
	"eval_accuracy": 0.4182117332510669,
	"eval_loss": 3.180420398712158,
	"eval_runtime": 43.6723,
	"eval_samples_per_second": 148.447,
	"eval_steps_per_second": 2.496,
	"step": 1000
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002976278677982374,
	"loss": 3.1598,
	"step": 1100
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002973561458965464,
	"loss": 3.1584,
	"step": 1200
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029708442399485537,
	"loss": 3.144,
	"step": 1300
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029681270209316434,
	"loss": 3.1346,
	"step": 1400
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002965409801914733,
	"loss": 3.1359,
	"step": 1500
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029626925828978235,
	"loss": 3.1268,
	"step": 1600
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002959975363880913,
	"loss": 3.1175,
	"step": 1700
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002957258144864003,
	"loss": 3.1189,
	"step": 1800
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002954540925847093,
	"loss": 3.1057,
	"step": 1900
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029518237068301825,
	"loss": 3.1124,
	"step": 2000
	},
	{
	"epoch": 0.02,
	"eval_accuracy": 0.4272265623818554,
	"eval_loss": 3.106520891189575,
	"eval_runtime": 43.4484,
	"eval_samples_per_second": 149.212,
	"eval_steps_per_second": 2.509,
	"step": 2000
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002949106487813272,
	"loss": 3.1004,
	"step": 2100
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002946389268796362,
	"loss": 3.1018,
	"step": 2200
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029436720497794523,
	"loss": 3.0864,
	"step": 2300
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002940954830762542,
	"loss": 3.0872,
	"step": 2400
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002938237611745632,
	"loss": 3.0883,
	"step": 2500
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029355475649188906,
	"loss": 3.0843,
	"step": 2600
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002932830345901981,
	"loss": 3.0815,
	"step": 2700
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029301131268850706,
	"loss": 3.0784,
	"step": 2800
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029273959078681604,
	"loss": 3.0728,
	"step": 2900
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.000292467868885125,
	"loss": 3.0757,
	"step": 3000
	},
	{
	"epoch": 0.03,
	"eval_accuracy": 0.42875514543315396,
	"eval_loss": 3.0894298553466797,
	"eval_runtime": 43.8742,
	"eval_samples_per_second": 147.763,
	"eval_steps_per_second": 2.484,
	"step": 3000
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.000292196146983434,
	"loss": 3.0754,
	"step": 3100
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.000291924425081743,
	"loss": 3.0634,
	"step": 3200
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029165270318005194,
	"loss": 3.0652,
	"step": 3300
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029138098127836097,
	"loss": 3.0566,
	"step": 3400
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029110925937666994,
	"loss": 3.067,
	"step": 3500
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002908375374749789,
	"loss": 3.0525,
	"step": 3600
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002905658155732879,
	"loss": 3.0595,
	"step": 3700
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029029409367159687,
	"loss": 3.0586,
	"step": 3800
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002900223717699059,
	"loss": 3.0499,
	"step": 3900
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002897506498682148,
	"loss": 3.0488,
	"step": 4000
	},
	{
	"epoch": 0.04,
	"eval_accuracy": 0.43185525945686004,
	"eval_loss": 3.062988758087158,
	"eval_runtime": 44.0507,
	"eval_samples_per_second": 147.171,
	"eval_steps_per_second": 2.474,
	"step": 4000
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028947892796652385,
	"loss": 3.0426,
	"step": 4100
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002892072060648328,
	"loss": 3.0433,
	"step": 4200
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002889354841631418,
	"loss": 3.0428,
	"step": 4300
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028866376226145083,
	"loss": 3.0359,
	"step": 4400
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028839204035975975,
	"loss": 3.0386,
	"step": 4500
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002881203184580688,
	"loss": 3.034,
	"step": 4600
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028784859655637776,
	"loss": 3.0456,
	"step": 4700
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028757687465468673,
	"loss": 3.0361,
	"step": 4800
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002873051527529957,
	"loss": 3.0412,
	"step": 4900
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002870334308513047,
	"loss": 3.0403,
	"step": 5000
	},
	{
	"epoch": 0.05,
	"eval_accuracy": 0.43361975362410893,
	"eval_loss": 3.0423271656036377,
	"eval_runtime": 43.1088,
	"eval_samples_per_second": 150.387,
	"eval_steps_per_second": 2.528,
	"step": 5000
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002867617089496137,
	"loss": 3.0341,
	"step": 5100
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028648998704792263,
	"loss": 3.0297,
	"step": 5200
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028621826514623166,
	"loss": 3.0324,
	"step": 5300
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028594654324454064,
	"loss": 3.0317,
	"step": 5400
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002856748213428496,
	"loss": 3.0167,
	"step": 5500
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002854030994411586,
	"loss": 3.0202,
	"step": 5600
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028513137753946756,
	"loss": 3.0231,
	"step": 5700
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002848596556377766,
	"loss": 3.0166,
	"step": 5800
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002845879337360855,
	"loss": 3.0246,
	"step": 5900
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028431621183439454,
	"loss": 3.0172,
	"step": 6000
	},
	{
	"epoch": 0.05,
	"eval_accuracy": 0.434315993866311,
	"eval_loss": 3.038356304168701,
	"eval_runtime": 43.5763,
	"eval_samples_per_second": 148.774,
	"eval_steps_per_second": 2.501,
	"step": 6000
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002840444899327035,
	"loss": 3.0123,
	"step": 6100
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002837727680310125,
	"loss": 3.0177,
	"step": 6200
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002835010461293215,
	"loss": 3.0195,
	"step": 6300
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002832320414466474,
	"loss": 3.0175,
	"step": 6400
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002829603195449564,
	"loss": 3.0192,
	"step": 6500
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028268859764326535,
	"loss": 3.0079,
	"step": 6600
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002824168757415743,
	"loss": 3.0138,
	"step": 6700
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002821451538398833,
	"loss": 3.0175,
	"step": 6800
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028187343193819233,
	"loss": 3.0148,
	"step": 6900
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028160171003650125,
	"loss": 3.0102,
	"step": 7000
	},
	{
	"epoch": 0.06,
	"eval_accuracy": 0.43602120780442366,
	"eval_loss": 3.026742696762085,
	"eval_runtime": 43.2189,
	"eval_samples_per_second": 150.004,
	"eval_steps_per_second": 2.522,
	"step": 7000
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002813299881348103,
	"loss": 3.0111,
	"step": 7100
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00028105826623311925,
	"loss": 3.0077,
	"step": 7200
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00028078654433142823,
	"loss": 3.0055,
	"step": 7300
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002805148224297372,
	"loss": 3.0084,
	"step": 7400
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002802431005280462,
	"loss": 3.0124,
	"step": 7500
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002799713786263552,
	"loss": 3.0051,
	"step": 7600
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027969965672466413,
	"loss": 3.0039,
	"step": 7700
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027942793482297316,
	"loss": 3.0033,
	"step": 7800
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027915621292128214,
	"loss": 3.0044,
	"step": 7900
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002788844910195911,
	"loss": 2.9888,
	"step": 8000
	},
	{
	"epoch": 0.07,
	"eval_accuracy": 0.4361119428490199,
	"eval_loss": 3.0189716815948486,
	"eval_runtime": 43.5746,
	"eval_samples_per_second": 148.779,
	"eval_steps_per_second": 2.501,
	"step": 8000
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027861276911790014,
	"loss": 3.0097,
	"step": 8100
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027834104721620906,
	"loss": 3.008,
	"step": 8200
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002780693253145181,
	"loss": 2.9979,
	"step": 8300
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027779760341282707,
	"loss": 2.994,
	"step": 8400
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027752588151113604,
	"loss": 2.9985,
	"step": 8500
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000277254159609445,
	"loss": 2.9966,
	"step": 8600
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000276982437707754,
	"loss": 2.9968,
	"step": 8700
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000276710715806063,
	"loss": 2.9999,
	"step": 8800
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000276438993904372,
	"loss": 2.9973,
	"step": 8900
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027616727200268097,
	"loss": 3.0024,
	"step": 9000
	},
	{
	"epoch": 0.08,
	"eval_accuracy": 0.4384970647213073,
	"eval_loss": 3.0039989948272705,
	"eval_runtime": 44.0911,
	"eval_samples_per_second": 147.036,
	"eval_steps_per_second": 2.472,
	"step": 9000
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027589555010098995,
	"loss": 3.0015,
	"step": 9100
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002756238281992989,
	"loss": 2.9946,
	"step": 9200
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002753521062976079,
	"loss": 2.9932,
	"step": 9300
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002750803843959169,
	"loss": 2.9985,
	"step": 9400
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002748086624942259,
	"loss": 2.9913,
	"step": 9500
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002745369405925349,
	"loss": 2.9946,
	"step": 9600
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027426521869084385,
	"loss": 2.99,
	"step": 9700
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027399349678915283,
	"loss": 2.9927,
	"step": 9800
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002737217748874618,
	"loss": 2.9883,
	"step": 9900
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027345005298577083,
	"loss": 2.9948,
	"step": 10000
	},
	{
	"epoch": 0.09,
	"eval_accuracy": 0.43782985969337607,
	"eval_loss": 3.0057804584503174,
	"eval_runtime": 43.6419,
	"eval_samples_per_second": 148.55,
	"eval_steps_per_second": 2.498,
	"step": 10000
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002731810483030967,
	"loss": 2.983,
	"step": 10100
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002729093264014057,
	"loss": 2.9806,
	"step": 10200
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027263760449971466,
	"loss": 2.9881,
	"step": 10300
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027236588259802364,
	"loss": 2.9814,
	"step": 10400
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027209416069633267,
	"loss": 2.9824,
	"step": 10500
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027182243879464164,
	"loss": 2.9885,
	"step": 10600
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002715507168929506,
	"loss": 2.989,
	"step": 10700
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002712789949912596,
	"loss": 2.986,
	"step": 10800
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027100727308956857,
	"loss": 2.9856,
	"step": 10900
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027073555118787754,
	"loss": 2.9774,
	"step": 11000
	},
	{
	"epoch": 0.1,
	"eval_accuracy": 0.438878756808909,
	"eval_loss": 2.9962034225463867,
	"eval_runtime": 43.3441,
	"eval_samples_per_second": 149.57,
	"eval_steps_per_second": 2.515,
	"step": 11000
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002704638292861865,
	"loss": 2.9941,
	"step": 11100
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027019210738449555,
	"loss": 2.9799,
	"step": 11200
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002699203854828045,
	"loss": 2.9834,
	"step": 11300
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002696513808001304,
	"loss": 2.9767,
	"step": 11400
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002693796588984394,
	"loss": 2.9772,
	"step": 11500
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002691079369967484,
	"loss": 2.9891,
	"step": 11600
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002688362150950573,
	"loss": 2.9787,
	"step": 11700
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026856449319336635,
	"loss": 2.987,
	"step": 11800
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026829277129167533,
	"loss": 2.979,
	"step": 11900
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002680210493899843,
	"loss": 2.9818,
	"step": 12000
	},
	{
	"epoch": 0.11,
	"eval_accuracy": 0.4390166740766953,
	"eval_loss": 2.9964208602905273,
	"eval_runtime": 44.0294,
	"eval_samples_per_second": 147.242,
	"eval_steps_per_second": 2.476,
	"step": 12000
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002677493274882933,
	"loss": 2.9798,
	"step": 12100
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026747760558660225,
	"loss": 2.9833,
	"step": 12200
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002672058836849113,
	"loss": 2.9787,
	"step": 12300
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026693416178322026,
	"loss": 2.9807,
	"step": 12400
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026666515710054614,
	"loss": 2.9846,
	"step": 12500
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002663934351988551,
	"loss": 2.9758,
	"step": 12600
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026612171329716414,
	"loss": 2.9749,
	"step": 12700
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026584999139547306,
	"loss": 2.9688,
	"step": 12800
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002655782694937821,
	"loss": 2.9886,
	"step": 12900
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026530654759209107,
	"loss": 2.9771,
	"step": 13000
	},
	{
	"epoch": 0.12,
	"eval_accuracy": 0.4395580598427864,
	"eval_loss": 2.991270065307617,
	"eval_runtime": 43.0298,
	"eval_samples_per_second": 150.663,
	"eval_steps_per_second": 2.533,
	"step": 13000
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026503482569040004,
	"loss": 2.9802,
	"step": 13100
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.000264763103788709,
	"loss": 2.9711,
	"step": 13200
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.000264491381887018,
	"loss": 2.9845,
	"step": 13300
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.000264219659985327,
	"loss": 2.9735,
	"step": 13400
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026394793808363594,
	"loss": 2.9731,
	"step": 13500
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026367621618194497,
	"loss": 2.9717,
	"step": 13600
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026340449428025395,
	"loss": 2.9718,
	"step": 13700
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002631327723785629,
	"loss": 2.9766,
	"step": 13800
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002628637676958888,
	"loss": 2.9812,
	"step": 13900
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026259204579419783,
	"loss": 2.9786,
	"step": 14000
	},
	{
	"epoch": 0.13,
	"eval_accuracy": 0.43911829732664315,
	"eval_loss": 2.9915201663970947,
	"eval_runtime": 43.7467,
	"eval_samples_per_second": 148.194,
	"eval_steps_per_second": 2.492,
	"step": 14000
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002623203238925068,
	"loss": 2.9757,
	"step": 14100
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002620486019908158,
	"loss": 2.9781,
	"step": 14200
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026177959730814166,
	"loss": 2.9733,
	"step": 14300
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002615078754064507,
	"loss": 2.9773,
	"step": 14400
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002612361535047596,
	"loss": 2.9755,
	"step": 14500
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026096443160306864,
	"loss": 2.9837,
	"step": 14600
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002606927097013776,
	"loss": 2.9786,
	"step": 14700
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002604209877996866,
	"loss": 2.9709,
	"step": 14800
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026014926589799556,
	"loss": 2.9797,
	"step": 14900
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025987754399630454,
	"loss": 2.9866,
	"step": 15000
	},
	{
	"epoch": 0.14,
	"eval_accuracy": 0.4393814289559723,
	"eval_loss": 2.9924139976501465,
	"eval_runtime": 43.2705,
	"eval_samples_per_second": 149.825,
	"eval_steps_per_second": 2.519,
	"step": 15000
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025960582209461357,
	"loss": 2.976,
	"step": 15100
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002593341001929225,
	"loss": 2.9674,
	"step": 15200
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002590623782912315,
	"loss": 2.98,
	"step": 15300
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002587906563895405,
	"loss": 2.9805,
	"step": 15400
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025851893448784947,
	"loss": 2.9738,
	"step": 15500
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025824721258615844,
	"loss": 2.9702,
	"step": 15600
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002579754906844674,
	"loss": 2.9678,
	"step": 15700
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025770376878277645,
	"loss": 2.9699,
	"step": 15800
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002574320468810854,
	"loss": 2.9717,
	"step": 15900
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002571603249793944,
	"loss": 2.9751,
	"step": 16000
	},
	{
	"epoch": 0.14,
	"eval_accuracy": 0.43892109982972055,
	"eval_loss": 2.9917728900909424,
	"eval_runtime": 44.2385,
	"eval_samples_per_second": 146.547,
	"eval_steps_per_second": 2.464,
	"step": 16000
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002568886030777034,
	"loss": 2.9653,
	"step": 16100
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025661688117601235,
	"loss": 2.9817,
	"step": 16200
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002563451592743214,
	"loss": 2.9652,
	"step": 16300
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025607343737263035,
	"loss": 2.9704,
	"step": 16400
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025580171547093933,
	"loss": 2.9727,
	"step": 16500
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002555299935692483,
	"loss": 2.9743,
	"step": 16600
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002552582716675573,
	"loss": 2.9719,
	"step": 16700
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025498654976586626,
	"loss": 2.9615,
	"step": 16800
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025471482786417523,
	"loss": 2.973,
	"step": 16900
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025444310596248426,
	"loss": 2.9702,
	"step": 17000
	},
	{
	"epoch": 0.15,
	"eval_accuracy": 0.4393215438265388,
	"eval_loss": 2.992605447769165,
	"eval_runtime": 45.7096,
	"eval_samples_per_second": 141.83,
	"eval_steps_per_second": 2.385,
	"step": 17000
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025417410127981014,
	"loss": 2.9689,
	"step": 17100
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002539023793781191,
	"loss": 2.9727,
	"step": 17200
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002536306574764281,
	"loss": 2.9669,
	"step": 17300
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025335893557473706,
	"loss": 2.9717,
	"step": 17400
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002530872136730461,
	"loss": 2.9646,
	"step": 17500
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025281549177135507,
	"loss": 2.9757,
	"step": 17600
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025254376986966404,
	"loss": 2.9679,
	"step": 17700
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.000252272047967973,
	"loss": 2.9691,
	"step": 17800
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.000252000326066282,
	"loss": 2.9718,
	"step": 17900
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025172860416459097,
	"loss": 2.9695,
	"step": 18000
	},
	{
	"epoch": 0.16,
	"eval_accuracy": 0.44013513472641874,
	"eval_loss": 2.981644868850708,
	"eval_runtime": 43.6409,
	"eval_samples_per_second": 148.553,
	"eval_steps_per_second": 2.498,
	"step": 18000
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002514568822629,
	"loss": 2.9666,
	"step": 18100
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002511878775802259,
	"loss": 2.9696,
	"step": 18200
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00025091615567853485,
	"loss": 2.9687,
	"step": 18300
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002506444337768438,
	"loss": 2.9674,
	"step": 18400
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002503727118751528,
	"loss": 2.9655,
	"step": 18500
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00025010098997346183,
	"loss": 2.9661,
	"step": 18600
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002498292680717708,
	"loss": 2.9673,
	"step": 18700
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002495575461700798,
	"loss": 2.9641,
	"step": 18800
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00024928582426838876,
	"loss": 2.9598,
	"step": 18900
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00024901410236669773,
	"loss": 2.9615,
	"step": 19000
	},
	{
	"epoch": 0.17,
	"eval_accuracy": 0.44022042566833924,
	"eval_loss": 2.982591390609741,
	"eval_runtime": 43.6998,
	"eval_samples_per_second": 148.353,
	"eval_steps_per_second": 2.494,
	"step": 19000
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00024874238046500676,
	"loss": 2.958,
	"step": 19100
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002484706585633157,
	"loss": 2.9688,
	"step": 19200
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002481989366616247,
	"loss": 2.9603,
	"step": 19300
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002479272147599337,
	"loss": 2.9625,
	"step": 19400
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024765549285824266,
	"loss": 2.9611,
	"step": 19500
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024738377095655164,
	"loss": 2.9594,
	"step": 19600
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002471120490548606,
	"loss": 2.9648,
	"step": 19700
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024684032715316964,
	"loss": 2.961,
	"step": 19800
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002465686052514786,
	"loss": 2.9589,
	"step": 19900
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002462968833497876,
	"loss": 2.9609,
	"step": 20000
	},
	{
	"epoch": 0.18,
	"eval_accuracy": 0.4406414362752659,
	"eval_loss": 2.9791083335876465,
	"eval_runtime": 44.2323,
	"eval_samples_per_second": 146.567,
	"eval_steps_per_second": 2.464,
	"step": 20000
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024602516144809657,
	"loss": 2.962,
	"step": 20100
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024575343954640554,
	"loss": 2.9566,
	"step": 20200
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024548171764471457,
	"loss": 2.964,
	"step": 20300
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002452099957430235,
	"loss": 2.9573,
	"step": 20400
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002449409910603494,
	"loss": 2.9621,
	"step": 20500
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002446692691586584,
	"loss": 2.9568,
	"step": 20600
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002443975472569674,
	"loss": 2.9643,
	"step": 20700
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024412582535527635,
	"loss": 2.9614,
	"step": 20800
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024385410345358535,
	"loss": 2.9546,
	"step": 20900
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024358238155189433,
	"loss": 2.9607,
	"step": 21000
	},
	{
	"epoch": 0.19,
	"eval_accuracy": 0.44158508073906716,
	"eval_loss": 2.9684245586395264,
	"eval_runtime": 43.092,
	"eval_samples_per_second": 150.446,
	"eval_steps_per_second": 2.529,
	"step": 21000
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024331065965020333,
	"loss": 2.9608,
	"step": 21100
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024303893774851228,
	"loss": 2.9556,
	"step": 21200
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024276721584682128,
	"loss": 2.9579,
	"step": 21300
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024249549394513028,
	"loss": 2.9585,
	"step": 21400
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024222377204343926,
	"loss": 2.9544,
	"step": 21500
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024195205014174823,
	"loss": 2.9614,
	"step": 21600
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002416803282400572,
	"loss": 2.9536,
	"step": 21700
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024141132355738314,
	"loss": 2.9556,
	"step": 21800
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002411396016556921,
	"loss": 2.9559,
	"step": 21900
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002408678797540011,
	"loss": 2.9533,
	"step": 22000
	},
	{
	"epoch": 0.2,
	"eval_accuracy": 0.4422038937432138,
	"eval_loss": 2.967719554901123,
	"eval_runtime": 42.9224,
	"eval_samples_per_second": 151.04,
	"eval_steps_per_second": 2.539,
	"step": 22000
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024059615785231007,
	"loss": 2.9493,
	"step": 22100
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024032443595061907,
	"loss": 2.9543,
	"step": 22200
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024005271404892804,
	"loss": 2.9565,
	"step": 22300
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00023978099214723702,
	"loss": 2.9501,
	"step": 22400
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00023950927024554602,
	"loss": 2.9395,
	"step": 22500
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00023923754834385497,
	"loss": 2.9598,
	"step": 22600
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023896854366118087,
	"loss": 2.9492,
	"step": 22700
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023869682175948988,
	"loss": 2.947,
	"step": 22800
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023842509985779885,
	"loss": 2.9573,
	"step": 22900
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023815337795610783,
	"loss": 2.9513,
	"step": 23000
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 0.4420853332849413,
	"eval_loss": 2.9676427841186523,
	"eval_runtime": 43.0836,
	"eval_samples_per_second": 150.475,
	"eval_steps_per_second": 2.53,
	"step": 23000
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023788165605441683,
	"loss": 2.9472,
	"step": 23100
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023760993415272578,
	"loss": 2.9513,
	"step": 23200
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023733821225103478,
	"loss": 2.9542,
	"step": 23300
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023706649034934378,
	"loss": 2.9497,
	"step": 23400
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023679476844765276,
	"loss": 2.9565,
	"step": 23500
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023652576376497863,
	"loss": 2.9518,
	"step": 23600
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023625404186328764,
	"loss": 2.9471,
	"step": 23700
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023598231996159664,
	"loss": 2.956,
	"step": 23800
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023571059805990559,
	"loss": 2.953,
	"step": 23900
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002354388761582146,
	"loss": 2.9563,
	"step": 24000
	},
	{
	"epoch": 0.22,
	"eval_accuracy": 0.4428523468619285,
	"eval_loss": 2.9609880447387695,
	"eval_runtime": 42.9764,
	"eval_samples_per_second": 150.85,
	"eval_steps_per_second": 2.536,
	"step": 24000
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023516715425652356,
	"loss": 2.9458,
	"step": 24100
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023489543235483257,
	"loss": 2.9539,
	"step": 24200
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023462371045314151,
	"loss": 2.9549,
	"step": 24300
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023435198855145052,
	"loss": 2.9496,
	"step": 24400
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023408026664975952,
	"loss": 2.9514,
	"step": 24500
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002338085447480685,
	"loss": 2.9471,
	"step": 24600
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023353682284637747,
	"loss": 2.9448,
	"step": 24700
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023326510094468644,
	"loss": 2.948,
	"step": 24800
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023299337904299545,
	"loss": 2.9454,
	"step": 24900
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023272165714130445,
	"loss": 2.9466,
	"step": 25000
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 0.44241621374756906,
	"eval_loss": 2.9626522064208984,
	"eval_runtime": 43.5013,
	"eval_samples_per_second": 149.03,
	"eval_steps_per_second": 2.506,
	"step": 25000
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002324499352396134,
	"loss": 2.9417,
	"step": 25100
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002321782133379224,
	"loss": 2.9452,
	"step": 25200
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023190649143623138,
	"loss": 2.9406,
	"step": 25300
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023163476953454038,
	"loss": 2.945,
	"step": 25400
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023136304763284933,
	"loss": 2.9419,
	"step": 25500
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023109132573115833,
	"loss": 2.9452,
	"step": 25600
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023081960382946733,
	"loss": 2.9435,
	"step": 25700
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023054788192777628,
	"loss": 2.947,
	"step": 25800
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023027616002608528,
	"loss": 2.9343,
	"step": 25900
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00023000443812439426,
	"loss": 2.9431,
	"step": 26000
	},
	{
	"epoch": 0.24,
	"eval_accuracy": 0.442384758932109,
	"eval_loss": 2.9589717388153076,
	"eval_runtime": 43.1206,
	"eval_samples_per_second": 150.346,
	"eval_steps_per_second": 2.528,
	"step": 26000
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022973271622270326,
	"loss": 2.9431,
	"step": 26100
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022946099432101226,
	"loss": 2.9477,
	"step": 26200
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002291892724193212,
	"loss": 2.939,
	"step": 26300
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002289175505176302,
	"loss": 2.9385,
	"step": 26400
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002286458286159392,
	"loss": 2.944,
	"step": 26500
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022837410671424816,
	"loss": 2.9404,
	"step": 26600
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022810238481255716,
	"loss": 2.9334,
	"step": 26700
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022783066291086614,
	"loss": 2.9419,
	"step": 26800
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022755894100917514,
	"loss": 2.9432,
	"step": 26900
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022728993632650102,
	"loss": 2.9412,
	"step": 27000
	},
	{
	"epoch": 0.24,
	"eval_accuracy": 0.4435655243124552,
	"eval_loss": 2.952514410018921,
	"eval_runtime": 43.0804,
	"eval_samples_per_second": 150.486,
	"eval_steps_per_second": 2.53,
	"step": 27000
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022701821442481,
	"loss": 2.9359,
	"step": 27100
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.000226746492523119,
	"loss": 2.9426,
	"step": 27200
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022647477062142797,
	"loss": 2.9307,
	"step": 27300
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022620304871973695,
	"loss": 2.9353,
	"step": 27400
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022593132681804595,
	"loss": 2.9353,
	"step": 27500
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002256596049163549,
	"loss": 2.9403,
	"step": 27600
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002253878830146639,
	"loss": 2.9393,
	"step": 27700
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002251161611129729,
	"loss": 2.9313,
	"step": 27800
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022484443921128188,
	"loss": 2.9348,
	"step": 27900
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022457543452860775,
	"loss": 2.9299,
	"step": 28000
	},
	{
	"epoch": 0.25,
	"eval_accuracy": 0.4434947509776701,
	"eval_loss": 2.9504144191741943,
	"eval_runtime": 43.7459,
	"eval_samples_per_second": 148.197,
	"eval_steps_per_second": 2.492,
	"step": 28000
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022430371262691676,
	"loss": 2.938,
	"step": 28100
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022403199072522576,
	"loss": 2.9353,
	"step": 28200
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022376298604255164,
	"loss": 2.9329,
	"step": 28300
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002234912641408606,
	"loss": 2.9311,
	"step": 28400
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002232195422391696,
	"loss": 2.9377,
	"step": 28500
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022294782033747856,
	"loss": 2.9303,
	"step": 28600
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022267609843578756,
	"loss": 2.9278,
	"step": 28700
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022240437653409657,
	"loss": 2.9394,
	"step": 28800
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022213265463240551,
	"loss": 2.9332,
	"step": 28900
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022186093273071452,
	"loss": 2.9332,
	"step": 29000
	},
	{
	"epoch": 0.26,
	"eval_accuracy": 0.4434814431711293,
	"eval_loss": 2.9485716819763184,
	"eval_runtime": 41.8653,
	"eval_samples_per_second": 154.854,
	"eval_steps_per_second": 2.604,
	"step": 29000
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002215892108290235,
	"loss": 2.9339,
	"step": 29100
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002213174889273325,
	"loss": 2.9322,
	"step": 29200
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002210457670256415,
	"loss": 2.9305,
	"step": 29300
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00022077404512395044,
	"loss": 2.9321,
	"step": 29400
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00022050232322225945,
	"loss": 2.9265,
	"step": 29500
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00022023331853958532,
	"loss": 2.9247,
	"step": 29600
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021996159663789433,
	"loss": 2.9312,
	"step": 29700
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002196898747362033,
	"loss": 2.9288,
	"step": 29800
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002194181528345123,
	"loss": 2.9328,
	"step": 29900
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021914643093282125,
	"loss": 2.9255,
	"step": 30000
	},
	{
	"epoch": 0.27,
	"eval_accuracy": 0.444235753841873,
	"eval_loss": 2.942479372024536,
	"eval_runtime": 41.7184,
	"eval_samples_per_second": 155.399,
	"eval_steps_per_second": 2.613,
	"step": 30000
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021887470903113025,
	"loss": 2.9265,
	"step": 30100
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021860298712943923,
	"loss": 2.9184,
	"step": 30200
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021833126522774823,
	"loss": 2.9271,
	"step": 30300
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002180622605450741,
	"loss": 2.9232,
	"step": 30400
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002177905386433831,
	"loss": 2.9303,
	"step": 30500
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021751881674169206,
	"loss": 2.9348,
	"step": 30600
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021724709484000106,
	"loss": 2.9218,
	"step": 30700
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021697537293831006,
	"loss": 2.9324,
	"step": 30800
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021670365103661904,
	"loss": 2.9294,
	"step": 30900
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021643192913492801,
	"loss": 2.9242,
	"step": 31000
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 0.44344756875448005,
	"eval_loss": 2.945934534072876,
	"eval_runtime": 43.5276,
	"eval_samples_per_second": 148.94,
	"eval_steps_per_second": 2.504,
	"step": 31000
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.000216160207233237,
	"loss": 2.9231,
	"step": 31100
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.000215888485331546,
	"loss": 2.9269,
	"step": 31200
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.000215616763429855,
	"loss": 2.9247,
	"step": 31300
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021534504152816394,
	"loss": 2.9236,
	"step": 31400
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021507331962647295,
	"loss": 2.9296,
	"step": 31500
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021480159772478192,
	"loss": 2.9267,
	"step": 31600
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021452987582309092,
	"loss": 2.9259,
	"step": 31700
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021425815392139987,
	"loss": 2.9259,
	"step": 31800
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021398643201970887,
	"loss": 2.9236,
	"step": 31900
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021371471011801788,
	"loss": 2.9242,
	"step": 32000
	},
	{
	"epoch": 0.29,
	"eval_accuracy": 0.4445194520813107,
	"eval_loss": 2.9377670288085938,
	"eval_runtime": 43.8729,
	"eval_samples_per_second": 147.768,
	"eval_steps_per_second": 2.484,
	"step": 32000
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021344298821632685,
	"loss": 2.9178,
	"step": 32100
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021317126631463583,
	"loss": 2.9257,
	"step": 32200
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002128995444129448,
	"loss": 2.9227,
	"step": 32300
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002126278225112538,
	"loss": 2.9228,
	"step": 32400
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002123561006095628,
	"loss": 2.9183,
	"step": 32500
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021208437870787175,
	"loss": 2.9196,
	"step": 32600
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021181265680618076,
	"loss": 2.9143,
	"step": 32700
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021154093490448973,
	"loss": 2.9192,
	"step": 32800
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002112692130027987,
	"loss": 2.9187,
	"step": 32900
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021099749110110768,
	"loss": 2.9267,
	"step": 33000
	},
	{
	"epoch": 0.3,
	"eval_accuracy": 0.4452544059425405,
	"eval_loss": 2.9316306114196777,
	"eval_runtime": 45.514,
	"eval_samples_per_second": 142.44,
	"eval_steps_per_second": 2.395,
	"step": 33000
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021072576919941669,
	"loss": 2.9169,
	"step": 33100
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002104540472977257,
	"loss": 2.9219,
	"step": 33200
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021018232539603464,
	"loss": 2.9096,
	"step": 33300
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00020991060349434364,
	"loss": 2.9202,
	"step": 33400
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002096388815926526,
	"loss": 2.9241,
	"step": 33500
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00020936987690997852,
	"loss": 2.9148,
	"step": 33600
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002090981550082875,
	"loss": 2.9194,
	"step": 33700
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0002088264331065965,
	"loss": 2.9267,
	"step": 33800
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020855471120490544,
	"loss": 2.9164,
	"step": 33900
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020828298930321445,
	"loss": 2.9151,
	"step": 34000
	},
	{
	"epoch": 0.31,
	"eval_accuracy": 0.44544252993500344,
	"eval_loss": 2.931532382965088,
	"eval_runtime": 43.496,
	"eval_samples_per_second": 149.048,
	"eval_steps_per_second": 2.506,
	"step": 34000
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020801126740152345,
	"loss": 2.9178,
	"step": 34100
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020773954549983242,
	"loss": 2.9119,
	"step": 34200
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020746782359814143,
	"loss": 2.9143,
	"step": 34300
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020719610169645037,
	"loss": 2.9084,
	"step": 34400
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020692437979475938,
	"loss": 2.9227,
	"step": 34500
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020665265789306835,
	"loss": 2.9159,
	"step": 34600
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020638365321039425,
	"loss": 2.9151,
	"step": 34700
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020611193130870323,
	"loss": 2.9218,
	"step": 34800
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020584020940701223,
	"loss": 2.9169,
	"step": 34900
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020556848750532118,
	"loss": 2.9105,
	"step": 35000
	},
	{
	"epoch": 0.32,
	"eval_accuracy": 0.4455647197950598,
	"eval_loss": 2.928622245788574,
	"eval_runtime": 45.1155,
	"eval_samples_per_second": 143.698,
	"eval_steps_per_second": 2.416,
	"step": 35000
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020529676560363018,
	"loss": 2.9135,
	"step": 35100
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020502504370193919,
	"loss": 2.9099,
	"step": 35200
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020475332180024816,
	"loss": 2.9114,
	"step": 35300
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020448159989855714,
	"loss": 2.9169,
	"step": 35400
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002042098779968661,
	"loss": 2.9098,
	"step": 35500
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020393815609517511,
	"loss": 2.9126,
	"step": 35600
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020366643419348412,
	"loss": 2.9095,
	"step": 35700
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020339471229179306,
	"loss": 2.9086,
	"step": 35800
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020312299039010207,
	"loss": 2.9077,
	"step": 35900
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020285126848841104,
	"loss": 2.9053,
	"step": 36000
	},
	{
	"epoch": 0.33,
	"eval_accuracy": 0.4457353016789008,
	"eval_loss": 2.924194097518921,
	"eval_runtime": 41.9708,
	"eval_samples_per_second": 154.464,
	"eval_steps_per_second": 2.597,
	"step": 36000
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020257954658672004,
	"loss": 2.9099,
	"step": 36100
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.000202307824685029,
	"loss": 2.9118,
	"step": 36200
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.000202036102783338,
	"loss": 2.91,
	"step": 36300
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.000201764380881647,
	"loss": 2.8983,
	"step": 36400
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020149265897995595,
	"loss": 2.8964,
	"step": 36500
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020122093707826495,
	"loss": 2.9024,
	"step": 36600
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020095193239559085,
	"loss": 2.9057,
	"step": 36700
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020068021049389983,
	"loss": 2.9094,
	"step": 36800
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002004084885922088,
	"loss": 2.9071,
	"step": 36900
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002001367666905178,
	"loss": 2.9023,
	"step": 37000
	},
	{
	"epoch": 0.33,
	"eval_accuracy": 0.44664325702516083,
	"eval_loss": 2.9194602966308594,
	"eval_runtime": 42.9573,
	"eval_samples_per_second": 150.917,
	"eval_steps_per_second": 2.537,
	"step": 37000
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019986504478882678,
	"loss": 2.9047,
	"step": 37100
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019959332288713575,
	"loss": 2.9097,
	"step": 37200
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019932160098544476,
	"loss": 2.908,
	"step": 37300
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019905259630277066,
	"loss": 2.9019,
	"step": 37400
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001987808744010796,
	"loss": 2.9105,
	"step": 37500
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001985091524993886,
	"loss": 2.9064,
	"step": 37600
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001982401478167145,
	"loss": 2.9053,
	"step": 37700
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001979684259150235,
	"loss": 2.906,
	"step": 37800
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019769670401333247,
	"loss": 2.8997,
	"step": 37900
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019742498211164147,
	"loss": 2.8946,
	"step": 38000
	},
	{
	"epoch": 0.34,
	"eval_accuracy": 0.4468059752051368,
	"eval_loss": 2.917731285095215,
	"eval_runtime": 43.2928,
	"eval_samples_per_second": 149.748,
	"eval_steps_per_second": 2.518,
	"step": 38000
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019715326020995042,
	"loss": 2.9018,
	"step": 38100
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019688153830825942,
	"loss": 2.8969,
	"step": 38200
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019660981640656842,
	"loss": 2.9104,
	"step": 38300
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001963380945048774,
	"loss": 2.9057,
	"step": 38400
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019606637260318637,
	"loss": 2.9094,
	"step": 38500
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019579465070149535,
	"loss": 2.9008,
	"step": 38600
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019552292879980435,
	"loss": 2.8998,
	"step": 38700
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019525120689811335,
	"loss": 2.9019,
	"step": 38800
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001949794849964223,
	"loss": 2.8925,
	"step": 38900
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001947077630947313,
	"loss": 2.9037,
	"step": 39000
	},
	{
	"epoch": 0.35,
	"eval_accuracy": 0.44703039321543825,
	"eval_loss": 2.9147427082061768,
	"eval_runtime": 43.7223,
	"eval_samples_per_second": 148.277,
	"eval_steps_per_second": 2.493,
	"step": 39000
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019443604119304028,
	"loss": 2.9052,
	"step": 39100
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019416431929134928,
	"loss": 2.9038,
	"step": 39200
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019389259738965823,
	"loss": 2.9046,
	"step": 39300
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019362087548796723,
	"loss": 2.903,
	"step": 39400
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019334915358627623,
	"loss": 2.8919,
	"step": 39500
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019307743168458518,
	"loss": 2.8936,
	"step": 39600
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019280570978289418,
	"loss": 2.8985,
	"step": 39700
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019253398788120316,
	"loss": 2.8955,
	"step": 39800
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019226226597951216,
	"loss": 2.8943,
	"step": 39900
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019199326129683804,
	"loss": 2.8893,
	"step": 40000
	},
	{
	"epoch": 0.36,
	"eval_accuracy": 0.44681383890900184,
	"eval_loss": 2.9129724502563477,
	"eval_runtime": 42.9613,
	"eval_samples_per_second": 150.903,
	"eval_steps_per_second": 2.537,
	"step": 40000
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019172153939514704,
	"loss": 2.8923,
	"step": 40100
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019144981749345602,
	"loss": 2.8998,
	"step": 40200
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.000191178095591765,
	"loss": 2.8931,
	"step": 40300
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019090637369007397,
	"loss": 2.8965,
	"step": 40400
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019063465178838297,
	"loss": 2.8992,
	"step": 40500
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019036292988669197,
	"loss": 2.8974,
	"step": 40600
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019009120798500092,
	"loss": 2.8929,
	"step": 40700
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018981948608330992,
	"loss": 2.8919,
	"step": 40800
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0001895477641816189,
	"loss": 2.8907,
	"step": 40900
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0001892760422799279,
	"loss": 2.8891,
	"step": 41000
	},
	{
	"epoch": 0.37,
	"eval_accuracy": 0.4481204235511882,
	"eval_loss": 2.9055044651031494,
	"eval_runtime": 43.4382,
	"eval_samples_per_second": 149.246,
	"eval_steps_per_second": 2.509,
	"step": 41000
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018900432037823687,
	"loss": 2.8892,
	"step": 41100
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018873259847654585,
	"loss": 2.8979,
	"step": 41200
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018846087657485485,
	"loss": 2.8864,
	"step": 41300
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0001881891546731638,
	"loss": 2.8905,
	"step": 41400
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001879174327714728,
	"loss": 2.8849,
	"step": 41500
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001876457108697818,
	"loss": 2.8959,
	"step": 41600
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018737398896809078,
	"loss": 2.8923,
	"step": 41700
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018710226706639978,
	"loss": 2.8878,
	"step": 41800
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018683326238372566,
	"loss": 2.8848,
	"step": 41900
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018656154048203463,
	"loss": 2.8851,
	"step": 42000
	},
	{
	"epoch": 0.38,
	"eval_accuracy": 0.4484996960376006,
	"eval_loss": 2.90169358253479,
	"eval_runtime": 44.5924,
	"eval_samples_per_second": 145.384,
	"eval_steps_per_second": 2.444,
	"step": 42000
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001862898185803436,
	"loss": 2.8892,
	"step": 42100
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001860180966786526,
	"loss": 2.8835,
	"step": 42200
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001857463747769616,
	"loss": 2.8868,
	"step": 42300
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001854746528752706,
	"loss": 2.89,
	"step": 42400
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018520293097357954,
	"loss": 2.8903,
	"step": 42500
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018493120907188854,
	"loss": 2.8868,
	"step": 42600
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018466220438921442,
	"loss": 2.8882,
	"step": 42700
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018439048248752342,
	"loss": 2.8788,
	"step": 42800
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001841187605858324,
	"loss": 2.8884,
	"step": 42900
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001838470386841414,
	"loss": 2.8909,
	"step": 43000
	},
	{
	"epoch": 0.39,
	"eval_accuracy": 0.44834423666119233,
	"eval_loss": 2.9010777473449707,
	"eval_runtime": 43.3319,
	"eval_samples_per_second": 149.613,
	"eval_steps_per_second": 2.515,
	"step": 43000
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001835753167824504,
	"loss": 2.8868,
	"step": 43100
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018330359488075935,
	"loss": 2.8935,
	"step": 43200
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018303187297906835,
	"loss": 2.883,
	"step": 43300
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018276015107737733,
	"loss": 2.8895,
	"step": 43400
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001824911463947032,
	"loss": 2.8958,
	"step": 43500
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001822194244930122,
	"loss": 2.8916,
	"step": 43600
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001819477025913212,
	"loss": 2.8949,
	"step": 43700
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018167869790864708,
	"loss": 2.8898,
	"step": 43800
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018140697600695606,
	"loss": 2.8887,
	"step": 43900
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018113525410526506,
	"loss": 2.896,
	"step": 44000
	},
	{
	"epoch": 0.4,
	"eval_accuracy": 0.4478663654263186,
	"eval_loss": 2.9061102867126465,
	"eval_runtime": 43.1173,
	"eval_samples_per_second": 150.357,
	"eval_steps_per_second": 2.528,
	"step": 44000
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018086353220357404,
	"loss": 2.8965,
	"step": 44100
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.000180591810301883,
	"loss": 2.8969,
	"step": 44200
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018032008840019201,
	"loss": 2.8913,
	"step": 44300
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018004836649850096,
	"loss": 2.8897,
	"step": 44400
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00017977664459680996,
	"loss": 2.8952,
	"step": 44500
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00017950492269511897,
	"loss": 2.9008,
	"step": 44600
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00017923320079342794,
	"loss": 2.8884,
	"step": 44700
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017896147889173694,
	"loss": 2.8971,
	"step": 44800
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0001786897569900459,
	"loss": 2.8824,
	"step": 44900
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0001784180350883549,
	"loss": 2.8918,
	"step": 45000
	},
	{
	"epoch": 0.41,
	"eval_accuracy": 0.44788874673731904,
	"eval_loss": 2.90425443649292,
	"eval_runtime": 45.928,
	"eval_samples_per_second": 141.156,
	"eval_steps_per_second": 2.373,
	"step": 45000
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017814631318666387,
	"loss": 2.886,
	"step": 45100
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017787459128497285,
	"loss": 2.8935,
	"step": 45200
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017760286938328185,
	"loss": 2.8851,
	"step": 45300
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017733114748159082,
	"loss": 2.8869,
	"step": 45400
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017705942557989983,
	"loss": 2.8816,
	"step": 45500
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017678770367820877,
	"loss": 2.8726,
	"step": 45600
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017651598177651778,
	"loss": 2.8815,
	"step": 45700
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017624425987482678,
	"loss": 2.8835,
	"step": 45800
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017597253797313575,
	"loss": 2.8814,
	"step": 45900
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017570081607144473,
	"loss": 2.8847,
	"step": 46000
	},
	{
	"epoch": 0.42,
	"eval_accuracy": 0.4490059975864478,
	"eval_loss": 2.89544415473938,
	"eval_runtime": 42.9804,
	"eval_samples_per_second": 150.836,
	"eval_steps_per_second": 2.536,
	"step": 46000
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001754290941697537,
	"loss": 2.8699,
	"step": 46100
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001751573722680627,
	"loss": 2.8829,
	"step": 46200
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017488565036637165,
	"loss": 2.8773,
	"step": 46300
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017461392846468066,
	"loss": 2.8812,
	"step": 46400
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017434220656298966,
	"loss": 2.8805,
	"step": 46500
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017407048466129863,
	"loss": 2.8812,
	"step": 46600
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017379876275960764,
	"loss": 2.8826,
	"step": 46700
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017352704085791659,
	"loss": 2.8801,
	"step": 46800
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017325803617524252,
	"loss": 2.8787,
	"step": 46900
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017298631427355146,
	"loss": 2.8749,
	"step": 47000
	},
	{
	"epoch": 0.42,
	"eval_accuracy": 0.44940160238088755,
	"eval_loss": 2.8912456035614014,
	"eval_runtime": 43.8328,
	"eval_samples_per_second": 147.903,
	"eval_steps_per_second": 2.487,
	"step": 47000
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017271730959087737,
	"loss": 2.8715,
	"step": 47100
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017244558768918637,
	"loss": 2.8804,
	"step": 47200
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017217386578749535,
	"loss": 2.8802,
	"step": 47300
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017190214388580432,
	"loss": 2.8779,
	"step": 47400
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017163042198411332,
	"loss": 2.878,
	"step": 47500
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017135870008242227,
	"loss": 2.8835,
	"step": 47600
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017108697818073127,
	"loss": 2.8758,
	"step": 47700
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017081525627904025,
	"loss": 2.8751,
	"step": 47800
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017054353437734925,
	"loss": 2.8737,
	"step": 47900
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017027181247565825,
	"loss": 2.8832,
	"step": 48000
	},
	{
	"epoch": 0.43,
	"eval_accuracy": 0.4496018243792967,
	"eval_loss": 2.891221761703491,
	"eval_runtime": 43.1479,
	"eval_samples_per_second": 150.251,
	"eval_steps_per_second": 2.526,
	"step": 48000
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0001700000905739672,
	"loss": 2.8757,
	"step": 48100
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001697283686722762,
	"loss": 2.8725,
	"step": 48200
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016945664677058518,
	"loss": 2.8749,
	"step": 48300
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016918492486889416,
	"loss": 2.8747,
	"step": 48400
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016891320296720316,
	"loss": 2.8724,
	"step": 48500
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016864148106551213,
	"loss": 2.8717,
	"step": 48600
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016836975916382114,
	"loss": 2.8653,
	"step": 48700
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016809803726213008,
	"loss": 2.869,
	"step": 48800
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016782631536043909,
	"loss": 2.8763,
	"step": 48900
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001675545934587481,
	"loss": 2.8745,
	"step": 49000
	},
	{
	"epoch": 0.44,
	"eval_accuracy": 0.45002646438800725,
	"eval_loss": 2.8852970600128174,
	"eval_runtime": 43.6365,
	"eval_samples_per_second": 148.568,
	"eval_steps_per_second": 2.498,
	"step": 49000
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016728287155705706,
	"loss": 2.8753,
	"step": 49100
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016701114965536604,
	"loss": 2.8684,
	"step": 49200
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016673942775367501,
	"loss": 2.8711,
	"step": 49300
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016646770585198402,
	"loss": 2.8646,
	"step": 49400
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016619598395029296,
	"loss": 2.865,
	"step": 49500
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0001659269792676189,
	"loss": 2.8773,
	"step": 49600
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016565525736592787,
	"loss": 2.8703,
	"step": 49700
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016538353546423687,
	"loss": 2.8722,
	"step": 49800
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016511181356254582,
	"loss": 2.8713,
	"step": 49900
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016484009166085482,
	"loss": 2.8717,
	"step": 50000
	},
	{
	"epoch": 0.45,
	"eval_accuracy": 0.45021942758284866,
	"eval_loss": 2.8834283351898193,
	"eval_runtime": 43.5477,
	"eval_samples_per_second": 148.871,
	"eval_steps_per_second": 2.503,
	"step": 50000
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016456836975916383,
	"loss": 2.8727,
	"step": 50100
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016429664785747277,
	"loss": 2.8622,
	"step": 50200
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016402492595578178,
	"loss": 2.8707,
	"step": 50300
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016375320405409075,
	"loss": 2.8645,
	"step": 50400
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016348148215239975,
	"loss": 2.8642,
	"step": 50500
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016321247746972563,
	"loss": 2.8679,
	"step": 50600
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016294075556803463,
	"loss": 2.871,
	"step": 50700
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0001626690336663436,
	"loss": 2.867,
	"step": 50800
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016239731176465258,
	"loss": 2.8643,
	"step": 50900
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016212558986296156,
	"loss": 2.8659,
	"step": 51000
	},
	{
	"epoch": 0.46,
	"eval_accuracy": 0.45029624992060685,
	"eval_loss": 2.883072853088379,
	"eval_runtime": 43.5545,
	"eval_samples_per_second": 148.848,
	"eval_steps_per_second": 2.503,
	"step": 51000
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016185386796127056,
	"loss": 2.8694,
	"step": 51100
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016158214605957956,
	"loss": 2.8671,
	"step": 51200
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0001613104241578885,
	"loss": 2.8624,
	"step": 51300
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016103870225619751,
	"loss": 2.8665,
	"step": 51400
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0001607669803545065,
	"loss": 2.8613,
	"step": 51500
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00016049525845281547,
	"loss": 2.8637,
	"step": 51600
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00016022353655112447,
	"loss": 2.8662,
	"step": 51700
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015995181464943344,
	"loss": 2.8652,
	"step": 51800
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015968009274774245,
	"loss": 2.8673,
	"step": 51900
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0001594083708460514,
	"loss": 2.865,
	"step": 52000
	},
	{
	"epoch": 0.47,
	"eval_accuracy": 0.450486793514259,
	"eval_loss": 2.878352403640747,
	"eval_runtime": 43.3417,
	"eval_samples_per_second": 149.579,
	"eval_steps_per_second": 2.515,
	"step": 52000
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0001591366489443604,
	"loss": 2.8688,
	"step": 52100
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015886492704266937,
	"loss": 2.862,
	"step": 52200
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015859320514097837,
	"loss": 2.8646,
	"step": 52300
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015832148323928735,
	"loss": 2.8672,
	"step": 52400
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015804976133759632,
	"loss": 2.8594,
	"step": 52500
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015777803943590533,
	"loss": 2.8558,
	"step": 52600
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0001575063175342143,
	"loss": 2.8576,
	"step": 52700
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0001572373128515402,
	"loss": 2.8597,
	"step": 52800
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015696559094984918,
	"loss": 2.8615,
	"step": 52900
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015669386904815818,
	"loss": 2.8575,
	"step": 53000
	},
	{
	"epoch": 0.48,
	"eval_accuracy": 0.45082372297985984,
	"eval_loss": 2.8763039112091064,
	"eval_runtime": 43.6525,
	"eval_samples_per_second": 148.514,
	"eval_steps_per_second": 2.497,
	"step": 53000
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015642214714646713,
	"loss": 2.8673,
	"step": 53100
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015615042524477613,
	"loss": 2.854,
	"step": 53200
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015587870334308514,
	"loss": 2.8652,
	"step": 53300
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.000155609698660411,
	"loss": 2.8596,
	"step": 53400
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015533797675872,
	"loss": 2.8641,
	"step": 53500
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.000155066254857029,
	"loss": 2.8595,
	"step": 53600
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.000154794532955338,
	"loss": 2.8562,
	"step": 53700
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015452281105364694,
	"loss": 2.8529,
	"step": 53800
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015425108915195594,
	"loss": 2.8629,
	"step": 53900
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015397936725026492,
	"loss": 2.8571,
	"step": 54000
	},
	{
	"epoch": 0.49,
	"eval_accuracy": 0.4512689295986789,
	"eval_loss": 2.874122142791748,
	"eval_runtime": 43.0942,
	"eval_samples_per_second": 150.438,
	"eval_steps_per_second": 2.529,
	"step": 54000
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001537076453485739,
	"loss": 2.8605,
	"step": 54100
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015343592344688287,
	"loss": 2.8668,
	"step": 54200
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015316420154519187,
	"loss": 2.8604,
	"step": 54300
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015289247964350087,
	"loss": 2.857,
	"step": 54400
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015262075774180982,
	"loss": 2.8599,
	"step": 54500
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015234903584011882,
	"loss": 2.8653,
	"step": 54600
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001520773139384278,
	"loss": 2.857,
	"step": 54700
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001518055920367368,
	"loss": 2.8543,
	"step": 54800
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015153658735406268,
	"loss": 2.8495,
	"step": 54900
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015126486545237168,
	"loss": 2.8554,
	"step": 55000
	},
	{
	"epoch": 0.5,
	"eval_accuracy": 0.4514479800866822,
	"eval_loss": 2.870398998260498,
	"eval_runtime": 43.838,
	"eval_samples_per_second": 147.885,
	"eval_steps_per_second": 2.486,
	"step": 55000
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015099314355068063,
	"loss": 2.8595,
	"step": 55100
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015072142164898963,
	"loss": 2.855,
	"step": 55200
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001504496997472986,
	"loss": 2.8663,
	"step": 55300
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001501779778456076,
	"loss": 2.8555,
	"step": 55400
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00014990625594391658,
	"loss": 2.8596,
	"step": 55500
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00014963453404222556,
	"loss": 2.8589,
	"step": 55600
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00014936281214053456,
	"loss": 2.8568,
	"step": 55700
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00014909109023884354,
	"loss": 2.8474,
	"step": 55800
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001488193683371525,
	"loss": 2.8515,
	"step": 55900
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014854764643546151,
	"loss": 2.8526,
	"step": 56000
	},
	{
	"epoch": 0.51,
	"eval_accuracy": 0.45189379160579857,
	"eval_loss": 2.86692214012146,
	"eval_runtime": 43.3506,
	"eval_samples_per_second": 149.548,
	"eval_steps_per_second": 2.514,
	"step": 56000
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001482759245337705,
	"loss": 2.8504,
	"step": 56100
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001480042026320795,
	"loss": 2.854,
	"step": 56200
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014773248073038847,
	"loss": 2.8512,
	"step": 56300
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014746075882869744,
	"loss": 2.8515,
	"step": 56400
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014718903692700642,
	"loss": 2.8492,
	"step": 56500
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014691731502531542,
	"loss": 2.8491,
	"step": 56600
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001466455931236244,
	"loss": 2.8466,
	"step": 56700
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001463738712219334,
	"loss": 2.8508,
	"step": 56800
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014610214932024237,
	"loss": 2.8567,
	"step": 56900
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014583042741855135,
	"loss": 2.8521,
	"step": 57000
	},
	{
	"epoch": 0.52,
	"eval_accuracy": 0.45249203799983667,
	"eval_loss": 2.861818552017212,
	"eval_runtime": 43.168,
	"eval_samples_per_second": 150.181,
	"eval_steps_per_second": 2.525,
	"step": 57000
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014555870551686032,
	"loss": 2.8463,
	"step": 57100
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001452869836151693,
	"loss": 2.8433,
	"step": 57200
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001450152617134783,
	"loss": 2.8446,
	"step": 57300
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014474353981178728,
	"loss": 2.8477,
	"step": 57400
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014447181791009628,
	"loss": 2.8439,
	"step": 57500
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014420009600840525,
	"loss": 2.8459,
	"step": 57600
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014392837410671423,
	"loss": 2.8445,
	"step": 57700
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001436566522050232,
	"loss": 2.8455,
	"step": 57800
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001433876475223491,
	"loss": 2.8474,
	"step": 57900
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.000143118642839675,
	"loss": 2.8398,
	"step": 58000
	},
	{
	"epoch": 0.52,
	"eval_accuracy": 0.45218656334969587,
	"eval_loss": 2.8599517345428467,
	"eval_runtime": 43.8444,
	"eval_samples_per_second": 147.864,
	"eval_steps_per_second": 2.486,
	"step": 58000
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.000142846920937984,
	"loss": 2.8492,
	"step": 58100
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014257519903629296,
	"loss": 2.8434,
	"step": 58200
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014230347713460197,
	"loss": 2.8483,
	"step": 58300
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014203175523291094,
	"loss": 2.8441,
	"step": 58400
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014176003333121992,
	"loss": 2.8474,
	"step": 58500
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014148831142952892,
	"loss": 2.8385,
	"step": 58600
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0001412165895278379,
	"loss": 2.8424,
	"step": 58700
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014094486762614687,
	"loss": 2.847,
	"step": 58800
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014067314572445587,
	"loss": 2.8511,
	"step": 58900
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014040142382276485,
	"loss": 2.8398,
	"step": 59000
	},
	{
	"epoch": 0.53,
	"eval_accuracy": 0.45275395982857125,
	"eval_loss": 2.8576090335845947,
	"eval_runtime": 43.2028,
	"eval_samples_per_second": 150.06,
	"eval_steps_per_second": 2.523,
	"step": 59000
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014012970192107382,
	"loss": 2.8386,
	"step": 59100
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013985798001938282,
	"loss": 2.8458,
	"step": 59200
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0001395862581176918,
	"loss": 2.8356,
	"step": 59300
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013931453621600078,
	"loss": 2.8379,
	"step": 59400
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013904281431430978,
	"loss": 2.8325,
	"step": 59500
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013877109241261875,
	"loss": 2.8461,
	"step": 59600
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013849937051092773,
	"loss": 2.8521,
	"step": 59700
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013823036582825363,
	"loss": 2.8273,
	"step": 59800
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013795864392656263,
	"loss": 2.8318,
	"step": 59900
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0001376869220248716,
	"loss": 2.837,
	"step": 60000
	},
	{
	"epoch": 0.54,
	"eval_accuracy": 0.4528289674654375,
	"eval_loss": 2.8535568714141846,
	"eval_runtime": 43.1874,
	"eval_samples_per_second": 150.113,
	"eval_steps_per_second": 2.524,
	"step": 60000
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013741520012318058,
	"loss": 2.8396,
	"step": 60100
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013714347822148956,
	"loss": 2.8395,
	"step": 60200
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013687447353881546,
	"loss": 2.8325,
	"step": 60300
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013660275163712444,
	"loss": 2.8412,
	"step": 60400
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013633102973543344,
	"loss": 2.8392,
	"step": 60500
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013605930783374242,
	"loss": 2.843,
	"step": 60600
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0001357875859320514,
	"loss": 2.8337,
	"step": 60700
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013551586403036037,
	"loss": 2.8452,
	"step": 60800
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013524414212866937,
	"loss": 2.8448,
	"step": 60900
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013497242022697835,
	"loss": 2.837,
	"step": 61000
	},
	{
	"epoch": 0.55,
	"eval_accuracy": 0.4534701617805845,
	"eval_loss": 2.851900577545166,
	"eval_runtime": 43.1282,
	"eval_samples_per_second": 150.319,
	"eval_steps_per_second": 2.527,
	"step": 61000
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013470069832528735,
	"loss": 2.8331,
	"step": 61100
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013442897642359632,
	"loss": 2.832,
	"step": 61200
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0001341572545219053,
	"loss": 2.8255,
	"step": 61300
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013388553262021427,
	"loss": 2.8327,
	"step": 61400
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013361381071852328,
	"loss": 2.8386,
	"step": 61500
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013334208881683225,
	"loss": 2.8315,
	"step": 61600
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013307036691514125,
	"loss": 2.824,
	"step": 61700
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013279864501345023,
	"loss": 2.8296,
	"step": 61800
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0001325269231117592,
	"loss": 2.8378,
	"step": 61900
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0001322579184290851,
	"loss": 2.8427,
	"step": 62000
	},
	{
	"epoch": 0.56,
	"eval_accuracy": 0.4535663409278566,
	"eval_loss": 2.8492891788482666,
	"eval_runtime": 43.4858,
	"eval_samples_per_second": 149.083,
	"eval_steps_per_second": 2.507,
	"step": 62000
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013198619652739408,
	"loss": 2.8329,
	"step": 62100
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013171447462570306,
	"loss": 2.8389,
	"step": 62200
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013144275272401206,
	"loss": 2.8358,
	"step": 62300
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013117103082232104,
	"loss": 2.8369,
	"step": 62400
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00013089930892063,
	"loss": 2.8294,
	"step": 62500
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.000130627587018939,
	"loss": 2.834,
	"step": 62600
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.000130355865117248,
	"loss": 2.8414,
	"step": 62700
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00013008414321555696,
	"loss": 2.8384,
	"step": 62800
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012981242131386597,
	"loss": 2.8384,
	"step": 62900
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012954069941217494,
	"loss": 2.8365,
	"step": 63000
	},
	{
	"epoch": 0.57,
	"eval_accuracy": 0.45409986299008265,
	"eval_loss": 2.8467965126037598,
	"eval_runtime": 47.1796,
	"eval_samples_per_second": 137.411,
	"eval_steps_per_second": 2.31,
	"step": 63000
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012926897751048392,
	"loss": 2.8281,
	"step": 63100
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012899725560879292,
	"loss": 2.8197,
	"step": 63200
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0001287255337071019,
	"loss": 2.8233,
	"step": 63300
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012845652902442777,
	"loss": 2.828,
	"step": 63400
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012818480712273677,
	"loss": 2.8334,
	"step": 63500
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012791308522104578,
	"loss": 2.8332,
	"step": 63600
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012764136331935475,
	"loss": 2.8279,
	"step": 63700
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012736964141766373,
	"loss": 2.8271,
	"step": 63800
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0001270979195159727,
	"loss": 2.8306,
	"step": 63900
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012682619761428168,
	"loss": 2.8327,
	"step": 64000
	},
	{
	"epoch": 0.58,
	"eval_accuracy": 0.4538736302788893,
	"eval_loss": 2.8447225093841553,
	"eval_runtime": 44.4204,
	"eval_samples_per_second": 145.946,
	"eval_steps_per_second": 2.454,
	"step": 64000
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012655447571259068,
	"loss": 2.836,
	"step": 64100
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012628275381089965,
	"loss": 2.8337,
	"step": 64200
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012601103190920866,
	"loss": 2.8333,
	"step": 64300
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012573931000751763,
	"loss": 2.8298,
	"step": 64400
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0001254675881058266,
	"loss": 2.8285,
	"step": 64500
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012519586620413558,
	"loss": 2.8252,
	"step": 64600
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012492414430244459,
	"loss": 2.8227,
	"step": 64700
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012465242240075356,
	"loss": 2.8286,
	"step": 64800
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012438070049906256,
	"loss": 2.8218,
	"step": 64900
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012410897859737154,
	"loss": 2.8289,
	"step": 65000
	},
	{
	"epoch": 0.59,
	"eval_accuracy": 0.4545583774154425,
	"eval_loss": 2.838773012161255,
	"eval_runtime": 43.8892,
	"eval_samples_per_second": 147.713,
	"eval_steps_per_second": 2.484,
	"step": 65000
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0001238372566956805,
	"loss": 2.8198,
	"step": 65100
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0001235655347939895,
	"loss": 2.8207,
	"step": 65200
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012329381289229846,
	"loss": 2.8296,
	"step": 65300
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012302209099060747,
	"loss": 2.8293,
	"step": 65400
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012275036908891647,
	"loss": 2.8188,
	"step": 65500
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012247864718722544,
	"loss": 2.819,
	"step": 65600
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012220692528553442,
	"loss": 2.8219,
	"step": 65700
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0001219352033838434,
	"loss": 2.8199,
	"step": 65800
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.0001216634814821524,
	"loss": 2.8282,
	"step": 65900
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012139175958046137,
	"loss": 2.8166,
	"step": 66000
	},
	{
	"epoch": 0.6,
	"eval_accuracy": 0.45473863770404044,
	"eval_loss": 2.834634780883789,
	"eval_runtime": 43.1108,
	"eval_samples_per_second": 150.38,
	"eval_steps_per_second": 2.528,
	"step": 66000
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012112003767877036,
	"loss": 2.8226,
	"step": 66100
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012084831577707934,
	"loss": 2.8135,
	"step": 66200
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012057659387538832,
	"loss": 2.8134,
	"step": 66300
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.0001203048719736973,
	"loss": 2.8214,
	"step": 66400
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.0001200358672910232,
	"loss": 2.8142,
	"step": 66500
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011976414538933219,
	"loss": 2.8196,
	"step": 66600
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011949242348764117,
	"loss": 2.8145,
	"step": 66700
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011922070158595016,
	"loss": 2.8093,
	"step": 66800
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011894897968425913,
	"loss": 2.8168,
	"step": 66900
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011867725778256813,
	"loss": 2.8171,
	"step": 67000
	},
	{
	"epoch": 0.61,
	"eval_accuracy": 0.45580810142968187,
	"eval_loss": 2.8293869495391846,
	"eval_runtime": 44.4137,
	"eval_samples_per_second": 145.968,
	"eval_steps_per_second": 2.454,
	"step": 67000
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011840553588087711,
	"loss": 2.8123,
	"step": 67100
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0001181338139791861,
	"loss": 2.8121,
	"step": 67200
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011786209207749507,
	"loss": 2.8083,
	"step": 67300
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011759037017580405,
	"loss": 2.8156,
	"step": 67400
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011731864827411304,
	"loss": 2.8225,
	"step": 67500
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011704692637242204,
	"loss": 2.8109,
	"step": 67600
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011677520447073102,
	"loss": 2.8137,
	"step": 67700
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0001165061997880569,
	"loss": 2.8097,
	"step": 67800
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011623447788636588,
	"loss": 2.8099,
	"step": 67900
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011596275598467488,
	"loss": 2.8184,
	"step": 68000
	},
	{
	"epoch": 0.61,
	"eval_accuracy": 0.4556344950443543,
	"eval_loss": 2.826944589614868,
	"eval_runtime": 43.7297,
	"eval_samples_per_second": 148.252,
	"eval_steps_per_second": 2.493,
	"step": 68000
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011569103408298386,
	"loss": 2.8164,
	"step": 68100
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011541931218129285,
	"loss": 2.8137,
	"step": 68200
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011514759027960182,
	"loss": 2.8168,
	"step": 68300
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011487858559692771,
	"loss": 2.8156,
	"step": 68400
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011460686369523672,
	"loss": 2.8114,
	"step": 68500
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011433514179354569,
	"loss": 2.8066,
	"step": 68600
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011406341989185468,
	"loss": 2.8124,
	"step": 68700
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011379169799016366,
	"loss": 2.8093,
	"step": 68800
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011351997608847263,
	"loss": 2.8131,
	"step": 68900
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011324825418678162,
	"loss": 2.8102,
	"step": 69000
	},
	{
	"epoch": 0.62,
	"eval_accuracy": 0.45632710588477254,
	"eval_loss": 2.8243494033813477,
	"eval_runtime": 42.7646,
	"eval_samples_per_second": 151.597,
	"eval_steps_per_second": 2.549,
	"step": 69000
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011297653228509062,
	"loss": 2.8064,
	"step": 69100
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.0001127048103833996,
	"loss": 2.8075,
	"step": 69200
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011243308848170857,
	"loss": 2.8146,
	"step": 69300
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011216136658001756,
	"loss": 2.8166,
	"step": 69400
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011188964467832654,
	"loss": 2.8073,
	"step": 69500
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011161792277663554,
	"loss": 2.8116,
	"step": 69600
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011134620087494451,
	"loss": 2.807,
	"step": 69700
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.0001110744789732535,
	"loss": 2.8066,
	"step": 69800
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011080547429057939,
	"loss": 2.8101,
	"step": 69900
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011053375238888837,
	"loss": 2.8153,
	"step": 70000
	},
	{
	"epoch": 0.63,
	"eval_accuracy": 0.45636279500231375,
	"eval_loss": 2.821134328842163,
	"eval_runtime": 42.931,
	"eval_samples_per_second": 151.01,
	"eval_steps_per_second": 2.539,
	"step": 70000
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011026203048719737,
	"loss": 2.8109,
	"step": 70100
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00010999030858550635,
	"loss": 2.8025,
	"step": 70200
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010971858668381533,
	"loss": 2.8055,
	"step": 70300
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010944686478212431,
	"loss": 2.8047,
	"step": 70400
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010917514288043329,
	"loss": 2.8095,
	"step": 70500
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010890342097874227,
	"loss": 2.805,
	"step": 70600
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010863169907705128,
	"loss": 2.8079,
	"step": 70700
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010835997717536025,
	"loss": 2.8071,
	"step": 70800
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010809097249268614,
	"loss": 2.8016,
	"step": 70900
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010781925059099512,
	"loss": 2.8035,
	"step": 71000
	},
	{
	"epoch": 0.64,
	"eval_accuracy": 0.4569090199707833,
	"eval_loss": 2.8184897899627686,
	"eval_runtime": 43.5955,
	"eval_samples_per_second": 148.708,
	"eval_steps_per_second": 2.5,
	"step": 71000
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010755024590832102,
	"loss": 2.8002,
	"step": 71100
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010727852400663001,
	"loss": 2.8186,
	"step": 71200
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010700680210493899,
	"loss": 2.8036,
	"step": 71300
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010673508020324797,
	"loss": 2.8077,
	"step": 71400
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010646335830155695,
	"loss": 2.8111,
	"step": 71500
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010619163639986595,
	"loss": 2.8018,
	"step": 71600
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010591991449817493,
	"loss": 2.8079,
	"step": 71700
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010564819259648392,
	"loss": 2.8124,
	"step": 71800
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010537647069479289,
	"loss": 2.807,
	"step": 71900
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010510474879310187,
	"loss": 2.8042,
	"step": 72000
	},
	{
	"epoch": 0.65,
	"eval_accuracy": 0.4569186983755403,
	"eval_loss": 2.8206183910369873,
	"eval_runtime": 44.1793,
	"eval_samples_per_second": 146.743,
	"eval_steps_per_second": 2.467,
	"step": 72000
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010483302689141086,
	"loss": 2.8066,
	"step": 72100
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010456130498971986,
	"loss": 2.8088,
	"step": 72200
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010428958308802883,
	"loss": 2.8036,
	"step": 72300
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010401786118633781,
	"loss": 2.7985,
	"step": 72400
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0001037461392846468,
	"loss": 2.7981,
	"step": 72500
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010347441738295577,
	"loss": 2.7993,
	"step": 72600
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010320269548126476,
	"loss": 2.7999,
	"step": 72700
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010293097357957375,
	"loss": 2.8009,
	"step": 72800
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010265925167788274,
	"loss": 2.7943,
	"step": 72900
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010238752977619171,
	"loss": 2.7984,
	"step": 73000
	},
	{
	"epoch": 0.66,
	"eval_accuracy": 0.457420160722009,
	"eval_loss": 2.8137617111206055,
	"eval_runtime": 43.507,
	"eval_samples_per_second": 149.01,
	"eval_steps_per_second": 2.505,
	"step": 73000
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0001021158078745007,
	"loss": 2.7913,
	"step": 73100
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010184408597280968,
	"loss": 2.8016,
	"step": 73200
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010157236407111868,
	"loss": 2.7988,
	"step": 73300
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010130064216942766,
	"loss": 2.792,
	"step": 73400
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010103163748675355,
	"loss": 2.7926,
	"step": 73500
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00010075991558506253,
	"loss": 2.7796,
	"step": 73600
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00010048819368337151,
	"loss": 2.7971,
	"step": 73700
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00010021647178168051,
	"loss": 2.7974,
	"step": 73800
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.994474987998949e-05,
	"loss": 2.7951,
	"step": 73900
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.967302797829848e-05,
	"loss": 2.7883,
	"step": 74000
	},
	{
	"epoch": 0.67,
	"eval_accuracy": 0.45740261861338705,
	"eval_loss": 2.8111917972564697,
	"eval_runtime": 44.0953,
	"eval_samples_per_second": 147.023,
	"eval_steps_per_second": 2.472,
	"step": 74000
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.940130607660745e-05,
	"loss": 2.7898,
	"step": 74100
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.912958417491643e-05,
	"loss": 2.7914,
	"step": 74200
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.885786227322542e-05,
	"loss": 2.798,
	"step": 74300
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.85861403715344e-05,
	"loss": 2.7938,
	"step": 74400
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.83144184698434e-05,
	"loss": 2.7927,
	"step": 74500
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.804269656815237e-05,
	"loss": 2.7967,
	"step": 74600
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.777369188547826e-05,
	"loss": 2.7933,
	"step": 74700
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.750196998378726e-05,
	"loss": 2.7913,
	"step": 74800
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.723024808209624e-05,
	"loss": 2.7924,
	"step": 74900
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.695852618040523e-05,
	"loss": 2.7962,
	"step": 75000
	},
	{
	"epoch": 0.68,
	"eval_accuracy": 0.4583686443881887,
	"eval_loss": 2.8055942058563232,
	"eval_runtime": 44.8912,
	"eval_samples_per_second": 144.416,
	"eval_steps_per_second": 2.428,
	"step": 75000
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.66868042787142e-05,
	"loss": 2.7848,
	"step": 75100
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.641779959604009e-05,
	"loss": 2.7935,
	"step": 75200
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.61460776943491e-05,
	"loss": 2.7961,
	"step": 75300
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.587435579265807e-05,
	"loss": 2.788,
	"step": 75400
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.560263389096706e-05,
	"loss": 2.7934,
	"step": 75500
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.533091198927603e-05,
	"loss": 2.7888,
	"step": 75600
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.505919008758501e-05,
	"loss": 2.7954,
	"step": 75700
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.4787468185894e-05,
	"loss": 2.7934,
	"step": 75800
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.451574628420299e-05,
	"loss": 2.7867,
	"step": 75900
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.424402438251197e-05,
	"loss": 2.7937,
	"step": 76000
	},
	{
	"epoch": 0.69,
	"eval_accuracy": 0.4582416153257539,
	"eval_loss": 2.8068454265594482,
	"eval_runtime": 44.3778,
	"eval_samples_per_second": 146.087,
	"eval_steps_per_second": 2.456,
	"step": 76000
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.397230248082095e-05,
	"loss": 2.7933,
	"step": 76100
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.370058057912994e-05,
	"loss": 2.7876,
	"step": 76200
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.342885867743891e-05,
	"loss": 2.7885,
	"step": 76300
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.31571367757479e-05,
	"loss": 2.7859,
	"step": 76400
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.288541487405689e-05,
	"loss": 2.7867,
	"step": 76500
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.261369297236588e-05,
	"loss": 2.7882,
	"step": 76600
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.234197107067486e-05,
	"loss": 2.7874,
	"step": 76700
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.207024916898384e-05,
	"loss": 2.79,
	"step": 76800
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.179852726729282e-05,
	"loss": 2.7828,
	"step": 76900
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.152680536560182e-05,
	"loss": 2.7853,
	"step": 77000
	},
	{
	"epoch": 0.7,
	"eval_accuracy": 0.4587721128864935,
	"eval_loss": 2.801090955734253,
	"eval_runtime": 43.1479,
	"eval_samples_per_second": 150.251,
	"eval_steps_per_second": 2.526,
	"step": 77000
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.12550834639108e-05,
	"loss": 2.7861,
	"step": 77100
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.098336156221979e-05,
	"loss": 2.793,
	"step": 77200
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.071163966052876e-05,
	"loss": 2.7914,
	"step": 77300
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.043991775883774e-05,
	"loss": 2.7774,
	"step": 77400
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.016819585714673e-05,
	"loss": 2.7791,
	"step": 77500
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.989647395545573e-05,
	"loss": 2.7837,
	"step": 77600
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.96247520537647e-05,
	"loss": 2.779,
	"step": 77700
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.935303015207368e-05,
	"loss": 2.7807,
	"step": 77800
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.908130825038267e-05,
	"loss": 2.7832,
	"step": 77900
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.880958634869164e-05,
	"loss": 2.7798,
	"step": 78000
	},
	{
	"epoch": 0.71,
	"eval_accuracy": 0.4596697849276993,
	"eval_loss": 2.795370578765869,
	"eval_runtime": 43.9941,
	"eval_samples_per_second": 147.361,
	"eval_steps_per_second": 2.478,
	"step": 78000
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.853786444700063e-05,
	"loss": 2.7851,
	"step": 78100
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.826885976432654e-05,
	"loss": 2.7819,
	"step": 78200
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.799713786263551e-05,
	"loss": 2.7767,
	"step": 78300
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.77254159609445e-05,
	"loss": 2.7745,
	"step": 78400
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.745369405925347e-05,
	"loss": 2.7807,
	"step": 78500
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.718197215756246e-05,
	"loss": 2.7828,
	"step": 78600
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.691025025587145e-05,
	"loss": 2.7768,
	"step": 78700
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.663852835418044e-05,
	"loss": 2.7749,
	"step": 78800
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.636680645248942e-05,
	"loss": 2.7782,
	"step": 78900
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.60950845507984e-05,
	"loss": 2.7851,
	"step": 79000
	},
	{
	"epoch": 0.71,
	"eval_accuracy": 0.4597998384916206,
	"eval_loss": 2.7913172245025635,
	"eval_runtime": 43.6998,
	"eval_samples_per_second": 148.353,
	"eval_steps_per_second": 2.494,
	"step": 79000
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.582336264910738e-05,
	"loss": 2.7722,
	"step": 79100
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.555435796643328e-05,
	"loss": 2.7695,
	"step": 79200
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.528535328375917e-05,
	"loss": 2.7732,
	"step": 79300
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.501363138206815e-05,
	"loss": 2.7714,
	"step": 79400
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.474190948037714e-05,
	"loss": 2.7739,
	"step": 79500
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.447018757868613e-05,
	"loss": 2.7733,
	"step": 79600
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.419846567699512e-05,
	"loss": 2.773,
	"step": 79700
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.392674377530409e-05,
	"loss": 2.7754,
	"step": 79800
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.365502187361308e-05,
	"loss": 2.7817,
	"step": 79900
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.338329997192206e-05,
	"loss": 2.7831,
	"step": 80000
	},
	{
	"epoch": 0.72,
	"eval_accuracy": 0.46004845251381443,
	"eval_loss": 2.78973126411438,
	"eval_runtime": 44.9439,
	"eval_samples_per_second": 144.247,
	"eval_steps_per_second": 2.425,
	"step": 80000
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.311157807023106e-05,
	"loss": 2.7739,
	"step": 80100
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.283985616854003e-05,
	"loss": 2.781,
	"step": 80200
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.256813426684902e-05,
	"loss": 2.7773,
	"step": 80300
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.2296412365158e-05,
	"loss": 2.7688,
	"step": 80400
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.202469046346699e-05,
	"loss": 2.7765,
	"step": 80500
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.175568578079289e-05,
	"loss": 2.7735,
	"step": 80600
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.148396387910187e-05,
	"loss": 2.7692,
	"step": 80700
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.121224197741084e-05,
	"loss": 2.7661,
	"step": 80800
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.094052007571983e-05,
	"loss": 2.7714,
	"step": 80900
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.06687981740288e-05,
	"loss": 2.7773,
	"step": 81000
	},
	{
	"epoch": 0.73,
	"eval_accuracy": 0.4603297311520629,
	"eval_loss": 2.786165475845337,
	"eval_runtime": 45.3636,
	"eval_samples_per_second": 142.912,
	"eval_steps_per_second": 2.403,
	"step": 81000
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.03970762723378e-05,
	"loss": 2.77,
	"step": 81100
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.012535437064678e-05,
	"loss": 2.772,
	"step": 81200
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.985363246895577e-05,
	"loss": 2.7751,
	"step": 81300
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.958191056726475e-05,
	"loss": 2.7705,
	"step": 81400
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.931018866557374e-05,
	"loss": 2.7711,
	"step": 81500
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.903846676388271e-05,
	"loss": 2.7666,
	"step": 81600
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.87667448621917e-05,
	"loss": 2.7678,
	"step": 81700
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.84977401795176e-05,
	"loss": 2.7707,
	"step": 81800
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.822601827782658e-05,
	"loss": 2.7624,
	"step": 81900
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.795429637613557e-05,
	"loss": 2.7688,
	"step": 82000
	},
	{
	"epoch": 0.74,
	"eval_accuracy": 0.4608795855223163,
	"eval_loss": 2.7835707664489746,
	"eval_runtime": 44.1206,
	"eval_samples_per_second": 146.938,
	"eval_steps_per_second": 2.47,
	"step": 82000
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.768257447444454e-05,
	"loss": 2.7652,
	"step": 82100
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.741085257275354e-05,
	"loss": 2.763,
	"step": 82200
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.713913067106252e-05,
	"loss": 2.7718,
	"step": 82300
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.686740876937151e-05,
	"loss": 2.774,
	"step": 82400
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.659568686768048e-05,
	"loss": 2.7624,
	"step": 82500
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.632396496598946e-05,
	"loss": 2.7672,
	"step": 82600
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.605224306429845e-05,
	"loss": 2.7646,
	"step": 82700
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.578052116260744e-05,
	"loss": 2.7643,
	"step": 82800
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.550879926091643e-05,
	"loss": 2.7636,
	"step": 82900
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.523979457824232e-05,
	"loss": 2.7658,
	"step": 83000
	},
	{
	"epoch": 0.75,
	"eval_accuracy": 0.4610453282037788,
	"eval_loss": 2.7798171043395996,
	"eval_runtime": 44.7143,
	"eval_samples_per_second": 144.987,
	"eval_steps_per_second": 2.438,
	"step": 83000
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.49680726765513e-05,
	"loss": 2.7694,
	"step": 83100
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.469635077486028e-05,
	"loss": 2.7662,
	"step": 83200
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.442734609218618e-05,
	"loss": 2.7624,
	"step": 83300
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.415562419049516e-05,
	"loss": 2.7632,
	"step": 83400
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.388390228880415e-05,
	"loss": 2.7697,
	"step": 83500
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.361218038711314e-05,
	"loss": 2.7663,
	"step": 83600
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.334045848542211e-05,
	"loss": 2.7623,
	"step": 83700
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.306873658373109e-05,
	"loss": 2.7685,
	"step": 83800
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.279701468204009e-05,
	"loss": 2.7702,
	"step": 83900
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.252529278034907e-05,
	"loss": 2.7622,
	"step": 84000
	},
	{
	"epoch": 0.76,
	"eval_accuracy": 0.4611511857558078,
	"eval_loss": 2.781484603881836,
	"eval_runtime": 43.3638,
	"eval_samples_per_second": 149.503,
	"eval_steps_per_second": 2.514,
	"step": 84000
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.225357087865804e-05,
	"loss": 2.7672,
	"step": 84100
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.198184897696703e-05,
	"loss": 2.7652,
	"step": 84200
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.171012707527602e-05,
	"loss": 2.7671,
	"step": 84300
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.143840517358501e-05,
	"loss": 2.7621,
	"step": 84400
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.11694004909109e-05,
	"loss": 2.7662,
	"step": 84500
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.089767858921989e-05,
	"loss": 2.7684,
	"step": 84600
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.062595668752886e-05,
	"loss": 2.7662,
	"step": 84700
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.035423478583785e-05,
	"loss": 2.7638,
	"step": 84800
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.008251288414684e-05,
	"loss": 2.7639,
	"step": 84900
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.981079098245581e-05,
	"loss": 2.7691,
	"step": 85000
	},
	{
	"epoch": 0.77,
	"eval_accuracy": 0.46120986108464673,
	"eval_loss": 2.7783455848693848,
	"eval_runtime": 43.5919,
	"eval_samples_per_second": 148.72,
	"eval_steps_per_second": 2.5,
	"step": 85000
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.95390690807648e-05,
	"loss": 2.7649,
	"step": 85100
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.926734717907379e-05,
	"loss": 2.7638,
	"step": 85200
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.899562527738277e-05,
	"loss": 2.7675,
	"step": 85300
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.872390337569176e-05,
	"loss": 2.7657,
	"step": 85400
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.845218147400074e-05,
	"loss": 2.7612,
	"step": 85500
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.818045957230972e-05,
	"loss": 2.7682,
	"step": 85600
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.79087376706187e-05,
	"loss": 2.7588,
	"step": 85700
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.763701576892768e-05,
	"loss": 2.765,
	"step": 85800
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.736529386723667e-05,
	"loss": 2.7556,
	"step": 85900
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.709357196554565e-05,
	"loss": 2.7579,
	"step": 86000
	},
	{
	"epoch": 0.78,
	"eval_accuracy": 0.4619333218402277,
	"eval_loss": 2.7711987495422363,
	"eval_runtime": 43.3357,
	"eval_samples_per_second": 149.6,
	"eval_steps_per_second": 2.515,
	"step": 86000
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.682185006385464e-05,
	"loss": 2.7538,
	"step": 86100
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.655012816216363e-05,
	"loss": 2.7596,
	"step": 86200
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.62784062604726e-05,
	"loss": 2.7512,
	"step": 86300
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.600668435878159e-05,
	"loss": 2.7559,
	"step": 86400
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.573496245709058e-05,
	"loss": 2.7574,
	"step": 86500
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.546324055539957e-05,
	"loss": 2.7614,
	"step": 86600
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.519423587272546e-05,
	"loss": 2.7501,
	"step": 86700
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.492251397103445e-05,
	"loss": 2.7488,
	"step": 86800
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.465079206934342e-05,
	"loss": 2.7497,
	"step": 86900
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.437907016765241e-05,
	"loss": 2.7614,
	"step": 87000
	},
	{
	"epoch": 0.79,
	"eval_accuracy": 0.46246986840394033,
	"eval_loss": 2.7673110961914062,
	"eval_runtime": 43.038,
	"eval_samples_per_second": 150.634,
	"eval_steps_per_second": 2.533,
	"step": 87000
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.41073482659614e-05,
	"loss": 2.7544,
	"step": 87100
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.383834358328728e-05,
	"loss": 2.7546,
	"step": 87200
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.356662168159627e-05,
	"loss": 2.7564,
	"step": 87300
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.329489977990525e-05,
	"loss": 2.759,
	"step": 87400
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.302317787821423e-05,
	"loss": 2.7586,
	"step": 87500
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.275145597652322e-05,
	"loss": 2.7546,
	"step": 87600
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.247973407483221e-05,
	"loss": 2.7548,
	"step": 87700
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.220801217314118e-05,
	"loss": 2.7527,
	"step": 87800
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.193629027145017e-05,
	"loss": 2.7607,
	"step": 87900
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.166456836975916e-05,
	"loss": 2.7592,
	"step": 88000
	},
	{
	"epoch": 0.8,
	"eval_accuracy": 0.46232166783109974,
	"eval_loss": 2.7691469192504883,
	"eval_runtime": 43.5697,
	"eval_samples_per_second": 148.796,
	"eval_steps_per_second": 2.502,
	"step": 88000
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.139284646806815e-05,
	"loss": 2.7481,
	"step": 88100
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.112112456637712e-05,
	"loss": 2.7579,
	"step": 88200
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.0849402664686106e-05,
	"loss": 2.7559,
	"step": 88300
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.05776807629951e-05,
	"loss": 2.7515,
	"step": 88400
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.030595886130408e-05,
	"loss": 2.7524,
	"step": 88500
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.003423695961306e-05,
	"loss": 2.7395,
	"step": 88600
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.976251505792205e-05,
	"loss": 2.7438,
	"step": 88700
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.949079315623103e-05,
	"loss": 2.7468,
	"step": 88800
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.921907125454001e-05,
	"loss": 2.7423,
	"step": 88900
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.8947349352849e-05,
	"loss": 2.7551,
	"step": 89000
	},
	{
	"epoch": 0.8,
	"eval_accuracy": 0.4633808482516869,
	"eval_loss": 2.760658025741577,
	"eval_runtime": 43.7777,
	"eval_samples_per_second": 148.089,
	"eval_steps_per_second": 2.49,
	"step": 89000
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.867562745115798e-05,
	"loss": 2.7352,
	"step": 89100
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.8403905549466965e-05,
	"loss": 2.751,
	"step": 89200
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.813490086679286e-05,
	"loss": 2.7456,
	"step": 89300
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.7863178965101844e-05,
	"loss": 2.7491,
	"step": 89400
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.759145706341083e-05,
	"loss": 2.7477,
	"step": 89500
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.7319735161719815e-05,
	"loss": 2.7431,
	"step": 89600
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.70480132600288e-05,
	"loss": 2.7406,
	"step": 89700
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.6776291358337786e-05,
	"loss": 2.7444,
	"step": 89800
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.650456945664677e-05,
	"loss": 2.7437,
	"step": 89900
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.623284755495574e-05,
	"loss": 2.7397,
	"step": 90000
	},
	{
	"epoch": 0.81,
	"eval_accuracy": 0.4636597072887461,
	"eval_loss": 2.7578768730163574,
	"eval_runtime": 43.3807,
	"eval_samples_per_second": 149.444,
	"eval_steps_per_second": 2.513,
	"step": 90000
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.596112565326473e-05,
	"loss": 2.7456,
	"step": 90100
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.5689403751573714e-05,
	"loss": 2.7393,
	"step": 90200
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.54176818498827e-05,
	"loss": 2.74,
	"step": 90300
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.5145959948191685e-05,
	"loss": 2.7411,
	"step": 90400
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.487695526551758e-05,
	"loss": 2.747,
	"step": 90500
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.4605233363826564e-05,
	"loss": 2.741,
	"step": 90600
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.433622868115246e-05,
	"loss": 2.7441,
	"step": 90700
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.406450677946144e-05,
	"loss": 2.7447,
	"step": 90800
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.3792784877770425e-05,
	"loss": 2.7517,
	"step": 90900
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.3521062976079414e-05,
	"loss": 2.7357,
	"step": 91000
	},
	{
	"epoch": 0.82,
	"eval_accuracy": 0.4636022417605018,
	"eval_loss": 2.758023738861084,
	"eval_runtime": 43.2538,
	"eval_samples_per_second": 149.883,
	"eval_steps_per_second": 2.52,
	"step": 91000
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.3249341074388396e-05,
	"loss": 2.7429,
	"step": 91100
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.297761917269738e-05,
	"loss": 2.7445,
	"step": 91200
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.270589727100637e-05,
	"loss": 2.7473,
	"step": 91300
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.243417536931535e-05,
	"loss": 2.7404,
	"step": 91400
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.216245346762434e-05,
	"loss": 2.7401,
	"step": 91500
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.189073156593331e-05,
	"loss": 2.7441,
	"step": 91600
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1619009664242295e-05,
	"loss": 2.737,
	"step": 91700
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1347287762551284e-05,
	"loss": 2.7337,
	"step": 91800
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1075565860860266e-05,
	"loss": 2.7422,
	"step": 91900
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.080384395916925e-05,
	"loss": 2.7452,
	"step": 92000
	},
	{
	"epoch": 0.83,
	"eval_accuracy": 0.46426944678843307,
	"eval_loss": 2.751744031906128,
	"eval_runtime": 44.8905,
	"eval_samples_per_second": 144.418,
	"eval_steps_per_second": 2.428,
	"step": 92000
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.0532122057478237e-05,
	"loss": 2.7387,
	"step": 92100
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.026311737480413e-05,
	"loss": 2.7342,
	"step": 92200
	},
	{
	"epoch": 0.83,
	"learning_rate": 4.9991395473113116e-05,
	"loss": 2.7349,
	"step": 92300
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.97196735714221e-05,
	"loss": 2.7388,
	"step": 92400
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.944795166973108e-05,
	"loss": 2.7397,
	"step": 92500
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.917622976804007e-05,
	"loss": 2.7352,
	"step": 92600
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.890450786634905e-05,
	"loss": 2.7392,
	"step": 92700
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.863278596465803e-05,
	"loss": 2.7419,
	"step": 92800
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.836106406296702e-05,
	"loss": 2.738,
	"step": 92900
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.8089342161276004e-05,
	"loss": 2.7418,
	"step": 93000
	},
	{
	"epoch": 0.84,
	"eval_accuracy": 0.46412548051767366,
	"eval_loss": 2.7533059120178223,
	"eval_runtime": 43.1643,
	"eval_samples_per_second": 150.193,
	"eval_steps_per_second": 2.525,
	"step": 93000
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.781762025958498e-05,
	"loss": 2.7372,
	"step": 93100
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.7545898357893974e-05,
	"loss": 2.7369,
	"step": 93200
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.727417645620295e-05,
	"loss": 2.7331,
	"step": 93300
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.700245455451193e-05,
	"loss": 2.7379,
	"step": 93400
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.673073265282092e-05,
	"loss": 2.7341,
	"step": 93500
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.64590107511299e-05,
	"loss": 2.7359,
	"step": 93600
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.618728884943889e-05,
	"loss": 2.737,
	"step": 93700
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.5915566947747873e-05,
	"loss": 2.7343,
	"step": 93800
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.564656226507377e-05,
	"loss": 2.7346,
	"step": 93900
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.537484036338275e-05,
	"loss": 2.7379,
	"step": 94000
	},
	{
	"epoch": 0.85,
	"eval_accuracy": 0.46473280041617143,
	"eval_loss": 2.748091697692871,
	"eval_runtime": 43.4169,
	"eval_samples_per_second": 149.32,
	"eval_steps_per_second": 2.511,
	"step": 94000
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.5103118461691735e-05,
	"loss": 2.7341,
	"step": 94100
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.4831396560000724e-05,
	"loss": 2.7431,
	"step": 94200
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.4559674658309706e-05,
	"loss": 2.7347,
	"step": 94300
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.428795275661869e-05,
	"loss": 2.7366,
	"step": 94400
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.4016230854927676e-05,
	"loss": 2.7344,
	"step": 94500
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.374450895323666e-05,
	"loss": 2.7382,
	"step": 94600
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.347278705154564e-05,
	"loss": 2.7279,
	"step": 94700
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.320106514985463e-05,
	"loss": 2.7307,
	"step": 94800
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.292934324816361e-05,
	"loss": 2.7275,
	"step": 94900
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.26603385654895e-05,
	"loss": 2.7308,
	"step": 95000
	},
	{
	"epoch": 0.86,
	"eval_accuracy": 0.4653649212268588,
	"eval_loss": 2.7459847927093506,
	"eval_runtime": 43.1356,
	"eval_samples_per_second": 150.294,
	"eval_steps_per_second": 2.527,
	"step": 95000
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.2388616663798484e-05,
	"loss": 2.7304,
	"step": 95100
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.211689476210747e-05,
	"loss": 2.7334,
	"step": 95200
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.1845172860416455e-05,
	"loss": 2.7324,
	"step": 95300
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.157345095872544e-05,
	"loss": 2.7338,
	"step": 95400
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.1301729057034425e-05,
	"loss": 2.7334,
	"step": 95500
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.103000715534341e-05,
	"loss": 2.7323,
	"step": 95600
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.075828525365239e-05,
	"loss": 2.7338,
	"step": 95700
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.048656335196138e-05,
	"loss": 2.73,
	"step": 95800
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.021484145027036e-05,
	"loss": 2.7367,
	"step": 95900
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.994311954857934e-05,
	"loss": 2.727,
	"step": 96000
	},
	{
	"epoch": 0.87,
	"eval_accuracy": 0.46549799929226665,
	"eval_loss": 2.740849018096924,
	"eval_runtime": 43.5693,
	"eval_samples_per_second": 148.797,
	"eval_steps_per_second": 2.502,
	"step": 96000
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.967139764688833e-05,
	"loss": 2.7257,
	"step": 96100
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.939967574519731e-05,
	"loss": 2.7251,
	"step": 96200
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.9127953843506295e-05,
	"loss": 2.7236,
	"step": 96300
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.8856231941815284e-05,
	"loss": 2.7224,
	"step": 96400
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.8584510040124266e-05,
	"loss": 2.7204,
	"step": 96500
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.831278813843325e-05,
	"loss": 2.7249,
	"step": 96600
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.804106623674224e-05,
	"loss": 2.7214,
	"step": 96700
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.776934433505122e-05,
	"loss": 2.7242,
	"step": 96800
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.74976224333602e-05,
	"loss": 2.7147,
	"step": 96900
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.722861775068609e-05,
	"loss": 2.7282,
	"step": 97000
	},
	{
	"epoch": 0.88,
	"eval_accuracy": 0.4663823635269317,
	"eval_loss": 2.7350597381591797,
	"eval_runtime": 43.4285,
	"eval_samples_per_second": 149.28,
	"eval_steps_per_second": 2.51,
	"step": 97000
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.695689584899508e-05,
	"loss": 2.718,
	"step": 97100
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.668517394730406e-05,
	"loss": 2.7174,
	"step": 97200
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.6413452045613044e-05,
	"loss": 2.7205,
	"step": 97300
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.614173014392203e-05,
	"loss": 2.7195,
	"step": 97400
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.5870008242231015e-05,
	"loss": 2.7172,
	"step": 97500
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.559828634054e-05,
	"loss": 2.7128,
	"step": 97600
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.532656443884898e-05,
	"loss": 2.7192,
	"step": 97700
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.505484253715797e-05,
	"loss": 2.7191,
	"step": 97800
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.478312063546695e-05,
	"loss": 2.7178,
	"step": 97900
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.451139873377593e-05,
	"loss": 2.7133,
	"step": 98000
	},
	{
	"epoch": 0.89,
	"eval_accuracy": 0.46685176615764307,
	"eval_loss": 2.730079412460327,
	"eval_runtime": 43.3235,
	"eval_samples_per_second": 149.642,
	"eval_steps_per_second": 2.516,
	"step": 98000
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.423967683208492e-05,
	"loss": 2.7164,
	"step": 98100
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.39679549303939e-05,
	"loss": 2.7106,
	"step": 98200
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.3696233028702885e-05,
	"loss": 2.715,
	"step": 98300
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.3424511127011874e-05,
	"loss": 2.7091,
	"step": 98400
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.3152789225320856e-05,
	"loss": 2.7093,
	"step": 98500
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.288106732362984e-05,
	"loss": 2.7116,
	"step": 98600
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.260934542193883e-05,
	"loss": 2.7172,
	"step": 98700
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.233762352024781e-05,
	"loss": 2.7072,
	"step": 98800
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.206590161855679e-05,
	"loss": 2.7165,
	"step": 98900
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.179417971686577e-05,
	"loss": 2.7136,
	"step": 99000
	},
	{
	"epoch": 0.9,
	"eval_accuracy": 0.4673356863954899,
	"eval_loss": 2.7250616550445557,
	"eval_runtime": 43.1535,
	"eval_samples_per_second": 150.231,
	"eval_steps_per_second": 2.526,
	"step": 99000
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.152245781517476e-05,
	"loss": 2.7117,
	"step": 99100
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.1250735913483744e-05,
	"loss": 2.7099,
	"step": 99200
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.0979014011792726e-05,
	"loss": 2.715,
	"step": 99300
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.0707292110101715e-05,
	"loss": 2.7119,
	"step": 99400
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.0435570208410697e-05,
	"loss": 2.7136,
	"step": 99500
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.016384830671968e-05,
	"loss": 2.7069,
	"step": 99600
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.9892126405028664e-05,
	"loss": 2.7092,
	"step": 99700
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.962040450333765e-05,
	"loss": 2.7052,
	"step": 99800
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.934868260164663e-05,
	"loss": 2.7099,
	"step": 99900
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.9076960699955617e-05,
	"loss": 2.7108,
	"step": 100000
	},
	{
	"epoch": 0.9,
	"eval_accuracy": 0.46786981335801325,
	"eval_loss": 2.7208478450775146,
	"eval_runtime": 43.4331,
	"eval_samples_per_second": 149.264,
	"eval_steps_per_second": 2.51,
	"step": 100000
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.8807956017281514e-05,
	"loss": 2.7137,
	"step": 100100
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.8536234115590493e-05,
	"loss": 2.7069,
	"step": 100200
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.8264512213899478e-05,
	"loss": 2.698,
	"step": 100300
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.7992790312208464e-05,
	"loss": 2.7027,
	"step": 100400
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.7721068410517446e-05,
	"loss": 2.7062,
	"step": 100500
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.744934650882643e-05,
	"loss": 2.7064,
	"step": 100600
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.718034182615232e-05,
	"loss": 2.7059,
	"step": 100700
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.691133714347822e-05,
	"loss": 2.7146,
	"step": 100800
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.6639615241787204e-05,
	"loss": 2.7036,
	"step": 100900
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.6367893340096186e-05,
	"loss": 2.7051,
	"step": 101000
	},
	{
	"epoch": 0.91,
	"eval_accuracy": 0.46807245495761163,
	"eval_loss": 2.7191717624664307,
	"eval_runtime": 43.4633,
	"eval_samples_per_second": 149.16,
	"eval_steps_per_second": 2.508,
	"step": 101000
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.609617143840517e-05,
	"loss": 2.7007,
	"step": 101100
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.5824449536714157e-05,
	"loss": 2.7024,
	"step": 101200
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.555272763502314e-05,
	"loss": 2.7027,
	"step": 101300
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.5281005733332124e-05,
	"loss": 2.7082,
	"step": 101400
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.500928383164111e-05,
	"loss": 2.7067,
	"step": 101500
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.4737561929950092e-05,
	"loss": 2.7044,
	"step": 101600
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.4465840028259074e-05,
	"loss": 2.705,
	"step": 101700
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.419411812656806e-05,
	"loss": 2.7069,
	"step": 101800
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.3922396224877045e-05,
	"loss": 2.7005,
	"step": 101900
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.3650674323186027e-05,
	"loss": 2.7013,
	"step": 102000
	},
	{
	"epoch": 0.92,
	"eval_accuracy": 0.4687317962816779,
	"eval_loss": 2.7151107788085938,
	"eval_runtime": 43.2863,
	"eval_samples_per_second": 149.77,
	"eval_steps_per_second": 2.518,
	"step": 102000
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.3378952421495012e-05,
	"loss": 2.7029,
	"step": 102100
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.3107230519803998e-05,
	"loss": 2.7007,
	"step": 102200
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.283550861811298e-05,
	"loss": 2.7089,
	"step": 102300
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.2563786716421965e-05,
	"loss": 2.7018,
	"step": 102400
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.229206481473095e-05,
	"loss": 2.6984,
	"step": 102500
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.202306013205684e-05,
	"loss": 2.7011,
	"step": 102600
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.1751338230365826e-05,
	"loss": 2.6968,
	"step": 102700
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.1479616328674812e-05,
	"loss": 2.701,
	"step": 102800
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.1207894426983794e-05,
	"loss": 2.7079,
	"step": 102900
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.093617252529278e-05,
	"loss": 2.6996,
	"step": 103000
	},
	{
	"epoch": 0.93,
	"eval_accuracy": 0.46891387127116774,
	"eval_loss": 2.7129361629486084,
	"eval_runtime": 43.7353,
	"eval_samples_per_second": 148.233,
	"eval_steps_per_second": 2.492,
	"step": 103000
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.0664450623601765e-05,
	"loss": 2.6985,
	"step": 103100
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.0392728721910743e-05,
	"loss": 2.6945,
	"step": 103200
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.012100682021973e-05,
	"loss": 2.6988,
	"step": 103300
	},
	{
	"epoch": 0.93,
	"learning_rate": 1.9849284918528714e-05,
	"loss": 2.701,
	"step": 103400
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.9577563016837696e-05,
	"loss": 2.7044,
	"step": 103500
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.930584111514668e-05,
	"loss": 2.6897,
	"step": 103600
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.9034119213455667e-05,
	"loss": 2.6993,
	"step": 103700
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.8762397311764652e-05,
	"loss": 2.6978,
	"step": 103800
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.8490675410073634e-05,
	"loss": 2.6965,
	"step": 103900
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.821895350838262e-05,
	"loss": 2.6898,
	"step": 104000
	},
	{
	"epoch": 0.94,
	"eval_accuracy": 0.46940021111020375,
	"eval_loss": 2.7084131240844727,
	"eval_runtime": 44.0036,
	"eval_samples_per_second": 147.329,
	"eval_steps_per_second": 2.477,
	"step": 104000
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7947231606691602e-05,
	"loss": 2.6918,
	"step": 104100
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7675509705000587e-05,
	"loss": 2.6941,
	"step": 104200
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7403787803309573e-05,
	"loss": 2.6954,
	"step": 104300
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7132065901618555e-05,
	"loss": 2.7015,
	"step": 104400
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.686034399992754e-05,
	"loss": 2.698,
	"step": 104500
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.6588622098236522e-05,
	"loss": 2.6922,
	"step": 104600
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.6319617415562416e-05,
	"loss": 2.6932,
	"step": 104700
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.60478955138714e-05,
	"loss": 2.6887,
	"step": 104800
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.5776173612180387e-05,
	"loss": 2.6887,
	"step": 104900
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.550445171048937e-05,
	"loss": 2.688,
	"step": 105000
	},
	{
	"epoch": 0.95,
	"eval_accuracy": 0.4697316964731288,
	"eval_loss": 2.705327272415161,
	"eval_runtime": 43.7246,
	"eval_samples_per_second": 148.269,
	"eval_steps_per_second": 2.493,
	"step": 105000
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.5232729808798354e-05,
	"loss": 2.6933,
	"step": 105100
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.4961007907107338e-05,
	"loss": 2.6992,
	"step": 105200
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.468928600541632e-05,
	"loss": 2.6943,
	"step": 105300
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.4417564103725306e-05,
	"loss": 2.6919,
	"step": 105400
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.414584220203429e-05,
	"loss": 2.6961,
	"step": 105500
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.3874120300343275e-05,
	"loss": 2.6942,
	"step": 105600
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.3602398398652258e-05,
	"loss": 2.6936,
	"step": 105700
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.3330676496961242e-05,
	"loss": 2.6851,
	"step": 105800
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.3058954595270228e-05,
	"loss": 2.6929,
	"step": 105900
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.278723269357921e-05,
	"loss": 2.6855,
	"step": 106000
	},
	{
	"epoch": 0.96,
	"eval_accuracy": 0.4701273012675686,
	"eval_loss": 2.701770305633545,
	"eval_runtime": 44.1379,
	"eval_samples_per_second": 146.881,
	"eval_steps_per_second": 2.47,
	"step": 106000
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.2515510791888195e-05,
	"loss": 2.6922,
	"step": 106100
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.2243788890197179e-05,
	"loss": 2.6811,
	"step": 106200
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1972066988506163e-05,
	"loss": 2.6819,
	"step": 106300
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1700345086815148e-05,
	"loss": 2.6882,
	"step": 106400
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.142862318512413e-05,
	"loss": 2.685,
	"step": 106500
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1159618502450025e-05,
	"loss": 2.6841,
	"step": 106600
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.0887896600759008e-05,
	"loss": 2.6806,
	"step": 106700
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0616174699067993e-05,
	"loss": 2.6896,
	"step": 106800
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0344452797376977e-05,
	"loss": 2.6807,
	"step": 106900
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0072730895685962e-05,
	"loss": 2.6852,
	"step": 107000
	},
	{
	"epoch": 0.97,
	"eval_accuracy": 0.4704999198507106,
	"eval_loss": 2.698939085006714,
	"eval_runtime": 43.9086,
	"eval_samples_per_second": 147.648,
	"eval_steps_per_second": 2.482,
	"step": 107000
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.803726213011856e-06,
	"loss": 2.6861,
	"step": 107100
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.53200431132084e-06,
	"loss": 2.6886,
	"step": 107200
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.260282409629823e-06,
	"loss": 2.6872,
	"step": 107300
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.988560507938807e-06,
	"loss": 2.685,
	"step": 107400
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.71683860624779e-06,
	"loss": 2.6892,
	"step": 107500
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.445116704556776e-06,
	"loss": 2.6815,
	"step": 107600
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.17339480286576e-06,
	"loss": 2.6879,
	"step": 107700
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.901672901174744e-06,
	"loss": 2.6822,
	"step": 107800
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.629950999483727e-06,
	"loss": 2.6806,
	"step": 107900
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.360946316809621e-06,
	"loss": 2.689,
	"step": 108000
	},
	{
	"epoch": 0.98,
	"eval_accuracy": 0.4705204864608191,
	"eval_loss": 2.6981818675994873,
	"eval_runtime": 43.1633,
	"eval_samples_per_second": 150.197,
	"eval_steps_per_second": 2.525,
	"step": 108000
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.089224415118606e-06,
	"loss": 2.6872,
	"step": 108100
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.81750251342759e-06,
	"loss": 2.6962,
	"step": 108200
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.545780611736574e-06,
	"loss": 2.6831,
	"step": 108300
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.274058710045559e-06,
	"loss": 2.6877,
	"step": 108400
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.0023368083545415e-06,
	"loss": 2.6956,
	"step": 108500
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.730614906663526e-06,
	"loss": 2.6936,
	"step": 108600
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.458893004972511e-06,
	"loss": 2.6864,
	"step": 108700
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.187171103281495e-06,
	"loss": 2.6838,
	"step": 108800
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.915449201590478e-06,
	"loss": 2.6867,
	"step": 108900
	},
	{
	"epoch": 0.99,
	"learning_rate": 4.643727299899463e-06,
	"loss": 2.6868,
	"step": 109000
	},
	{
	"epoch": 0.99,
	"eval_accuracy": 0.4707297819636878,
	"eval_loss": 2.6994001865386963,
	"eval_runtime": 43.0302,
	"eval_samples_per_second": 150.662,
	"eval_steps_per_second": 2.533,
	"step": 109000
	},
	{
	"epoch": 0.99,
	"learning_rate": 4.3720053982084465e-06,
	"loss": 2.689,
	"step": 109100
	},
	{
	"epoch": 0.99,
	"learning_rate": 4.10028349651743e-06,
	"loss": 2.6831,
	"step": 109200
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.831278813843325e-06,
	"loss": 2.6825,
	"step": 109300
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.559556912152309e-06,
	"loss": 2.6851,
	"step": 109400
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.2878350104612927e-06,
	"loss": 2.6798,
	"step": 109500
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.016113108770277e-06,
	"loss": 2.6773,
	"step": 109600
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.744391207079261e-06,
	"loss": 2.6829,
	"step": 109700
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.472669305388245e-06,
	"loss": 2.6819,
	"step": 109800
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.2036646227141394e-06,
	"loss": 2.6827,
	"step": 109900
	},
	{
	"epoch": 0.99,
	"learning_rate": 1.931942721023123e-06,
	"loss": 2.6901,
	"step": 110000
	},
	{
	"epoch": 0.99,
	"eval_accuracy": 0.47069106834466007,
	"eval_loss": 2.700648307800293,
	"eval_runtime": 43.0535,
	"eval_samples_per_second": 150.58,
	"eval_steps_per_second": 2.532,
	"step": 110000
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.6602208193321073e-06,
	"loss": 2.6809,
	"step": 110100
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.3884989176410914e-06,
	"loss": 2.6866,
	"step": 110200
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.1167770159500756e-06,
	"loss": 2.6863,
	"step": 110300
	},
	{
	"epoch": 1.0,
	"learning_rate": 8.450551142590596e-07,
	"loss": 2.6912,
	"step": 110400
	},
	{
	"epoch": 1.0,
	"learning_rate": 5.733332125680437e-07,
	"loss": 2.6916,
	"step": 110500
	},
	{
	"epoch": 1.0,
	"learning_rate": 3.0161131087702765e-07,
	"loss": 2.684,
	"step": 110600
	},
	{
	"epoch": 1.0,
	"step": 110607,
	"total_flos": 2.899312376933253e+20,
	"train_loss": 2.8584754099769967,
	"train_runtime": 318077.2613,
	"train_samples_per_second": 83.457,
	"train_steps_per_second": 0.348
	}
	],
	"logging_steps": 100,
	"max_steps": 110607,
	"num_train_epochs": 1,
	"save_steps": 11061,
	"total_flos": 2.899312376933253e+20,
	"trial_name": null,
	"trial_params": null
	}