llm_test_bpe / trainer_state.json

load model

8b5e245 almost 2 years ago

176 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"global_step": 119547,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 0.00024811801548585953,
	"loss": 8.8316,
	"step": 100
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.00029403430324938403,
	"loss": 5.464,
	"step": 200
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002998014193905167,
	"loss": 4.4569,
	"step": 300
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002995500515304113,
	"loss": 4.0926,
	"step": 400
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.0002992986836703059,
	"loss": 3.9091,
	"step": 500
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029904731581020046,
	"loss": 3.7998,
	"step": 600
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002987959479500951,
	"loss": 3.7103,
	"step": 700
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002985445800899897,
	"loss": 3.663,
	"step": 800
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029829321222988426,
	"loss": 3.6162,
	"step": 900
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002980418443697789,
	"loss": 3.5725,
	"step": 1000
	},
	{
	"epoch": 0.01,
	"eval_accuracy": 0.37403400092106887,
	"eval_loss": 3.5909957885742188,
	"eval_runtime": 37.0746,
	"eval_samples_per_second": 302.526,
	"eval_steps_per_second": 2.535,
	"step": 1000
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029779047650967344,
	"loss": 3.5506,
	"step": 1100
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029753910864956806,
	"loss": 3.5285,
	"step": 1200
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002972877407894626,
	"loss": 3.5064,
	"step": 1300
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029703637292935724,
	"loss": 3.4907,
	"step": 1400
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002967875187478529,
	"loss": 3.4708,
	"step": 1500
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029653615088774747,
	"loss": 3.456,
	"step": 1600
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002962847830276421,
	"loss": 3.4413,
	"step": 1700
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029603341516753665,
	"loss": 3.4224,
	"step": 1800
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029578204730743127,
	"loss": 3.4184,
	"step": 1900
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029553067944732583,
	"loss": 3.4011,
	"step": 2000
	},
	{
	"epoch": 0.02,
	"eval_accuracy": 0.39113344827973534,
	"eval_loss": 3.4203457832336426,
	"eval_runtime": 36.9935,
	"eval_samples_per_second": 303.189,
	"eval_steps_per_second": 2.541,
	"step": 2000
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029527931158722045,
	"loss": 3.3915,
	"step": 2100
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.000295027943727115,
	"loss": 3.3831,
	"step": 2200
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029477657586700963,
	"loss": 3.3814,
	"step": 2300
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002945252080069042,
	"loss": 3.3734,
	"step": 2400
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029427384014679876,
	"loss": 3.3624,
	"step": 2500
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002940224722866934,
	"loss": 3.3559,
	"step": 2600
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.000293771104426588,
	"loss": 3.3459,
	"step": 2700
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029351973656648256,
	"loss": 3.3462,
	"step": 2800
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002932683687063772,
	"loss": 3.3306,
	"step": 2900
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002930170008462718,
	"loss": 3.335,
	"step": 3000
	},
	{
	"epoch": 0.03,
	"eval_accuracy": 0.39839248205600547,
	"eval_loss": 3.3489201068878174,
	"eval_runtime": 36.3401,
	"eval_samples_per_second": 308.64,
	"eval_steps_per_second": 2.587,
	"step": 3000
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029276563298616636,
	"loss": 3.3239,
	"step": 3100
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.000292514265126061,
	"loss": 3.3132,
	"step": 3200
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029226289726595555,
	"loss": 3.3157,
	"step": 3300
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029201152940585017,
	"loss": 3.3077,
	"step": 3400
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029176016154574473,
	"loss": 3.308,
	"step": 3500
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029150879368563935,
	"loss": 3.2971,
	"step": 3600
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002912574258255339,
	"loss": 3.2953,
	"step": 3700
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029100605796542853,
	"loss": 3.2915,
	"step": 3800
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002907572037839242,
	"loss": 3.289,
	"step": 3900
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029050583592381876,
	"loss": 3.2835,
	"step": 4000
	},
	{
	"epoch": 0.03,
	"eval_accuracy": 0.4028412728722747,
	"eval_loss": 3.306710958480835,
	"eval_runtime": 37.7903,
	"eval_samples_per_second": 296.796,
	"eval_steps_per_second": 2.487,
	"step": 4000
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002902544680637134,
	"loss": 3.2759,
	"step": 4100
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029000310020360794,
	"loss": 3.2803,
	"step": 4200
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002897517323435025,
	"loss": 3.2752,
	"step": 4300
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002895003644833971,
	"loss": 3.28,
	"step": 4400
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002892489966232917,
	"loss": 3.2788,
	"step": 4500
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002889976287631863,
	"loss": 3.2663,
	"step": 4600
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002887462609030809,
	"loss": 3.2647,
	"step": 4700
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002884948930429755,
	"loss": 3.2643,
	"step": 4800
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002882435251828701,
	"loss": 3.2686,
	"step": 4900
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028799215732276467,
	"loss": 3.2477,
	"step": 5000
	},
	{
	"epoch": 0.04,
	"eval_accuracy": 0.4059681332629427,
	"eval_loss": 3.2766220569610596,
	"eval_runtime": 36.7229,
	"eval_samples_per_second": 305.423,
	"eval_steps_per_second": 2.56,
	"step": 5000
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002877407894626593,
	"loss": 3.247,
	"step": 5100
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002874894216025539,
	"loss": 3.2555,
	"step": 5200
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00028723805374244847,
	"loss": 3.2528,
	"step": 5300
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002869866858823431,
	"loss": 3.2441,
	"step": 5400
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028673531802223765,
	"loss": 3.2458,
	"step": 5500
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028648395016213227,
	"loss": 3.2394,
	"step": 5600
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028623258230202683,
	"loss": 3.2464,
	"step": 5700
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028598121444192145,
	"loss": 3.2484,
	"step": 5800
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.000285729846581816,
	"loss": 3.2372,
	"step": 5900
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002854784787217106,
	"loss": 3.2373,
	"step": 6000
	},
	{
	"epoch": 0.05,
	"eval_accuracy": 0.40810372134296335,
	"eval_loss": 3.256094455718994,
	"eval_runtime": 36.3187,
	"eval_samples_per_second": 308.822,
	"eval_steps_per_second": 2.588,
	"step": 6000
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002852271108616052,
	"loss": 3.2314,
	"step": 6100
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00028497825668010086,
	"loss": 3.2393,
	"step": 6200
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002847268888199954,
	"loss": 3.23,
	"step": 6300
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002844780346384911,
	"loss": 3.2317,
	"step": 6400
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002842266667783857,
	"loss": 3.2188,
	"step": 6500
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028397529891828027,
	"loss": 3.2251,
	"step": 6600
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002837239310581749,
	"loss": 3.2235,
	"step": 6700
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028347256319806945,
	"loss": 3.2174,
	"step": 6800
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028322119533796407,
	"loss": 3.2212,
	"step": 6900
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028296982747785863,
	"loss": 3.2208,
	"step": 7000
	},
	{
	"epoch": 0.06,
	"eval_accuracy": 0.4099135655475305,
	"eval_loss": 3.2382774353027344,
	"eval_runtime": 36.4193,
	"eval_samples_per_second": 307.969,
	"eval_steps_per_second": 2.581,
	"step": 7000
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028271845961775325,
	"loss": 3.215,
	"step": 7100
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002824670917576478,
	"loss": 3.2124,
	"step": 7200
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028221572389754244,
	"loss": 3.2214,
	"step": 7300
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.000281964356037437,
	"loss": 3.2157,
	"step": 7400
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002817129881773316,
	"loss": 3.212,
	"step": 7500
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00028146162031722624,
	"loss": 3.2063,
	"step": 7600
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002812102524571208,
	"loss": 3.2089,
	"step": 7700
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002809588845970154,
	"loss": 3.2056,
	"step": 7800
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00028070751673691,
	"loss": 3.206,
	"step": 7900
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002804561488768046,
	"loss": 3.2021,
	"step": 8000
	},
	{
	"epoch": 0.07,
	"eval_accuracy": 0.4112453244521325,
	"eval_loss": 3.2249624729156494,
	"eval_runtime": 37.3966,
	"eval_samples_per_second": 299.92,
	"eval_steps_per_second": 2.514,
	"step": 8000
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00028020478101669917,
	"loss": 3.2098,
	"step": 8100
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002799534131565938,
	"loss": 3.2099,
	"step": 8200
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027970204529648835,
	"loss": 3.2075,
	"step": 8300
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027945067743638297,
	"loss": 3.205,
	"step": 8400
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027920182325487863,
	"loss": 3.1931,
	"step": 8500
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002789504553947732,
	"loss": 3.1969,
	"step": 8600
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002786990875346678,
	"loss": 3.1974,
	"step": 8700
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002784502333531634,
	"loss": 3.1958,
	"step": 8800
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00027819886549305804,
	"loss": 3.1925,
	"step": 8900
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027794749763295265,
	"loss": 3.194,
	"step": 9000
	},
	{
	"epoch": 0.08,
	"eval_accuracy": 0.41224642524178057,
	"eval_loss": 3.2142982482910156,
	"eval_runtime": 37.0575,
	"eval_samples_per_second": 302.665,
	"eval_steps_per_second": 2.537,
	"step": 9000
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002776961297728472,
	"loss": 3.1941,
	"step": 9100
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027744476191274184,
	"loss": 3.1943,
	"step": 9200
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002771933940526364,
	"loss": 3.197,
	"step": 9300
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000276942026192531,
	"loss": 3.1912,
	"step": 9400
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002766906583324256,
	"loss": 3.1941,
	"step": 9500
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002764392904723202,
	"loss": 3.1904,
	"step": 9600
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027618792261221477,
	"loss": 3.1807,
	"step": 9700
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027593906843071043,
	"loss": 3.1854,
	"step": 9800
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027568770057060505,
	"loss": 3.1859,
	"step": 9900
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002754363327104996,
	"loss": 3.1971,
	"step": 10000
	},
	{
	"epoch": 0.08,
	"eval_accuracy": 0.413248228065643,
	"eval_loss": 3.2038817405700684,
	"eval_runtime": 36.9865,
	"eval_samples_per_second": 303.246,
	"eval_steps_per_second": 2.541,
	"step": 10000
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00027518496485039423,
	"loss": 3.1776,
	"step": 10100
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002749335969902888,
	"loss": 3.1872,
	"step": 10200
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002746822291301834,
	"loss": 3.1792,
	"step": 10300
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.000274430861270078,
	"loss": 3.1858,
	"step": 10400
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027417949340997254,
	"loss": 3.1825,
	"step": 10500
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027392812554986716,
	"loss": 3.1798,
	"step": 10600
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002736767576897618,
	"loss": 3.1819,
	"step": 10700
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027342538982965634,
	"loss": 3.1778,
	"step": 10800
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027317402196955096,
	"loss": 3.185,
	"step": 10900
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002729226541094455,
	"loss": 3.1794,
	"step": 11000
	},
	{
	"epoch": 0.09,
	"eval_accuracy": 0.41429074887393713,
	"eval_loss": 3.1947903633117676,
	"eval_runtime": 37.2827,
	"eval_samples_per_second": 300.837,
	"eval_steps_per_second": 2.521,
	"step": 11000
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027267128624934014,
	"loss": 3.1782,
	"step": 11100
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027242243206783575,
	"loss": 3.1752,
	"step": 11200
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00027217106420773037,
	"loss": 3.172,
	"step": 11300
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.000271919696347625,
	"loss": 3.1794,
	"step": 11400
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027166832848751955,
	"loss": 3.1773,
	"step": 11500
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027141696062741417,
	"loss": 3.1776,
	"step": 11600
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002711681064459098,
	"loss": 3.1866,
	"step": 11700
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002709167385858044,
	"loss": 3.1707,
	"step": 11800
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027066537072569896,
	"loss": 3.1705,
	"step": 11900
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002704140028655936,
	"loss": 3.1731,
	"step": 12000
	},
	{
	"epoch": 0.1,
	"eval_accuracy": 0.41493381221427206,
	"eval_loss": 3.1884472370147705,
	"eval_runtime": 36.6321,
	"eval_samples_per_second": 306.18,
	"eval_steps_per_second": 2.566,
	"step": 12000
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00027016514868408924,
	"loss": 3.1688,
	"step": 12100
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002699137808239838,
	"loss": 3.1698,
	"step": 12200
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002696624129638784,
	"loss": 3.1661,
	"step": 12300
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.000269411045103773,
	"loss": 3.163,
	"step": 12400
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002691596772436676,
	"loss": 3.166,
	"step": 12500
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026890830938356217,
	"loss": 3.1684,
	"step": 12600
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002686569415234568,
	"loss": 3.1665,
	"step": 12700
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002684055736633514,
	"loss": 3.1623,
	"step": 12800
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026815420580324597,
	"loss": 3.1674,
	"step": 12900
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002679028379431406,
	"loss": 3.1596,
	"step": 13000
	},
	{
	"epoch": 0.11,
	"eval_accuracy": 0.41567656441304324,
	"eval_loss": 3.181196928024292,
	"eval_runtime": 38.8685,
	"eval_samples_per_second": 288.563,
	"eval_steps_per_second": 2.418,
	"step": 13000
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026765147008303515,
	"loss": 3.1659,
	"step": 13100
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026740010222292977,
	"loss": 3.1528,
	"step": 13200
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026714873436282433,
	"loss": 3.1656,
	"step": 13300
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026689736650271895,
	"loss": 3.1594,
	"step": 13400
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002666459986426135,
	"loss": 3.1593,
	"step": 13500
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00026639463078250813,
	"loss": 3.1579,
	"step": 13600
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002661432629224027,
	"loss": 3.1599,
	"step": 13700
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002658918950622973,
	"loss": 3.1529,
	"step": 13800
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002656405272021919,
	"loss": 3.1615,
	"step": 13900
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002653891593420865,
	"loss": 3.1628,
	"step": 14000
	},
	{
	"epoch": 0.12,
	"eval_accuracy": 0.41594754961977826,
	"eval_loss": 3.1771674156188965,
	"eval_runtime": 37.2285,
	"eval_samples_per_second": 301.275,
	"eval_steps_per_second": 2.525,
	"step": 14000
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026513779148198106,
	"loss": 3.1594,
	"step": 14100
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002648864236218757,
	"loss": 3.158,
	"step": 14200
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002646400831189724,
	"loss": 3.1588,
	"step": 14300
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.000264388715258867,
	"loss": 3.1606,
	"step": 14400
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026413734739876157,
	"loss": 3.1555,
	"step": 14500
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002638859795386562,
	"loss": 3.1574,
	"step": 14600
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026363461167855075,
	"loss": 3.1526,
	"step": 14700
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026338324381844537,
	"loss": 3.1457,
	"step": 14800
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00026313187595833993,
	"loss": 3.1655,
	"step": 14900
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002628805080982345,
	"loss": 3.1658,
	"step": 15000
	},
	{
	"epoch": 0.13,
	"eval_accuracy": 0.416945842272569,
	"eval_loss": 3.170196294784546,
	"eval_runtime": 38.2091,
	"eval_samples_per_second": 293.542,
	"eval_steps_per_second": 2.46,
	"step": 15000
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002626291402381291,
	"loss": 3.1537,
	"step": 15100
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026237777237802373,
	"loss": 3.1596,
	"step": 15200
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026212891819651934,
	"loss": 3.1558,
	"step": 15300
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026187755033641396,
	"loss": 3.1568,
	"step": 15400
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002616261824763085,
	"loss": 3.1488,
	"step": 15500
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026137481461620314,
	"loss": 3.1452,
	"step": 15600
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002611234467560977,
	"loss": 3.1503,
	"step": 15700
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002608720788959923,
	"loss": 3.1456,
	"step": 15800
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00026062071103588694,
	"loss": 3.1469,
	"step": 15900
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002603693431757815,
	"loss": 3.1479,
	"step": 16000
	},
	{
	"epoch": 0.13,
	"eval_accuracy": 0.41732213261145495,
	"eval_loss": 3.1664865016937256,
	"eval_runtime": 36.9736,
	"eval_samples_per_second": 303.351,
	"eval_steps_per_second": 2.542,
	"step": 16000
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002601179753156761,
	"loss": 3.152,
	"step": 16100
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025986660745557074,
	"loss": 3.1515,
	"step": 16200
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002596152395954653,
	"loss": 3.1403,
	"step": 16300
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002593638717353599,
	"loss": 3.1482,
	"step": 16400
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002591125038752545,
	"loss": 3.1384,
	"step": 16500
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002588611360151491,
	"loss": 3.1423,
	"step": 16600
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002586097681550437,
	"loss": 3.1388,
	"step": 16700
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025835840029493824,
	"loss": 3.1502,
	"step": 16800
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025810703243483286,
	"loss": 3.1423,
	"step": 16900
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002578556645747274,
	"loss": 3.1401,
	"step": 17000
	},
	{
	"epoch": 0.14,
	"eval_accuracy": 0.4181765082503061,
	"eval_loss": 3.161729097366333,
	"eval_runtime": 36.3895,
	"eval_samples_per_second": 308.221,
	"eval_steps_per_second": 2.583,
	"step": 17000
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00025760429671462204,
	"loss": 3.1444,
	"step": 17100
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002573529288545166,
	"loss": 3.1344,
	"step": 17200
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002571015609944112,
	"loss": 3.1362,
	"step": 17300
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025685019313430584,
	"loss": 3.1449,
	"step": 17400
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002565988252742004,
	"loss": 3.1403,
	"step": 17500
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.000256347457414095,
	"loss": 3.1485,
	"step": 17600
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025609608955398964,
	"loss": 3.1465,
	"step": 17700
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002558447216938842,
	"loss": 3.1388,
	"step": 17800
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002555933538337788,
	"loss": 3.1412,
	"step": 17900
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002553419859736734,
	"loss": 3.1386,
	"step": 18000
	},
	{
	"epoch": 0.15,
	"eval_accuracy": 0.4183225313668887,
	"eval_loss": 3.1586148738861084,
	"eval_runtime": 36.9298,
	"eval_samples_per_second": 303.711,
	"eval_steps_per_second": 2.545,
	"step": 18000
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.000255090618113568,
	"loss": 3.1421,
	"step": 18100
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025483925025346257,
	"loss": 3.1355,
	"step": 18200
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002545878823933572,
	"loss": 3.1399,
	"step": 18300
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025433651453325175,
	"loss": 3.1349,
	"step": 18400
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002540851466731463,
	"loss": 3.1413,
	"step": 18500
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025383377881304093,
	"loss": 3.1278,
	"step": 18600
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002535824109529355,
	"loss": 3.1405,
	"step": 18700
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002533310430928301,
	"loss": 3.1277,
	"step": 18800
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025307967523272474,
	"loss": 3.1341,
	"step": 18900
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002528283073726193,
	"loss": 3.1396,
	"step": 19000
	},
	{
	"epoch": 0.16,
	"eval_accuracy": 0.41871075628741844,
	"eval_loss": 3.1532347202301025,
	"eval_runtime": 36.5045,
	"eval_samples_per_second": 307.25,
	"eval_steps_per_second": 2.575,
	"step": 19000
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025257945319111496,
	"loss": 3.1329,
	"step": 19100
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002523280853310095,
	"loss": 3.1358,
	"step": 19200
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025207671747090414,
	"loss": 3.1377,
	"step": 19300
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002518253496107987,
	"loss": 3.1289,
	"step": 19400
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002515739817506933,
	"loss": 3.1348,
	"step": 19500
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00025132261389058794,
	"loss": 3.1324,
	"step": 19600
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002510712460304825,
	"loss": 3.136,
	"step": 19700
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002508198781703771,
	"loss": 3.1337,
	"step": 19800
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00025056851031027175,
	"loss": 3.132,
	"step": 19900
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002503171424501663,
	"loss": 3.1345,
	"step": 20000
	},
	{
	"epoch": 0.17,
	"eval_accuracy": 0.41896770080986667,
	"eval_loss": 3.150233268737793,
	"eval_runtime": 36.0939,
	"eval_samples_per_second": 310.745,
	"eval_steps_per_second": 2.604,
	"step": 20000
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002500682882686619,
	"loss": 3.1301,
	"step": 20100
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00024981692040855653,
	"loss": 3.1261,
	"step": 20200
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00024956555254845115,
	"loss": 3.1279,
	"step": 20300
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002493141846883457,
	"loss": 3.1235,
	"step": 20400
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00024906281682824034,
	"loss": 3.1302,
	"step": 20500
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002488114489681349,
	"loss": 3.1287,
	"step": 20600
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002485600811080295,
	"loss": 3.1314,
	"step": 20700
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002483087132479241,
	"loss": 3.1226,
	"step": 20800
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002480573453878187,
	"loss": 3.1289,
	"step": 20900
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024780597752771327,
	"loss": 3.1319,
	"step": 21000
	},
	{
	"epoch": 0.18,
	"eval_accuracy": 0.41907721814730364,
	"eval_loss": 3.1475839614868164,
	"eval_runtime": 36.3645,
	"eval_samples_per_second": 308.432,
	"eval_steps_per_second": 2.585,
	"step": 21000
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002475546096676079,
	"loss": 3.1304,
	"step": 21100
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024730324180750245,
	"loss": 3.1309,
	"step": 21200
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024705187394739707,
	"loss": 3.1254,
	"step": 21300
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024680050608729163,
	"loss": 3.1293,
	"step": 21400
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024654913822718625,
	"loss": 3.1278,
	"step": 21500
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002462977703670808,
	"loss": 3.1216,
	"step": 21600
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024604640250697543,
	"loss": 3.1281,
	"step": 21700
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002457975483254711,
	"loss": 3.1182,
	"step": 21800
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024554618046536566,
	"loss": 3.1231,
	"step": 21900
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0002452948126052603,
	"loss": 3.1238,
	"step": 22000
	},
	{
	"epoch": 0.18,
	"eval_accuracy": 0.42022504408774863,
	"eval_loss": 3.1434154510498047,
	"eval_runtime": 36.9095,
	"eval_samples_per_second": 303.878,
	"eval_steps_per_second": 2.547,
	"step": 22000
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.00024504344474515484,
	"loss": 3.1249,
	"step": 22100
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024479207688504946,
	"loss": 3.1316,
	"step": 22200
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.000244540709024944,
	"loss": 3.1152,
	"step": 22300
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024428934116483864,
	"loss": 3.1204,
	"step": 22400
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024403797330473323,
	"loss": 3.1237,
	"step": 22500
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024378660544462782,
	"loss": 3.1256,
	"step": 22600
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024353523758452241,
	"loss": 3.1272,
	"step": 22700
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.000243283869724417,
	"loss": 3.12,
	"step": 22800
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024303250186431162,
	"loss": 3.1182,
	"step": 22900
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002427811340042062,
	"loss": 3.1224,
	"step": 23000
	},
	{
	"epoch": 0.19,
	"eval_accuracy": 0.42017309355588756,
	"eval_loss": 3.1407454013824463,
	"eval_runtime": 36.6142,
	"eval_samples_per_second": 306.329,
	"eval_steps_per_second": 2.567,
	"step": 23000
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0002425297661441008,
	"loss": 3.1174,
	"step": 23100
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024227839828399537,
	"loss": 3.1199,
	"step": 23200
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.00024202703042389,
	"loss": 3.1147,
	"step": 23300
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024177566256378458,
	"loss": 3.1201,
	"step": 23400
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024152429470367917,
	"loss": 3.1231,
	"step": 23500
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024127544052217483,
	"loss": 3.1172,
	"step": 23600
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002410240726620694,
	"loss": 3.1176,
	"step": 23700
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024077521848056506,
	"loss": 3.1119,
	"step": 23800
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024052385062045965,
	"loss": 3.1212,
	"step": 23900
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024027248276035424,
	"loss": 3.1183,
	"step": 24000
	},
	{
	"epoch": 0.2,
	"eval_accuracy": 0.4208589809832972,
	"eval_loss": 3.137460947036743,
	"eval_runtime": 37.115,
	"eval_samples_per_second": 302.196,
	"eval_steps_per_second": 2.533,
	"step": 24000
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00024002111490024883,
	"loss": 3.1287,
	"step": 24100
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00023976974704014342,
	"loss": 3.1157,
	"step": 24200
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00023951837918003804,
	"loss": 3.1199,
	"step": 24300
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.0002392670113199326,
	"loss": 3.1162,
	"step": 24400
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00023901564345982722,
	"loss": 3.1179,
	"step": 24500
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.0002387642755997218,
	"loss": 3.1214,
	"step": 24600
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023851290773961638,
	"loss": 3.1138,
	"step": 24700
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.000238261539879511,
	"loss": 3.1117,
	"step": 24800
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023801017201940556,
	"loss": 3.1117,
	"step": 24900
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023775880415930018,
	"loss": 3.1131,
	"step": 25000
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 0.4210050040998798,
	"eval_loss": 3.1347129344940186,
	"eval_runtime": 36.8178,
	"eval_samples_per_second": 304.635,
	"eval_steps_per_second": 2.553,
	"step": 25000
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023750743629919474,
	"loss": 3.118,
	"step": 25100
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023725606843908936,
	"loss": 3.1158,
	"step": 25200
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023700470057898395,
	"loss": 3.1178,
	"step": 25300
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023675333271887855,
	"loss": 3.1019,
	"step": 25400
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023650196485877314,
	"loss": 3.1105,
	"step": 25500
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023625059699866773,
	"loss": 3.1158,
	"step": 25600
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00023599922913856232,
	"loss": 3.1166,
	"step": 25700
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023574786127845694,
	"loss": 3.1172,
	"step": 25800
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002354964934183515,
	"loss": 3.1233,
	"step": 25900
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023524763923684716,
	"loss": 3.1106,
	"step": 26000
	},
	{
	"epoch": 0.22,
	"eval_accuracy": 0.42156382333449405,
	"eval_loss": 3.131035566329956,
	"eval_runtime": 36.1307,
	"eval_samples_per_second": 310.428,
	"eval_steps_per_second": 2.602,
	"step": 26000
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023499627137674175,
	"loss": 3.1186,
	"step": 26100
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023474490351663635,
	"loss": 3.1069,
	"step": 26200
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023449353565653094,
	"loss": 3.114,
	"step": 26300
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00023424216779642553,
	"loss": 3.114,
	"step": 26400
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002339907999363201,
	"loss": 3.1072,
	"step": 26500
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002337394320762147,
	"loss": 3.1141,
	"step": 26600
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002334880642161093,
	"loss": 3.1125,
	"step": 26700
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.0002332366963560039,
	"loss": 3.1202,
	"step": 26800
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023298532849589849,
	"loss": 3.1177,
	"step": 26900
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.0002327339606357931,
	"loss": 3.114,
	"step": 27000
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 0.42156241926606536,
	"eval_loss": 3.129709482192993,
	"eval_runtime": 36.5135,
	"eval_samples_per_second": 307.174,
	"eval_steps_per_second": 2.574,
	"step": 27000
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023248259277568767,
	"loss": 3.1107,
	"step": 27100
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023223122491558229,
	"loss": 3.1111,
	"step": 27200
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023197985705547685,
	"loss": 3.106,
	"step": 27300
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023172848919537147,
	"loss": 3.1081,
	"step": 27400
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023147712133526606,
	"loss": 3.1077,
	"step": 27500
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023122575347516065,
	"loss": 3.116,
	"step": 27600
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023097438561505524,
	"loss": 3.1168,
	"step": 27700
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023072301775494983,
	"loss": 3.1137,
	"step": 27800
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023047164989484442,
	"loss": 3.1065,
	"step": 27900
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00023022028203473904,
	"loss": 3.1083,
	"step": 28000
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 0.42211211205589316,
	"eval_loss": 3.1262805461883545,
	"eval_runtime": 36.106,
	"eval_samples_per_second": 310.641,
	"eval_steps_per_second": 2.603,
	"step": 28000
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002299689141746336,
	"loss": 3.1193,
	"step": 28100
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022972257367173034,
	"loss": 3.0997,
	"step": 28200
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002294712058116249,
	"loss": 3.1013,
	"step": 28300
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022921983795151952,
	"loss": 3.1049,
	"step": 28400
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022896847009141409,
	"loss": 3.1152,
	"step": 28500
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022871710223130868,
	"loss": 3.1077,
	"step": 28600
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022846573437120327,
	"loss": 3.1146,
	"step": 28700
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022821436651109786,
	"loss": 3.1054,
	"step": 28800
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022796299865099248,
	"loss": 3.1087,
	"step": 28900
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.00022771163079088704,
	"loss": 3.1045,
	"step": 29000
	},
	{
	"epoch": 0.24,
	"eval_accuracy": 0.4221415974928954,
	"eval_loss": 3.124873161315918,
	"eval_runtime": 37.1734,
	"eval_samples_per_second": 301.721,
	"eval_steps_per_second": 2.529,
	"step": 29000
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002274627766093827,
	"loss": 3.1024,
	"step": 29100
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002272114087492773,
	"loss": 3.0938,
	"step": 29200
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022696004088917189,
	"loss": 3.1049,
	"step": 29300
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022670867302906648,
	"loss": 3.109,
	"step": 29400
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022645730516896107,
	"loss": 3.1033,
	"step": 29500
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.0002262059373088557,
	"loss": 3.1066,
	"step": 29600
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022595456944875025,
	"loss": 3.1087,
	"step": 29700
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022570320158864487,
	"loss": 3.101,
	"step": 29800
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022545183372853943,
	"loss": 3.1137,
	"step": 29900
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022520046586843405,
	"loss": 3.1084,
	"step": 30000
	},
	{
	"epoch": 0.25,
	"eval_accuracy": 0.4223374650386961,
	"eval_loss": 3.1216838359832764,
	"eval_runtime": 39.4599,
	"eval_samples_per_second": 284.238,
	"eval_steps_per_second": 2.382,
	"step": 30000
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022494909800832864,
	"loss": 3.1006,
	"step": 30100
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022469773014822323,
	"loss": 3.1045,
	"step": 30200
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022444636228811783,
	"loss": 3.1001,
	"step": 30300
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00022419499442801244,
	"loss": 3.0988,
	"step": 30400
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.000223943626567907,
	"loss": 3.0981,
	"step": 30500
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022369477238640264,
	"loss": 3.1027,
	"step": 30600
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022344340452629723,
	"loss": 3.1046,
	"step": 30700
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022319203666619185,
	"loss": 3.1025,
	"step": 30800
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022294066880608642,
	"loss": 3.1025,
	"step": 30900
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022268930094598103,
	"loss": 3.097,
	"step": 31000
	},
	{
	"epoch": 0.26,
	"eval_accuracy": 0.42269550248800924,
	"eval_loss": 3.1202731132507324,
	"eval_runtime": 36.6594,
	"eval_samples_per_second": 305.952,
	"eval_steps_per_second": 2.564,
	"step": 31000
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002224379330858756,
	"loss": 3.104,
	"step": 31100
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022218656522577022,
	"loss": 3.0977,
	"step": 31200
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002219351973656648,
	"loss": 3.1121,
	"step": 31300
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0002216838295055594,
	"loss": 3.1011,
	"step": 31400
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.000221432461645454,
	"loss": 3.0963,
	"step": 31500
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.00022118109378534858,
	"loss": 3.1082,
	"step": 31600
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00022092972592524317,
	"loss": 3.0994,
	"step": 31700
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002206783580651378,
	"loss": 3.0957,
	"step": 31800
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00022042699020503236,
	"loss": 3.0947,
	"step": 31900
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00022017562234492697,
	"loss": 3.0926,
	"step": 32000
	},
	{
	"epoch": 0.27,
	"eval_accuracy": 0.42268707807743716,
	"eval_loss": 3.119593381881714,
	"eval_runtime": 37.8215,
	"eval_samples_per_second": 296.551,
	"eval_steps_per_second": 2.485,
	"step": 32000
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021992425448482154,
	"loss": 3.0955,
	"step": 32100
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021967288662471616,
	"loss": 3.0973,
	"step": 32200
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021942151876461075,
	"loss": 3.1098,
	"step": 32300
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002191701509045053,
	"loss": 3.1007,
	"step": 32400
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021891878304439993,
	"loss": 3.0992,
	"step": 32500
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.0002186674151842945,
	"loss": 3.1029,
	"step": 32600
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021841604732418911,
	"loss": 3.0947,
	"step": 32700
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00021816719314268475,
	"loss": 3.0941,
	"step": 32800
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021791582528257934,
	"loss": 3.1004,
	"step": 32900
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021766445742247396,
	"loss": 3.1003,
	"step": 33000
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 0.4228331011940198,
	"eval_loss": 3.1163218021392822,
	"eval_runtime": 37.158,
	"eval_samples_per_second": 301.846,
	"eval_steps_per_second": 2.53,
	"step": 33000
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021741308956236852,
	"loss": 3.0986,
	"step": 33100
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021716172170226314,
	"loss": 3.0999,
	"step": 33200
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002169103538421577,
	"loss": 3.0994,
	"step": 33300
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021665898598205232,
	"loss": 3.0976,
	"step": 33400
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021640761812194691,
	"loss": 3.0949,
	"step": 33500
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002161562502618415,
	"loss": 3.0923,
	"step": 33600
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002159048824017361,
	"loss": 3.0909,
	"step": 33700
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002156535145416307,
	"loss": 3.0944,
	"step": 33800
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.00021540214668152528,
	"loss": 3.0997,
	"step": 33900
	},
	{
	"epoch": 0.28,
	"learning_rate": 0.0002151507788214199,
	"loss": 3.097,
	"step": 34000
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 0.4235625147427185,
	"eval_loss": 3.1130168437957764,
	"eval_runtime": 36.3501,
	"eval_samples_per_second": 308.555,
	"eval_steps_per_second": 2.586,
	"step": 34000
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021489941096131446,
	"loss": 3.0878,
	"step": 34100
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021464804310120905,
	"loss": 3.094,
	"step": 34200
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021439667524110364,
	"loss": 3.0976,
	"step": 34300
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021414530738099824,
	"loss": 3.0959,
	"step": 34400
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021389393952089285,
	"loss": 3.098,
	"step": 34500
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021364257166078742,
	"loss": 3.0891,
	"step": 34600
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021339120380068204,
	"loss": 3.0881,
	"step": 34700
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002131398359405766,
	"loss": 3.0934,
	"step": 34800
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021288846808047122,
	"loss": 3.0997,
	"step": 34900
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021263961389896685,
	"loss": 3.0934,
	"step": 35000
	},
	{
	"epoch": 0.29,
	"eval_accuracy": 0.4233083783571276,
	"eval_loss": 3.112696886062622,
	"eval_runtime": 36.2826,
	"eval_samples_per_second": 309.129,
	"eval_steps_per_second": 2.591,
	"step": 35000
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021238824603886144,
	"loss": 3.0886,
	"step": 35100
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00021213687817875606,
	"loss": 3.0891,
	"step": 35200
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021188551031865063,
	"loss": 3.0952,
	"step": 35300
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021163414245854525,
	"loss": 3.0869,
	"step": 35400
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0002113827745984398,
	"loss": 3.0905,
	"step": 35500
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021113140673833443,
	"loss": 3.0939,
	"step": 35600
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021088255255683006,
	"loss": 3.0958,
	"step": 35700
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021063118469672465,
	"loss": 3.0882,
	"step": 35800
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021037981683661927,
	"loss": 3.0852,
	"step": 35900
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00021012844897651384,
	"loss": 3.0957,
	"step": 36000
	},
	{
	"epoch": 0.3,
	"eval_accuracy": 0.4237239826120166,
	"eval_loss": 3.110541820526123,
	"eval_runtime": 37.0216,
	"eval_samples_per_second": 302.958,
	"eval_steps_per_second": 2.539,
	"step": 36000
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00020987708111640845,
	"loss": 3.0968,
	"step": 36100
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00020962571325630302,
	"loss": 3.0909,
	"step": 36200
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00020937434539619764,
	"loss": 3.0826,
	"step": 36300
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00020912297753609223,
	"loss": 3.086,
	"step": 36400
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0002088716096759868,
	"loss": 3.091,
	"step": 36500
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020862275549448245,
	"loss": 3.0865,
	"step": 36600
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020837138763437704,
	"loss": 3.092,
	"step": 36700
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020812001977427164,
	"loss": 3.0916,
	"step": 36800
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020786865191416623,
	"loss": 3.0924,
	"step": 36900
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020761728405406082,
	"loss": 3.0915,
	"step": 37000
	},
	{
	"epoch": 0.31,
	"eval_accuracy": 0.42398513933975085,
	"eval_loss": 3.10992169380188,
	"eval_runtime": 36.5153,
	"eval_samples_per_second": 307.159,
	"eval_steps_per_second": 2.574,
	"step": 37000
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020736591619395544,
	"loss": 3.0841,
	"step": 37100
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020711454833385,
	"loss": 3.088,
	"step": 37200
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020686318047374462,
	"loss": 3.0941,
	"step": 37300
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.00020661181261363918,
	"loss": 3.0898,
	"step": 37400
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0002063604447535338,
	"loss": 3.0885,
	"step": 37500
	},
	{
	"epoch": 0.31,
	"learning_rate": 0.0002061090768934284,
	"loss": 3.0918,
	"step": 37600
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020585770903332298,
	"loss": 3.0962,
	"step": 37700
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020560634117321758,
	"loss": 3.096,
	"step": 37800
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002053549733131122,
	"loss": 3.0846,
	"step": 37900
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020510611913160783,
	"loss": 3.0908,
	"step": 38000
	},
	{
	"epoch": 0.32,
	"eval_accuracy": 0.4245425545059364,
	"eval_loss": 3.1069419384002686,
	"eval_runtime": 37.2669,
	"eval_samples_per_second": 300.964,
	"eval_steps_per_second": 2.522,
	"step": 38000
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002048547512715024,
	"loss": 3.0851,
	"step": 38100
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.000204603383411397,
	"loss": 3.0859,
	"step": 38200
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002043520155512916,
	"loss": 3.0877,
	"step": 38300
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0002041006476911862,
	"loss": 3.08,
	"step": 38400
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020384927983108079,
	"loss": 3.0872,
	"step": 38500
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020359791197097535,
	"loss": 3.0934,
	"step": 38600
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020334654411086997,
	"loss": 3.0898,
	"step": 38700
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.00020309517625076456,
	"loss": 3.091,
	"step": 38800
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020284380839065915,
	"loss": 3.0903,
	"step": 38900
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020259244053055374,
	"loss": 3.0764,
	"step": 39000
	},
	{
	"epoch": 0.33,
	"eval_accuracy": 0.42455589315600883,
	"eval_loss": 3.104147434234619,
	"eval_runtime": 36.3216,
	"eval_samples_per_second": 308.797,
	"eval_steps_per_second": 2.588,
	"step": 39000
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020234107267044833,
	"loss": 3.0781,
	"step": 39100
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020208970481034292,
	"loss": 3.0805,
	"step": 39200
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020183833695023754,
	"loss": 3.0861,
	"step": 39300
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002015869690901321,
	"loss": 3.0906,
	"step": 39400
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020133560123002672,
	"loss": 3.0837,
	"step": 39500
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002010842333699213,
	"loss": 3.0827,
	"step": 39600
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002008328655098159,
	"loss": 3.082,
	"step": 39700
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002005814976497105,
	"loss": 3.0838,
	"step": 39800
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002003301297896051,
	"loss": 3.0834,
	"step": 39900
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.00020007876192949968,
	"loss": 3.0855,
	"step": 40000
	},
	{
	"epoch": 0.33,
	"eval_accuracy": 0.42506837813247667,
	"eval_loss": 3.1023147106170654,
	"eval_runtime": 36.3302,
	"eval_samples_per_second": 308.724,
	"eval_steps_per_second": 2.587,
	"step": 40000
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019982990774799532,
	"loss": 3.0823,
	"step": 40100
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019957853988788993,
	"loss": 3.0877,
	"step": 40200
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001993271720277845,
	"loss": 3.0891,
	"step": 40300
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001990758041676791,
	"loss": 3.0847,
	"step": 40400
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001988244363075737,
	"loss": 3.0769,
	"step": 40500
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019857306844746827,
	"loss": 3.0842,
	"step": 40600
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.0001983217005873629,
	"loss": 3.0771,
	"step": 40700
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019807033272725745,
	"loss": 3.0878,
	"step": 40800
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019781896486715207,
	"loss": 3.0876,
	"step": 40900
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019756759700704666,
	"loss": 3.0782,
	"step": 41000
	},
	{
	"epoch": 0.34,
	"eval_accuracy": 0.42481002954159974,
	"eval_loss": 3.100797414779663,
	"eval_runtime": 37.0564,
	"eval_samples_per_second": 302.674,
	"eval_steps_per_second": 2.537,
	"step": 41000
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019731622914694126,
	"loss": 3.0788,
	"step": 41100
	},
	{
	"epoch": 0.34,
	"learning_rate": 0.00019706486128683585,
	"loss": 3.0811,
	"step": 41200
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019681349342673044,
	"loss": 3.0799,
	"step": 41300
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019656212556662503,
	"loss": 3.0737,
	"step": 41400
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019631075770651965,
	"loss": 3.0815,
	"step": 41500
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001960593898464142,
	"loss": 3.0885,
	"step": 41600
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019580802198630883,
	"loss": 3.0785,
	"step": 41700
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001955566541262034,
	"loss": 3.0738,
	"step": 41800
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.000195305286266098,
	"loss": 3.0826,
	"step": 41900
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001950539184059926,
	"loss": 3.0821,
	"step": 42000
	},
	{
	"epoch": 0.35,
	"eval_accuracy": 0.4254973210374381,
	"eval_loss": 3.0979230403900146,
	"eval_runtime": 36.8694,
	"eval_samples_per_second": 304.209,
	"eval_steps_per_second": 2.55,
	"step": 42000
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019480255054588717,
	"loss": 3.0689,
	"step": 42100
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019455369636438286,
	"loss": 3.0767,
	"step": 42200
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0001943048421828785,
	"loss": 3.0768,
	"step": 42300
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.00019405598800137415,
	"loss": 3.0746,
	"step": 42400
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019380462014126872,
	"loss": 3.0812,
	"step": 42500
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019355325228116333,
	"loss": 3.0721,
	"step": 42600
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0001933018844210579,
	"loss": 3.0701,
	"step": 42700
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0001930505165609525,
	"loss": 3.0769,
	"step": 42800
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019279914870084708,
	"loss": 3.0827,
	"step": 42900
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019254778084074167,
	"loss": 3.075,
	"step": 43000
	},
	{
	"epoch": 0.36,
	"eval_accuracy": 0.425449582710863,
	"eval_loss": 3.0971269607543945,
	"eval_runtime": 36.1836,
	"eval_samples_per_second": 309.975,
	"eval_steps_per_second": 2.598,
	"step": 43000
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0001922964129806363,
	"loss": 3.0742,
	"step": 43100
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019204504512053086,
	"loss": 3.0804,
	"step": 43200
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019179367726042547,
	"loss": 3.0788,
	"step": 43300
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019154230940032004,
	"loss": 3.078,
	"step": 43400
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019129094154021466,
	"loss": 3.0729,
	"step": 43500
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00019103957368010925,
	"loss": 3.0704,
	"step": 43600
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019078820582000384,
	"loss": 3.0793,
	"step": 43700
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019053683795989843,
	"loss": 3.0789,
	"step": 43800
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019028547009979305,
	"loss": 3.0835,
	"step": 43900
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00019003661591828868,
	"loss": 3.0794,
	"step": 44000
	},
	{
	"epoch": 0.37,
	"eval_accuracy": 0.4256580868725218,
	"eval_loss": 3.0950751304626465,
	"eval_runtime": 36.1829,
	"eval_samples_per_second": 309.98,
	"eval_steps_per_second": 2.598,
	"step": 44000
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018978524805818325,
	"loss": 3.0746,
	"step": 44100
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018953388019807787,
	"loss": 3.0778,
	"step": 44200
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018928251233797246,
	"loss": 3.0743,
	"step": 44300
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018903114447786705,
	"loss": 3.0822,
	"step": 44400
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018877977661776164,
	"loss": 3.0782,
	"step": 44500
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0001885284087576562,
	"loss": 3.0705,
	"step": 44600
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00018827704089755082,
	"loss": 3.0737,
	"step": 44700
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.0001880256730374454,
	"loss": 3.0736,
	"step": 44800
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018777681885594105,
	"loss": 3.0712,
	"step": 44900
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018752545099583567,
	"loss": 3.0836,
	"step": 45000
	},
	{
	"epoch": 0.38,
	"eval_accuracy": 0.42573460860188483,
	"eval_loss": 3.0936806201934814,
	"eval_runtime": 36.1343,
	"eval_samples_per_second": 310.398,
	"eval_steps_per_second": 2.601,
	"step": 45000
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018727408313573023,
	"loss": 3.0763,
	"step": 45100
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018702271527562485,
	"loss": 3.0831,
	"step": 45200
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001867713474155194,
	"loss": 3.0768,
	"step": 45300
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018651997955541403,
	"loss": 3.0686,
	"step": 45400
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018626861169530862,
	"loss": 3.0766,
	"step": 45500
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001860172438352032,
	"loss": 3.0721,
	"step": 45600
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001857658759750978,
	"loss": 3.0812,
	"step": 45700
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00018551450811499242,
	"loss": 3.0853,
	"step": 45800
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.000185263140254887,
	"loss": 3.0753,
	"step": 45900
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.0001850117723947816,
	"loss": 3.0744,
	"step": 46000
	},
	{
	"epoch": 0.38,
	"eval_accuracy": 0.42582517101553463,
	"eval_loss": 3.092123508453369,
	"eval_runtime": 36.2715,
	"eval_samples_per_second": 309.224,
	"eval_steps_per_second": 2.592,
	"step": 46000
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018476040453467617,
	"loss": 3.077,
	"step": 46100
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001845090366745708,
	"loss": 3.0822,
	"step": 46200
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018425766881446535,
	"loss": 3.0791,
	"step": 46300
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018400630095435997,
	"loss": 3.0776,
	"step": 46400
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018375493309425456,
	"loss": 3.0781,
	"step": 46500
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018350356523414913,
	"loss": 3.0756,
	"step": 46600
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018325219737404374,
	"loss": 3.0739,
	"step": 46700
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001830008295139383,
	"loss": 3.0697,
	"step": 46800
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018274946165383293,
	"loss": 3.0747,
	"step": 46900
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00018249809379372752,
	"loss": 3.0692,
	"step": 47000
	},
	{
	"epoch": 0.39,
	"eval_accuracy": 0.42626464443371115,
	"eval_loss": 3.090735912322998,
	"eval_runtime": 36.0323,
	"eval_samples_per_second": 311.276,
	"eval_steps_per_second": 2.609,
	"step": 47000
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001822467259336221,
	"loss": 3.0701,
	"step": 47100
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0001819953580735167,
	"loss": 3.0706,
	"step": 47200
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018174399021341132,
	"loss": 3.0734,
	"step": 47300
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018149262235330588,
	"loss": 3.0719,
	"step": 47400
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001812412544932005,
	"loss": 3.07,
	"step": 47500
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018098988663309507,
	"loss": 3.0743,
	"step": 47600
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018074103245159073,
	"loss": 3.0768,
	"step": 47700
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00018048966459148532,
	"loss": 3.0598,
	"step": 47800
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001802382967313799,
	"loss": 3.0653,
	"step": 47900
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00017998692887127453,
	"loss": 3.0717,
	"step": 48000
	},
	{
	"epoch": 0.4,
	"eval_accuracy": 0.42618812270434814,
	"eval_loss": 3.0900797843933105,
	"eval_runtime": 36.3,
	"eval_samples_per_second": 308.981,
	"eval_steps_per_second": 2.59,
	"step": 48000
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001797355610111691,
	"loss": 3.0752,
	"step": 48100
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0001794841931510637,
	"loss": 3.0656,
	"step": 48200
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00017923282529095827,
	"loss": 3.0758,
	"step": 48300
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.00017898145743085287,
	"loss": 3.0827,
	"step": 48400
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017873008957074746,
	"loss": 3.068,
	"step": 48500
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017847872171064205,
	"loss": 3.0645,
	"step": 48600
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017822735385053667,
	"loss": 3.0752,
	"step": 48700
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017797598599043123,
	"loss": 3.0726,
	"step": 48800
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017772461813032585,
	"loss": 3.0736,
	"step": 48900
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017747325027022041,
	"loss": 3.0697,
	"step": 49000
	},
	{
	"epoch": 0.41,
	"eval_accuracy": 0.42656862524852013,
	"eval_loss": 3.0877325534820557,
	"eval_runtime": 37.2501,
	"eval_samples_per_second": 301.1,
	"eval_steps_per_second": 2.523,
	"step": 49000
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017722188241011503,
	"loss": 3.0779,
	"step": 49100
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017697051455000962,
	"loss": 3.0736,
	"step": 49200
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017671914668990421,
	"loss": 3.0657,
	"step": 49300
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0001764677788297988,
	"loss": 3.065,
	"step": 49400
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.00017621641096969342,
	"loss": 3.0683,
	"step": 49500
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.000175965043109588,
	"loss": 3.0656,
	"step": 49600
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001757136752494826,
	"loss": 3.0714,
	"step": 49700
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017546482106797824,
	"loss": 3.0804,
	"step": 49800
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017521345320787283,
	"loss": 3.0636,
	"step": 49900
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017496208534776742,
	"loss": 3.0689,
	"step": 50000
	},
	{
	"epoch": 0.42,
	"eval_accuracy": 0.426702713783459,
	"eval_loss": 3.0857808589935303,
	"eval_runtime": 36.1585,
	"eval_samples_per_second": 310.189,
	"eval_steps_per_second": 2.6,
	"step": 50000
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017471071748766202,
	"loss": 3.0627,
	"step": 50100
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017445934962755663,
	"loss": 3.0655,
	"step": 50200
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001742079817674512,
	"loss": 3.0711,
	"step": 50300
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001739566139073458,
	"loss": 3.0684,
	"step": 50400
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017370775972584142,
	"loss": 3.066,
	"step": 50500
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017345639186573604,
	"loss": 3.0587,
	"step": 50600
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0001732050240056306,
	"loss": 3.0705,
	"step": 50700
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.00017295365614552522,
	"loss": 3.0652,
	"step": 50800
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0001727022882854198,
	"loss": 3.0718,
	"step": 50900
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0001724509204253144,
	"loss": 3.067,
	"step": 51000
	},
	{
	"epoch": 0.43,
	"eval_accuracy": 0.42674553787053365,
	"eval_loss": 3.08451247215271,
	"eval_runtime": 37.357,
	"eval_samples_per_second": 300.238,
	"eval_steps_per_second": 2.516,
	"step": 51000
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.000172199552565209,
	"loss": 3.0652,
	"step": 51100
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0001719481847051036,
	"loss": 3.0697,
	"step": 51200
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017169681684499818,
	"loss": 3.0699,
	"step": 51300
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.0001714454489848928,
	"loss": 3.0656,
	"step": 51400
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017119408112478736,
	"loss": 3.0579,
	"step": 51500
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017094271326468198,
	"loss": 3.0586,
	"step": 51600
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017069134540457655,
	"loss": 3.0725,
	"step": 51700
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017043997754447116,
	"loss": 3.0713,
	"step": 51800
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00017018860968436573,
	"loss": 3.0674,
	"step": 51900
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00016993724182426035,
	"loss": 3.0635,
	"step": 52000
	},
	{
	"epoch": 0.43,
	"eval_accuracy": 0.4271583339885653,
	"eval_loss": 3.082775115966797,
	"eval_runtime": 36.4468,
	"eval_samples_per_second": 307.736,
	"eval_steps_per_second": 2.579,
	"step": 52000
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016968587396415494,
	"loss": 3.0589,
	"step": 52100
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001694345061040495,
	"loss": 3.0656,
	"step": 52200
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016918313824394412,
	"loss": 3.0657,
	"step": 52300
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016893177038383868,
	"loss": 3.0622,
	"step": 52400
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001686804025237333,
	"loss": 3.0627,
	"step": 52500
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001684290346636279,
	"loss": 3.063,
	"step": 52600
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016817766680352249,
	"loss": 3.0637,
	"step": 52700
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016792629894341708,
	"loss": 3.0639,
	"step": 52800
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001676774447619127,
	"loss": 3.0639,
	"step": 52900
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.00016742607690180733,
	"loss": 3.0678,
	"step": 53000
	},
	{
	"epoch": 0.44,
	"eval_accuracy": 0.4273408628842935,
	"eval_loss": 3.0823299884796143,
	"eval_runtime": 36.1917,
	"eval_samples_per_second": 309.906,
	"eval_steps_per_second": 2.597,
	"step": 53000
	},
	{
	"epoch": 0.44,
	"learning_rate": 0.0001671747090417019,
	"loss": 3.0582,
	"step": 53100
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0001669233411815965,
	"loss": 3.0708,
	"step": 53200
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0001666719733214911,
	"loss": 3.0692,
	"step": 53300
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0001664206054613857,
	"loss": 3.0671,
	"step": 53400
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016616923760128029,
	"loss": 3.0662,
	"step": 53500
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0001659178697411749,
	"loss": 3.0653,
	"step": 53600
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016566650188106947,
	"loss": 3.0669,
	"step": 53700
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0001654151340209641,
	"loss": 3.0552,
	"step": 53800
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016516376616085865,
	"loss": 3.0569,
	"step": 53900
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016491239830075327,
	"loss": 3.067,
	"step": 54000
	},
	{
	"epoch": 0.45,
	"eval_accuracy": 0.4276448436991025,
	"eval_loss": 3.0794825553894043,
	"eval_runtime": 36.2802,
	"eval_samples_per_second": 309.15,
	"eval_steps_per_second": 2.591,
	"step": 54000
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016466103044064783,
	"loss": 3.0623,
	"step": 54100
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016440966258054242,
	"loss": 3.0612,
	"step": 54200
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00016415829472043704,
	"loss": 3.0588,
	"step": 54300
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0001639069268603316,
	"loss": 3.064,
	"step": 54400
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016365555900022623,
	"loss": 3.0564,
	"step": 54500
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.0001634041911401208,
	"loss": 3.0605,
	"step": 54600
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016315533695861645,
	"loss": 3.0591,
	"step": 54700
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016290396909851104,
	"loss": 3.0639,
	"step": 54800
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016265260123840563,
	"loss": 3.0612,
	"step": 54900
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016240123337830025,
	"loss": 3.0597,
	"step": 55000
	},
	{
	"epoch": 0.46,
	"eval_accuracy": 0.4277283857706089,
	"eval_loss": 3.078927516937256,
	"eval_runtime": 36.9604,
	"eval_samples_per_second": 303.46,
	"eval_steps_per_second": 2.543,
	"step": 55000
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016214986551819482,
	"loss": 3.0607,
	"step": 55100
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016190101133669048,
	"loss": 3.0505,
	"step": 55200
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016164964347658507,
	"loss": 3.0628,
	"step": 55300
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016139827561647966,
	"loss": 3.0592,
	"step": 55400
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00016114690775637428,
	"loss": 3.0488,
	"step": 55500
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00016089553989626884,
	"loss": 3.0533,
	"step": 55600
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00016064417203616346,
	"loss": 3.0666,
	"step": 55700
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00016039280417605803,
	"loss": 3.0596,
	"step": 55800
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00016014143631595264,
	"loss": 3.0604,
	"step": 55900
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0001598900684558472,
	"loss": 3.0648,
	"step": 56000
	},
	{
	"epoch": 0.47,
	"eval_accuracy": 0.4278596661686904,
	"eval_loss": 3.0768725872039795,
	"eval_runtime": 37.0258,
	"eval_samples_per_second": 302.924,
	"eval_steps_per_second": 2.539,
	"step": 56000
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015963870059574183,
	"loss": 3.0614,
	"step": 56100
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015938733273563642,
	"loss": 3.0541,
	"step": 56200
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015913596487553098,
	"loss": 3.0595,
	"step": 56300
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.0001588845970154256,
	"loss": 3.0624,
	"step": 56400
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015863322915532016,
	"loss": 3.055,
	"step": 56500
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015838186129521478,
	"loss": 3.0585,
	"step": 56600
	},
	{
	"epoch": 0.47,
	"learning_rate": 0.00015813049343510937,
	"loss": 3.0555,
	"step": 56700
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015787912557500397,
	"loss": 3.0501,
	"step": 56800
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015762775771489856,
	"loss": 3.0667,
	"step": 56900
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015737638985479315,
	"loss": 3.0681,
	"step": 57000
	},
	{
	"epoch": 0.48,
	"eval_accuracy": 0.42812924730699675,
	"eval_loss": 3.075896739959717,
	"eval_runtime": 36.4669,
	"eval_samples_per_second": 307.567,
	"eval_steps_per_second": 2.578,
	"step": 57000
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015712502199468774,
	"loss": 3.0554,
	"step": 57100
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015687365413458236,
	"loss": 3.063,
	"step": 57200
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015662228627447692,
	"loss": 3.0611,
	"step": 57300
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015637091841437154,
	"loss": 3.0647,
	"step": 57400
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0001561195505542661,
	"loss": 3.0552,
	"step": 57500
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015586818269416072,
	"loss": 3.0629,
	"step": 57600
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015561932851265638,
	"loss": 3.0619,
	"step": 57700
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015536796065255095,
	"loss": 3.0531,
	"step": 57800
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.00015511659279244557,
	"loss": 3.063,
	"step": 57900
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015486522493234013,
	"loss": 3.0513,
	"step": 58000
	},
	{
	"epoch": 0.49,
	"eval_accuracy": 0.42832300875015444,
	"eval_loss": 3.0737130641937256,
	"eval_runtime": 36.8692,
	"eval_samples_per_second": 304.211,
	"eval_steps_per_second": 2.55,
	"step": 58000
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015461385707223472,
	"loss": 3.0546,
	"step": 58100
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001543624892121293,
	"loss": 3.0545,
	"step": 58200
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001541111213520239,
	"loss": 3.0543,
	"step": 58300
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015385975349191852,
	"loss": 3.0525,
	"step": 58400
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001536083856318131,
	"loss": 3.0533,
	"step": 58500
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001533570177717077,
	"loss": 3.0616,
	"step": 58600
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015310564991160227,
	"loss": 3.0542,
	"step": 58700
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0001528542820514969,
	"loss": 3.0543,
	"step": 58800
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015260291419139148,
	"loss": 3.0603,
	"step": 58900
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015235154633128607,
	"loss": 3.0566,
	"step": 59000
	},
	{
	"epoch": 0.49,
	"eval_accuracy": 0.42880530625540564,
	"eval_loss": 3.0726654529571533,
	"eval_runtime": 36.7531,
	"eval_samples_per_second": 305.171,
	"eval_steps_per_second": 2.558,
	"step": 59000
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00015210017847118066,
	"loss": 3.0475,
	"step": 59100
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015184881061107528,
	"loss": 3.0545,
	"step": 59200
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015159744275096984,
	"loss": 3.0616,
	"step": 59300
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015134607489086446,
	"loss": 3.0503,
	"step": 59400
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015109470703075903,
	"loss": 3.0462,
	"step": 59500
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015084333917065365,
	"loss": 3.0586,
	"step": 59600
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015059448498914928,
	"loss": 3.0502,
	"step": 59700
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.00015034563080764494,
	"loss": 3.0535,
	"step": 59800
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001500942629475395,
	"loss": 3.0608,
	"step": 59900
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001498428950874341,
	"loss": 3.0552,
	"step": 60000
	},
	{
	"epoch": 0.5,
	"eval_accuracy": 0.42880671032383433,
	"eval_loss": 3.071218967437744,
	"eval_runtime": 36.2431,
	"eval_samples_per_second": 309.466,
	"eval_steps_per_second": 2.594,
	"step": 60000
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001495915272273287,
	"loss": 3.0546,
	"step": 60100
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001493401593672233,
	"loss": 3.053,
	"step": 60200
	},
	{
	"epoch": 0.5,
	"learning_rate": 0.0001490887915071179,
	"loss": 3.0506,
	"step": 60300
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001488374236470125,
	"loss": 3.0562,
	"step": 60400
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014858605578690708,
	"loss": 3.0572,
	"step": 60500
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014833468792680167,
	"loss": 3.0568,
	"step": 60600
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014808332006669626,
	"loss": 3.0571,
	"step": 60700
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014783195220659085,
	"loss": 3.0483,
	"step": 60800
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014758058434648544,
	"loss": 3.0486,
	"step": 60900
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014732921648638004,
	"loss": 3.0457,
	"step": 61000
	},
	{
	"epoch": 0.51,
	"eval_accuracy": 0.42915000505464634,
	"eval_loss": 3.0692341327667236,
	"eval_runtime": 36.4055,
	"eval_samples_per_second": 308.086,
	"eval_steps_per_second": 2.582,
	"step": 61000
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014707784862627463,
	"loss": 3.0448,
	"step": 61100
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.00014682648076616922,
	"loss": 3.0498,
	"step": 61200
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001465751129060638,
	"loss": 3.0505,
	"step": 61300
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0001463237450459584,
	"loss": 3.0531,
	"step": 61400
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.000146072377185853,
	"loss": 3.0526,
	"step": 61500
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014582100932574758,
	"loss": 3.0585,
	"step": 61600
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001455696414656422,
	"loss": 3.0519,
	"step": 61700
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001453182736055368,
	"loss": 3.0545,
	"step": 61800
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014506690574543138,
	"loss": 3.0521,
	"step": 61900
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014481553788532598,
	"loss": 3.0425,
	"step": 62000
	},
	{
	"epoch": 0.52,
	"eval_accuracy": 0.4291008626596426,
	"eval_loss": 3.0679004192352295,
	"eval_runtime": 36.1636,
	"eval_samples_per_second": 310.146,
	"eval_steps_per_second": 2.599,
	"step": 62000
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001445666837038216,
	"loss": 3.0616,
	"step": 62100
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001443153158437162,
	"loss": 3.057,
	"step": 62200
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001440639479836108,
	"loss": 3.052,
	"step": 62300
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001438125801235054,
	"loss": 3.0501,
	"step": 62400
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001435612122634,
	"loss": 3.0457,
	"step": 62500
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.0001433098444032946,
	"loss": 3.0506,
	"step": 62600
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00014305847654318918,
	"loss": 3.0478,
	"step": 62700
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014280710868308378,
	"loss": 3.0545,
	"step": 62800
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014255574082297834,
	"loss": 3.0554,
	"step": 62900
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014230437296287296,
	"loss": 3.0573,
	"step": 63000
	},
	{
	"epoch": 0.53,
	"eval_accuracy": 0.42917527828636254,
	"eval_loss": 3.0663866996765137,
	"eval_runtime": 36.3952,
	"eval_samples_per_second": 308.172,
	"eval_steps_per_second": 2.583,
	"step": 63000
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014205300510276755,
	"loss": 3.0485,
	"step": 63100
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014180163724266214,
	"loss": 3.0476,
	"step": 63200
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014155026938255673,
	"loss": 3.0442,
	"step": 63300
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014129890152245132,
	"loss": 3.0486,
	"step": 63400
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014104753366234592,
	"loss": 3.0384,
	"step": 63500
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0001407961658022405,
	"loss": 3.0539,
	"step": 63600
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0001405447979421351,
	"loss": 3.0429,
	"step": 63700
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.0001402934300820297,
	"loss": 3.0444,
	"step": 63800
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00014004457590052535,
	"loss": 3.0489,
	"step": 63900
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013979320804041994,
	"loss": 3.0555,
	"step": 64000
	},
	{
	"epoch": 0.54,
	"eval_accuracy": 0.42978183584755186,
	"eval_loss": 3.0650320053100586,
	"eval_runtime": 37.0145,
	"eval_samples_per_second": 303.016,
	"eval_steps_per_second": 2.54,
	"step": 64000
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013954184018031453,
	"loss": 3.0507,
	"step": 64100
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013929047232020912,
	"loss": 3.0453,
	"step": 64200
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013903910446010372,
	"loss": 3.0495,
	"step": 64300
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0001387877365999983,
	"loss": 3.0446,
	"step": 64400
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0001385363687398929,
	"loss": 3.0488,
	"step": 64500
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013828500087978752,
	"loss": 3.0498,
	"step": 64600
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.0001380336330196821,
	"loss": 3.0441,
	"step": 64700
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013778226515957667,
	"loss": 3.0435,
	"step": 64800
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013753089729947126,
	"loss": 3.0517,
	"step": 64900
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013727952943936585,
	"loss": 3.0421,
	"step": 65000
	},
	{
	"epoch": 0.54,
	"eval_accuracy": 0.4294195861929527,
	"eval_loss": 3.0636541843414307,
	"eval_runtime": 36.752,
	"eval_samples_per_second": 305.181,
	"eval_steps_per_second": 2.558,
	"step": 65000
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00013702816157926045,
	"loss": 3.0412,
	"step": 65100
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013677679371915506,
	"loss": 3.0548,
	"step": 65200
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013652542585904966,
	"loss": 3.0409,
	"step": 65300
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013627405799894425,
	"loss": 3.0377,
	"step": 65400
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013602269013883884,
	"loss": 3.0429,
	"step": 65500
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013577383595733447,
	"loss": 3.0467,
	"step": 65600
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013552498177583013,
	"loss": 3.0496,
	"step": 65700
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013527361391572472,
	"loss": 3.0424,
	"step": 65800
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013502224605561932,
	"loss": 3.043,
	"step": 65900
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0001347708781955139,
	"loss": 3.0496,
	"step": 66000
	},
	{
	"epoch": 0.55,
	"eval_accuracy": 0.42957333168589307,
	"eval_loss": 3.062688112258911,
	"eval_runtime": 36.3303,
	"eval_samples_per_second": 308.723,
	"eval_steps_per_second": 2.587,
	"step": 66000
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0001345195103354085,
	"loss": 3.0434,
	"step": 66100
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.0001342681424753031,
	"loss": 3.0392,
	"step": 66200
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00013401677461519768,
	"loss": 3.041,
	"step": 66300
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013376540675509227,
	"loss": 3.0526,
	"step": 66400
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0001335140388949869,
	"loss": 3.046,
	"step": 66500
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013326267103488148,
	"loss": 3.0398,
	"step": 66600
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013301130317477607,
	"loss": 3.0473,
	"step": 66700
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013275993531467066,
	"loss": 3.0368,
	"step": 66800
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013250856745456523,
	"loss": 3.0427,
	"step": 66900
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013225719959445985,
	"loss": 3.0415,
	"step": 67000
	},
	{
	"epoch": 0.56,
	"eval_accuracy": 0.4300071888303548,
	"eval_loss": 3.060805320739746,
	"eval_runtime": 37.0174,
	"eval_samples_per_second": 302.993,
	"eval_steps_per_second": 2.539,
	"step": 67000
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013200583173435444,
	"loss": 3.0429,
	"step": 67100
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013175446387424903,
	"loss": 3.0494,
	"step": 67200
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.00013150309601414362,
	"loss": 3.0384,
	"step": 67300
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0001312517281540382,
	"loss": 3.0438,
	"step": 67400
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0001310003602939328,
	"loss": 3.0427,
	"step": 67500
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0001307489924338274,
	"loss": 3.0447,
	"step": 67600
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00013050013825232306,
	"loss": 3.0438,
	"step": 67700
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00013024877039221765,
	"loss": 3.0403,
	"step": 67800
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012999740253211224,
	"loss": 3.0478,
	"step": 67900
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012974603467200683,
	"loss": 3.0412,
	"step": 68000
	},
	{
	"epoch": 0.57,
	"eval_accuracy": 0.4298436148584137,
	"eval_loss": 3.0598626136779785,
	"eval_runtime": 36.2351,
	"eval_samples_per_second": 309.534,
	"eval_steps_per_second": 2.594,
	"step": 68000
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012949466681190142,
	"loss": 3.0411,
	"step": 68100
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.000129243298951796,
	"loss": 3.035,
	"step": 68200
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0001289919310916906,
	"loss": 3.0464,
	"step": 68300
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0001287405632315852,
	"loss": 3.0369,
	"step": 68400
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00012848919537147979,
	"loss": 3.0428,
	"step": 68500
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.0001282378275113744,
	"loss": 3.0436,
	"step": 68600
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.000127986459651269,
	"loss": 3.0454,
	"step": 68700
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012773509179116356,
	"loss": 3.0361,
	"step": 68800
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012748372393105815,
	"loss": 3.0437,
	"step": 68900
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012723235607095274,
	"loss": 3.0373,
	"step": 69000
	},
	{
	"epoch": 0.58,
	"eval_accuracy": 0.4302465824974446,
	"eval_loss": 3.057598829269409,
	"eval_runtime": 36.2031,
	"eval_samples_per_second": 309.808,
	"eval_steps_per_second": 2.596,
	"step": 69000
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0001269835018894484,
	"loss": 3.0426,
	"step": 69100
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.000126732134029343,
	"loss": 3.041,
	"step": 69200
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0001264807661692376,
	"loss": 3.036,
	"step": 69300
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012622939830913218,
	"loss": 3.0396,
	"step": 69400
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012597803044902677,
	"loss": 3.0418,
	"step": 69500
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012572666258892136,
	"loss": 3.0335,
	"step": 69600
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012547529472881595,
	"loss": 3.0334,
	"step": 69700
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012522392686871054,
	"loss": 3.0381,
	"step": 69800
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.00012497255900860516,
	"loss": 3.0393,
	"step": 69900
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012472119114849975,
	"loss": 3.0393,
	"step": 70000
	},
	{
	"epoch": 0.59,
	"eval_accuracy": 0.43052950228582343,
	"eval_loss": 3.05704665184021,
	"eval_runtime": 36.208,
	"eval_samples_per_second": 309.765,
	"eval_steps_per_second": 2.596,
	"step": 70000
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012446982328839434,
	"loss": 3.0383,
	"step": 70100
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012421845542828894,
	"loss": 3.0441,
	"step": 70200
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012396708756818353,
	"loss": 3.0388,
	"step": 70300
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012371823338667916,
	"loss": 3.0403,
	"step": 70400
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012346686552657378,
	"loss": 3.0368,
	"step": 70500
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012321549766646837,
	"loss": 3.0405,
	"step": 70600
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012296412980636296,
	"loss": 3.0351,
	"step": 70700
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0001227152756248586,
	"loss": 3.0355,
	"step": 70800
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.0001224639077647532,
	"loss": 3.038,
	"step": 70900
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012221253990464778,
	"loss": 3.0312,
	"step": 71000
	},
	{
	"epoch": 0.59,
	"eval_accuracy": 0.43072256169476675,
	"eval_loss": 3.056051254272461,
	"eval_runtime": 35.9605,
	"eval_samples_per_second": 311.897,
	"eval_steps_per_second": 2.614,
	"step": 71000
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00012196117204454238,
	"loss": 3.0336,
	"step": 71100
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012170980418443696,
	"loss": 3.0371,
	"step": 71200
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012145843632433155,
	"loss": 3.0415,
	"step": 71300
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012120706846422614,
	"loss": 3.033,
	"step": 71400
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012095570060412075,
	"loss": 3.0401,
	"step": 71500
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012070433274401534,
	"loss": 3.0407,
	"step": 71600
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012045296488390993,
	"loss": 3.0389,
	"step": 71700
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00012020159702380452,
	"loss": 3.0326,
	"step": 71800
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011995022916369911,
	"loss": 3.0343,
	"step": 71900
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011969886130359372,
	"loss": 3.0397,
	"step": 72000
	},
	{
	"epoch": 0.6,
	"eval_accuracy": 0.43072607186583844,
	"eval_loss": 3.0532803535461426,
	"eval_runtime": 36.5519,
	"eval_samples_per_second": 306.851,
	"eval_steps_per_second": 2.572,
	"step": 72000
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011945000712208935,
	"loss": 3.041,
	"step": 72100
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011919863926198396,
	"loss": 3.0375,
	"step": 72200
	},
	{
	"epoch": 0.6,
	"learning_rate": 0.00011894727140187855,
	"loss": 3.03,
	"step": 72300
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011869590354177314,
	"loss": 3.0314,
	"step": 72400
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011844453568166773,
	"loss": 3.0399,
	"step": 72500
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011819316782156232,
	"loss": 3.043,
	"step": 72600
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011794179996145693,
	"loss": 3.0324,
	"step": 72700
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011769043210135152,
	"loss": 3.037,
	"step": 72800
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011743906424124611,
	"loss": 3.0391,
	"step": 72900
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011718769638114069,
	"loss": 3.0303,
	"step": 73000
	},
	{
	"epoch": 0.61,
	"eval_accuracy": 0.43111219068372514,
	"eval_loss": 3.0526981353759766,
	"eval_runtime": 36.4926,
	"eval_samples_per_second": 307.35,
	"eval_steps_per_second": 2.576,
	"step": 73000
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011693632852103528,
	"loss": 3.0329,
	"step": 73100
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011668496066092987,
	"loss": 3.0346,
	"step": 73200
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011643359280082448,
	"loss": 3.0405,
	"step": 73300
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011618222494071907,
	"loss": 3.0344,
	"step": 73400
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00011593085708061366,
	"loss": 3.0389,
	"step": 73500
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011567948922050825,
	"loss": 3.0361,
	"step": 73600
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011542812136040285,
	"loss": 3.0329,
	"step": 73700
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011517675350029745,
	"loss": 3.0304,
	"step": 73800
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011492538564019204,
	"loss": 3.0316,
	"step": 73900
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011467401778008663,
	"loss": 3.0403,
	"step": 74000
	},
	{
	"epoch": 0.62,
	"eval_accuracy": 0.43146250575668055,
	"eval_loss": 3.0502421855926514,
	"eval_runtime": 36.2647,
	"eval_samples_per_second": 309.281,
	"eval_steps_per_second": 2.592,
	"step": 74000
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011442516359858228,
	"loss": 3.0443,
	"step": 74100
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011417379573847687,
	"loss": 3.0376,
	"step": 74200
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011392242787837146,
	"loss": 3.0313,
	"step": 74300
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011367106001826606,
	"loss": 3.0429,
	"step": 74400
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011341969215816065,
	"loss": 3.0342,
	"step": 74500
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011316832429805525,
	"loss": 3.0335,
	"step": 74600
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.00011291695643794984,
	"loss": 3.0375,
	"step": 74700
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011266558857784443,
	"loss": 3.0247,
	"step": 74800
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.000112414220717739,
	"loss": 3.0309,
	"step": 74900
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011216285285763361,
	"loss": 3.0326,
	"step": 75000
	},
	{
	"epoch": 0.63,
	"eval_accuracy": 0.43156359868354544,
	"eval_loss": 3.049257278442383,
	"eval_runtime": 36.2389,
	"eval_samples_per_second": 309.501,
	"eval_steps_per_second": 2.594,
	"step": 75000
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.0001119114849975282,
	"loss": 3.0389,
	"step": 75100
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011166011713742279,
	"loss": 3.0309,
	"step": 75200
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011141126295591844,
	"loss": 3.0375,
	"step": 75300
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011115989509581303,
	"loss": 3.0351,
	"step": 75400
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011090852723570762,
	"loss": 3.0324,
	"step": 75500
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011065715937560223,
	"loss": 3.0369,
	"step": 75600
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011040579151549682,
	"loss": 3.0289,
	"step": 75700
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.00011015442365539141,
	"loss": 3.0346,
	"step": 75800
	},
	{
	"epoch": 0.63,
	"learning_rate": 0.000109903055795286,
	"loss": 3.0234,
	"step": 75900
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.0001096516879351806,
	"loss": 3.0322,
	"step": 76000
	},
	{
	"epoch": 0.64,
	"eval_accuracy": 0.4314962033989688,
	"eval_loss": 3.0480940341949463,
	"eval_runtime": 35.8603,
	"eval_samples_per_second": 312.77,
	"eval_steps_per_second": 2.621,
	"step": 76000
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.0001094003200750752,
	"loss": 3.027,
	"step": 76100
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010914895221496979,
	"loss": 3.03,
	"step": 76200
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010890009803346544,
	"loss": 3.0236,
	"step": 76300
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010864873017336003,
	"loss": 3.0343,
	"step": 76400
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010839736231325462,
	"loss": 3.0335,
	"step": 76500
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010814599445314921,
	"loss": 3.0263,
	"step": 76600
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010789462659304382,
	"loss": 3.0269,
	"step": 76700
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010764325873293841,
	"loss": 3.0391,
	"step": 76800
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.000107391890872833,
	"loss": 3.0361,
	"step": 76900
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010714052301272759,
	"loss": 3.0265,
	"step": 77000
	},
	{
	"epoch": 0.64,
	"eval_accuracy": 0.4318640693272827,
	"eval_loss": 3.0469460487365723,
	"eval_runtime": 37.1071,
	"eval_samples_per_second": 302.26,
	"eval_steps_per_second": 2.533,
	"step": 77000
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00010688915515262217,
	"loss": 3.0313,
	"step": 77100
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010663778729251676,
	"loss": 3.0319,
	"step": 77200
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010638641943241136,
	"loss": 3.0247,
	"step": 77300
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010613505157230595,
	"loss": 3.0264,
	"step": 77400
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0001058861973908016,
	"loss": 3.0262,
	"step": 77500
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0001056348295306962,
	"loss": 3.0327,
	"step": 77600
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010538346167059079,
	"loss": 3.0318,
	"step": 77700
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010513209381048538,
	"loss": 3.0356,
	"step": 77800
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010488072595037997,
	"loss": 3.0374,
	"step": 77900
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010462935809027457,
	"loss": 3.0231,
	"step": 78000
	},
	{
	"epoch": 0.65,
	"eval_accuracy": 0.43201430464915136,
	"eval_loss": 3.045305013656616,
	"eval_runtime": 37.1474,
	"eval_samples_per_second": 301.933,
	"eval_steps_per_second": 2.53,
	"step": 78000
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010437799023016916,
	"loss": 3.0296,
	"step": 78100
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010412662237006376,
	"loss": 3.025,
	"step": 78200
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00010387525450995835,
	"loss": 3.0329,
	"step": 78300
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010362388664985294,
	"loss": 3.0268,
	"step": 78400
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010337251878974754,
	"loss": 3.0259,
	"step": 78500
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010312115092964213,
	"loss": 3.0298,
	"step": 78600
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010286978306953673,
	"loss": 3.0296,
	"step": 78700
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010261841520943132,
	"loss": 3.0291,
	"step": 78800
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0001023670473493259,
	"loss": 3.0371,
	"step": 78900
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0001021156794892205,
	"loss": 3.0259,
	"step": 79000
	},
	{
	"epoch": 0.66,
	"eval_accuracy": 0.43211188740494455,
	"eval_loss": 3.044191837310791,
	"eval_runtime": 37.3457,
	"eval_samples_per_second": 300.329,
	"eval_steps_per_second": 2.517,
	"step": 79000
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010186431162911509,
	"loss": 3.0266,
	"step": 79100
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010161294376900968,
	"loss": 3.0272,
	"step": 79200
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010136157590890427,
	"loss": 3.0191,
	"step": 79300
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.00010111020804879886,
	"loss": 3.0178,
	"step": 79400
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00010085884018869347,
	"loss": 3.0178,
	"step": 79500
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.0001006099860071891,
	"loss": 3.0264,
	"step": 79600
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00010036113182568475,
	"loss": 3.0172,
	"step": 79700
	},
	{
	"epoch": 0.67,
	"learning_rate": 0.00010010976396557934,
	"loss": 3.0276,
	"step": 79800
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.985839610547395e-05,
	"loss": 3.0254,
	"step": 79900
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.960702824536854e-05,
	"loss": 3.0219,
	"step": 80000
	},
	{
	"epoch": 0.67,
	"eval_accuracy": 0.43250292046233163,
	"eval_loss": 3.0422935485839844,
	"eval_runtime": 37.0202,
	"eval_samples_per_second": 302.97,
	"eval_steps_per_second": 2.539,
	"step": 80000
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.935566038526313e-05,
	"loss": 3.0265,
	"step": 80100
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.910429252515772e-05,
	"loss": 3.025,
	"step": 80200
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.885292466505231e-05,
	"loss": 3.0164,
	"step": 80300
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.860155680494692e-05,
	"loss": 3.0307,
	"step": 80400
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.835018894484151e-05,
	"loss": 3.0268,
	"step": 80500
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.80988210847361e-05,
	"loss": 3.0261,
	"step": 80600
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.784745322463069e-05,
	"loss": 3.0213,
	"step": 80700
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.75960853645253e-05,
	"loss": 3.0222,
	"step": 80800
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.734471750441989e-05,
	"loss": 3.0249,
	"step": 80900
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.709334964431448e-05,
	"loss": 3.0233,
	"step": 81000
	},
	{
	"epoch": 0.68,
	"eval_accuracy": 0.4324165702539679,
	"eval_loss": 3.0414962768554688,
	"eval_runtime": 37.0887,
	"eval_samples_per_second": 302.41,
	"eval_steps_per_second": 2.534,
	"step": 81000
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.684198178420906e-05,
	"loss": 3.0177,
	"step": 81100
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.659061392410365e-05,
	"loss": 3.0309,
	"step": 81200
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.633924606399824e-05,
	"loss": 3.0245,
	"step": 81300
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.608787820389284e-05,
	"loss": 3.0287,
	"step": 81400
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.583651034378743e-05,
	"loss": 3.0152,
	"step": 81500
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.558514248368203e-05,
	"loss": 3.0204,
	"step": 81600
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.533377462357662e-05,
	"loss": 3.0258,
	"step": 81700
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.508240676347121e-05,
	"loss": 3.0255,
	"step": 81800
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.483103890336581e-05,
	"loss": 3.0245,
	"step": 81900
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.45796710432604e-05,
	"loss": 3.0261,
	"step": 82000
	},
	{
	"epoch": 0.69,
	"eval_accuracy": 0.43273810192413537,
	"eval_loss": 3.040773868560791,
	"eval_runtime": 36.3004,
	"eval_samples_per_second": 308.977,
	"eval_steps_per_second": 2.59,
	"step": 82000
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.433081686175605e-05,
	"loss": 3.0236,
	"step": 82100
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.407944900165064e-05,
	"loss": 3.0339,
	"step": 82200
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.382808114154523e-05,
	"loss": 3.021,
	"step": 82300
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.357671328143983e-05,
	"loss": 3.0208,
	"step": 82400
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.332534542133443e-05,
	"loss": 3.0175,
	"step": 82500
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.307397756122902e-05,
	"loss": 3.0294,
	"step": 82600
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.282260970112361e-05,
	"loss": 3.0258,
	"step": 82700
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.25712418410182e-05,
	"loss": 3.0144,
	"step": 82800
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.231987398091278e-05,
	"loss": 3.016,
	"step": 82900
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.206850612080737e-05,
	"loss": 3.0221,
	"step": 83000
	},
	{
	"epoch": 0.69,
	"eval_accuracy": 0.43296696507801,
	"eval_loss": 3.038726806640625,
	"eval_runtime": 36.1807,
	"eval_samples_per_second": 309.999,
	"eval_steps_per_second": 2.598,
	"step": 83000
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.181965193930304e-05,
	"loss": 3.0217,
	"step": 83100
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.156828407919761e-05,
	"loss": 3.0149,
	"step": 83200
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.131691621909222e-05,
	"loss": 3.0247,
	"step": 83300
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.106554835898681e-05,
	"loss": 3.021,
	"step": 83400
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.081669417748246e-05,
	"loss": 3.0239,
	"step": 83500
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.056532631737705e-05,
	"loss": 3.0349,
	"step": 83600
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.031395845727164e-05,
	"loss": 3.026,
	"step": 83700
	},
	{
	"epoch": 0.7,
	"learning_rate": 9.006259059716623e-05,
	"loss": 3.0178,
	"step": 83800
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.981122273706082e-05,
	"loss": 3.0249,
	"step": 83900
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.955985487695543e-05,
	"loss": 3.0296,
	"step": 84000
	},
	{
	"epoch": 0.7,
	"eval_accuracy": 0.43312211463937905,
	"eval_loss": 3.0376861095428467,
	"eval_runtime": 38.9475,
	"eval_samples_per_second": 287.978,
	"eval_steps_per_second": 2.414,
	"step": 84000
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.930848701685002e-05,
	"loss": 3.0205,
	"step": 84100
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.905711915674461e-05,
	"loss": 3.0214,
	"step": 84200
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.88057512966392e-05,
	"loss": 3.0283,
	"step": 84300
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.85543834365338e-05,
	"loss": 3.0163,
	"step": 84400
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.83030155764284e-05,
	"loss": 3.02,
	"step": 84500
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.805164771632299e-05,
	"loss": 3.0189,
	"step": 84600
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.780027985621758e-05,
	"loss": 3.0167,
	"step": 84700
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.754891199611217e-05,
	"loss": 3.0177,
	"step": 84800
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.729754413600678e-05,
	"loss": 3.0226,
	"step": 84900
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.704617627590137e-05,
	"loss": 3.0186,
	"step": 85000
	},
	{
	"epoch": 0.71,
	"eval_accuracy": 0.4335391229626967,
	"eval_loss": 3.03602933883667,
	"eval_runtime": 36.1657,
	"eval_samples_per_second": 310.128,
	"eval_steps_per_second": 2.599,
	"step": 85000
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.679480841579594e-05,
	"loss": 3.0144,
	"step": 85100
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.65459542342916e-05,
	"loss": 3.0128,
	"step": 85200
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.629458637418618e-05,
	"loss": 3.0189,
	"step": 85300
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.604321851408077e-05,
	"loss": 3.0231,
	"step": 85400
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.579185065397537e-05,
	"loss": 3.0161,
	"step": 85500
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.554048279386996e-05,
	"loss": 3.0188,
	"step": 85600
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.528911493376456e-05,
	"loss": 3.027,
	"step": 85700
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.503774707365915e-05,
	"loss": 3.017,
	"step": 85800
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.478637921355374e-05,
	"loss": 3.0173,
	"step": 85900
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.453501135344834e-05,
	"loss": 3.0151,
	"step": 86000
	},
	{
	"epoch": 0.72,
	"eval_accuracy": 0.43330745167196466,
	"eval_loss": 3.034996747970581,
	"eval_runtime": 36.1826,
	"eval_samples_per_second": 309.983,
	"eval_steps_per_second": 2.598,
	"step": 86000
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.428364349334294e-05,
	"loss": 3.0227,
	"step": 86100
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.403227563323753e-05,
	"loss": 3.0163,
	"step": 86200
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.378090777313212e-05,
	"loss": 3.0096,
	"step": 86300
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.352953991302671e-05,
	"loss": 3.0147,
	"step": 86400
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.32781720529213e-05,
	"loss": 3.0051,
	"step": 86500
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.302680419281591e-05,
	"loss": 3.0201,
	"step": 86600
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.277795001131154e-05,
	"loss": 3.0169,
	"step": 86700
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.252658215120615e-05,
	"loss": 3.008,
	"step": 86800
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.227521429110074e-05,
	"loss": 3.0117,
	"step": 86900
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.202384643099533e-05,
	"loss": 3.0121,
	"step": 87000
	},
	{
	"epoch": 0.73,
	"eval_accuracy": 0.43354333516798277,
	"eval_loss": 3.033334493637085,
	"eval_runtime": 37.3178,
	"eval_samples_per_second": 300.553,
	"eval_steps_per_second": 2.519,
	"step": 87000
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.177247857088992e-05,
	"loss": 3.014,
	"step": 87100
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.15211107107845e-05,
	"loss": 3.0168,
	"step": 87200
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.126974285067909e-05,
	"loss": 3.0092,
	"step": 87300
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.10183749905737e-05,
	"loss": 3.0231,
	"step": 87400
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.076700713046829e-05,
	"loss": 3.0133,
	"step": 87500
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.051563927036288e-05,
	"loss": 3.0135,
	"step": 87600
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.026427141025747e-05,
	"loss": 3.0188,
	"step": 87700
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.001290355015206e-05,
	"loss": 3.0151,
	"step": 87800
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.976153569004667e-05,
	"loss": 3.0211,
	"step": 87900
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.951016782994126e-05,
	"loss": 3.0142,
	"step": 88000
	},
	{
	"epoch": 0.74,
	"eval_accuracy": 0.4337988756220023,
	"eval_loss": 3.032519817352295,
	"eval_runtime": 37.5602,
	"eval_samples_per_second": 298.614,
	"eval_steps_per_second": 2.503,
	"step": 88000
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.925879996983585e-05,
	"loss": 3.0117,
	"step": 88100
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.900743210973044e-05,
	"loss": 3.0092,
	"step": 88200
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.875606424962505e-05,
	"loss": 3.0124,
	"step": 88300
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.850469638951964e-05,
	"loss": 3.0104,
	"step": 88400
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.825584220801528e-05,
	"loss": 3.0136,
	"step": 88500
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.800447434790988e-05,
	"loss": 3.0186,
	"step": 88600
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.775310648780447e-05,
	"loss": 3.0107,
	"step": 88700
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.750173862769906e-05,
	"loss": 3.0129,
	"step": 88800
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.725037076759365e-05,
	"loss": 3.0117,
	"step": 88900
	},
	{
	"epoch": 0.74,
	"learning_rate": 7.699900290748825e-05,
	"loss": 3.0088,
	"step": 89000
	},
	{
	"epoch": 0.74,
	"eval_accuracy": 0.4338164264773608,
	"eval_loss": 3.031200647354126,
	"eval_runtime": 36.6187,
	"eval_samples_per_second": 306.292,
	"eval_steps_per_second": 2.567,
	"step": 89000
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.674763504738283e-05,
	"loss": 3.0107,
	"step": 89100
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.649626718727742e-05,
	"loss": 3.0104,
	"step": 89200
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.624489932717202e-05,
	"loss": 3.0141,
	"step": 89300
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.59935314670666e-05,
	"loss": 3.0263,
	"step": 89400
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.57421636069612e-05,
	"loss": 3.0093,
	"step": 89500
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.54907957468558e-05,
	"loss": 3.0057,
	"step": 89600
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.52394278867504e-05,
	"loss": 3.0104,
	"step": 89700
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.498806002664499e-05,
	"loss": 3.0202,
	"step": 89800
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.473669216653958e-05,
	"loss": 3.0118,
	"step": 89900
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.448532430643417e-05,
	"loss": 3.0087,
	"step": 90000
	},
	{
	"epoch": 0.75,
	"eval_accuracy": 0.43394138856751324,
	"eval_loss": 3.0297725200653076,
	"eval_runtime": 36.7079,
	"eval_samples_per_second": 305.547,
	"eval_steps_per_second": 2.561,
	"step": 90000
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.423395644632877e-05,
	"loss": 3.0163,
	"step": 90100
	},
	{
	"epoch": 0.75,
	"learning_rate": 7.398258858622336e-05,
	"loss": 3.0168,
	"step": 90200
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.373122072611796e-05,
	"loss": 3.0145,
	"step": 90300
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.347985286601255e-05,
	"loss": 3.0112,
	"step": 90400
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.322848500590714e-05,
	"loss": 3.0094,
	"step": 90500
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.297711714580173e-05,
	"loss": 3.0129,
	"step": 90600
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.272574928569632e-05,
	"loss": 3.0033,
	"step": 90700
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.247438142559092e-05,
	"loss": 3.0115,
	"step": 90800
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.222301356548552e-05,
	"loss": 3.0075,
	"step": 90900
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.197164570538011e-05,
	"loss": 3.0134,
	"step": 91000
	},
	{
	"epoch": 0.76,
	"eval_accuracy": 0.43423554090332145,
	"eval_loss": 3.0285885334014893,
	"eval_runtime": 36.591,
	"eval_samples_per_second": 306.523,
	"eval_steps_per_second": 2.569,
	"step": 91000
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.172279152387576e-05,
	"loss": 3.019,
	"step": 91100
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.147142366377035e-05,
	"loss": 3.0166,
	"step": 91200
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.122005580366494e-05,
	"loss": 3.0114,
	"step": 91300
	},
	{
	"epoch": 0.76,
	"learning_rate": 7.097120162216059e-05,
	"loss": 3.015,
	"step": 91400
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.071983376205518e-05,
	"loss": 3.0123,
	"step": 91500
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.046846590194977e-05,
	"loss": 3.007,
	"step": 91600
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.021709804184436e-05,
	"loss": 3.005,
	"step": 91700
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.996573018173895e-05,
	"loss": 3.0122,
	"step": 91800
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.971436232163356e-05,
	"loss": 3.0069,
	"step": 91900
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.946299446152815e-05,
	"loss": 3.0136,
	"step": 92000
	},
	{
	"epoch": 0.77,
	"eval_accuracy": 0.43437735181461806,
	"eval_loss": 3.0268590450286865,
	"eval_runtime": 36.7262,
	"eval_samples_per_second": 305.395,
	"eval_steps_per_second": 2.559,
	"step": 92000
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.921162660142274e-05,
	"loss": 3.0063,
	"step": 92100
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.896025874131733e-05,
	"loss": 3.007,
	"step": 92200
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.870889088121192e-05,
	"loss": 3.0132,
	"step": 92300
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.845752302110651e-05,
	"loss": 3.0145,
	"step": 92400
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.82061551610011e-05,
	"loss": 3.0116,
	"step": 92500
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.79547873008957e-05,
	"loss": 3.0138,
	"step": 92600
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.77034194407903e-05,
	"loss": 3.0075,
	"step": 92700
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.745205158068489e-05,
	"loss": 3.0098,
	"step": 92800
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.720068372057948e-05,
	"loss": 3.0058,
	"step": 92900
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.694931586047407e-05,
	"loss": 3.0043,
	"step": 93000
	},
	{
	"epoch": 0.78,
	"eval_accuracy": 0.43468133262942704,
	"eval_loss": 3.0255324840545654,
	"eval_runtime": 36.1761,
	"eval_samples_per_second": 310.039,
	"eval_steps_per_second": 2.598,
	"step": 93000
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.669794800036866e-05,
	"loss": 3.0167,
	"step": 93100
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.644658014026327e-05,
	"loss": 3.0077,
	"step": 93200
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.619521228015785e-05,
	"loss": 3.0087,
	"step": 93300
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.594384442005244e-05,
	"loss": 3.0137,
	"step": 93400
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.569499023854809e-05,
	"loss": 3.015,
	"step": 93500
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.544362237844268e-05,
	"loss": 3.0046,
	"step": 93600
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.519225451833728e-05,
	"loss": 3.0015,
	"step": 93700
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.494088665823187e-05,
	"loss": 3.0074,
	"step": 93800
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.468951879812646e-05,
	"loss": 3.0082,
	"step": 93900
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.443815093802106e-05,
	"loss": 2.9995,
	"step": 94000
	},
	{
	"epoch": 0.79,
	"eval_accuracy": 0.43484701270401116,
	"eval_loss": 3.023953914642334,
	"eval_runtime": 36.328,
	"eval_samples_per_second": 308.742,
	"eval_steps_per_second": 2.588,
	"step": 94000
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.418678307791566e-05,
	"loss": 3.0039,
	"step": 94100
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.393541521781025e-05,
	"loss": 3.0095,
	"step": 94200
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.368404735770483e-05,
	"loss": 3.0028,
	"step": 94300
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.343267949759943e-05,
	"loss": 3.0082,
	"step": 94400
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.318131163749403e-05,
	"loss": 3.0069,
	"step": 94500
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.292994377738862e-05,
	"loss": 3.0004,
	"step": 94600
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.267857591728321e-05,
	"loss": 3.0087,
	"step": 94700
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.24272080571778e-05,
	"loss": 3.0062,
	"step": 94800
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.21758401970724e-05,
	"loss": 3.0113,
	"step": 94900
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.1924472336967e-05,
	"loss": 3.001,
	"step": 95000
	},
	{
	"epoch": 0.79,
	"eval_accuracy": 0.434945999528233,
	"eval_loss": 3.0230536460876465,
	"eval_runtime": 36.4523,
	"eval_samples_per_second": 307.69,
	"eval_steps_per_second": 2.579,
	"step": 95000
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.167310447686157e-05,
	"loss": 3.0026,
	"step": 95100
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.142173661675618e-05,
	"loss": 3.01,
	"step": 95200
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.117036875665077e-05,
	"loss": 3.0073,
	"step": 95300
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.091900089654536e-05,
	"loss": 3.0101,
	"step": 95400
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.067014671504101e-05,
	"loss": 3.0013,
	"step": 95500
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.04187788549356e-05,
	"loss": 3.004,
	"step": 95600
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.01674109948302e-05,
	"loss": 3.0042,
	"step": 95700
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.991604313472479e-05,
	"loss": 3.0081,
	"step": 95800
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.966467527461938e-05,
	"loss": 3.0048,
	"step": 95900
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.941582109311503e-05,
	"loss": 3.007,
	"step": 96000
	},
	{
	"epoch": 0.8,
	"eval_accuracy": 0.4351959237085379,
	"eval_loss": 3.02174973487854,
	"eval_runtime": 36.367,
	"eval_samples_per_second": 308.412,
	"eval_steps_per_second": 2.585,
	"step": 96000
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.9164453233009627e-05,
	"loss": 3.006,
	"step": 96100
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.891308537290422e-05,
	"loss": 3.0025,
	"step": 96200
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.866171751279881e-05,
	"loss": 3.006,
	"step": 96300
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.841034965269341e-05,
	"loss": 2.9956,
	"step": 96400
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.815898179258799e-05,
	"loss": 2.9968,
	"step": 96500
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.790761393248258e-05,
	"loss": 3.0023,
	"step": 96600
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.765624607237718e-05,
	"loss": 3.0014,
	"step": 96700
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.740487821227177e-05,
	"loss": 2.9961,
	"step": 96800
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.715351035216637e-05,
	"loss": 3.0024,
	"step": 96900
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.690214249206096e-05,
	"loss": 3.0035,
	"step": 97000
	},
	{
	"epoch": 0.81,
	"eval_accuracy": 0.43532720410661935,
	"eval_loss": 3.02020263671875,
	"eval_runtime": 37.453,
	"eval_samples_per_second": 299.469,
	"eval_steps_per_second": 2.51,
	"step": 97000
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.665328831055661e-05,
	"loss": 3.0032,
	"step": 97100
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.64019204504512e-05,
	"loss": 2.9961,
	"step": 97200
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.61505525903458e-05,
	"loss": 3.0048,
	"step": 97300
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.589918473024039e-05,
	"loss": 2.9939,
	"step": 97400
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.565033054873604e-05,
	"loss": 2.9995,
	"step": 97500
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.539896268863063e-05,
	"loss": 3.0067,
	"step": 97600
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.514759482852523e-05,
	"loss": 2.9924,
	"step": 97700
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.489622696841981e-05,
	"loss": 2.9997,
	"step": 97800
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.46448591083144e-05,
	"loss": 3.0077,
	"step": 97900
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.4393491248209e-05,
	"loss": 2.9966,
	"step": 98000
	},
	{
	"epoch": 0.82,
	"eval_accuracy": 0.43553711233670683,
	"eval_loss": 3.019421100616455,
	"eval_runtime": 36.419,
	"eval_samples_per_second": 307.971,
	"eval_steps_per_second": 2.581,
	"step": 98000
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.414212338810359e-05,
	"loss": 3.0027,
	"step": 98100
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.3890755527998184e-05,
	"loss": 3.0008,
	"step": 98200
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.363938766789278e-05,
	"loss": 3.0019,
	"step": 98300
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.338801980778737e-05,
	"loss": 2.9993,
	"step": 98400
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.313665194768197e-05,
	"loss": 3.0025,
	"step": 98500
	},
	{
	"epoch": 0.82,
	"learning_rate": 5.2885284087576555e-05,
	"loss": 2.9987,
	"step": 98600
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.263391622747115e-05,
	"loss": 3.0054,
	"step": 98700
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.2382548367365745e-05,
	"loss": 3.0064,
	"step": 98800
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.2131180507260336e-05,
	"loss": 3.0096,
	"step": 98900
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1879812647154934e-05,
	"loss": 2.9881,
	"step": 99000
	},
	{
	"epoch": 0.83,
	"eval_accuracy": 0.4356613723926449,
	"eval_loss": 3.0177648067474365,
	"eval_runtime": 37.6095,
	"eval_samples_per_second": 298.223,
	"eval_steps_per_second": 2.499,
	"step": 99000
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1628444787049525e-05,
	"loss": 3.0002,
	"step": 99100
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1377076926944117e-05,
	"loss": 2.9966,
	"step": 99200
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.1128222745439764e-05,
	"loss": 3.0012,
	"step": 99300
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.0876854885334356e-05,
	"loss": 2.9964,
	"step": 99400
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.0625487025228954e-05,
	"loss": 2.9981,
	"step": 99500
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.037411916512354e-05,
	"loss": 2.9986,
	"step": 99600
	},
	{
	"epoch": 0.83,
	"learning_rate": 5.012275130501813e-05,
	"loss": 2.9981,
	"step": 99700
	},
	{
	"epoch": 0.83,
	"learning_rate": 4.987138344491273e-05,
	"loss": 3.0057,
	"step": 99800
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.962001558480732e-05,
	"loss": 2.994,
	"step": 99900
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.936864772470192e-05,
	"loss": 3.0028,
	"step": 100000
	},
	{
	"epoch": 0.84,
	"eval_accuracy": 0.43574631853258,
	"eval_loss": 3.0173962116241455,
	"eval_runtime": 36.2768,
	"eval_samples_per_second": 309.179,
	"eval_steps_per_second": 2.591,
	"step": 100000
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.911727986459651e-05,
	"loss": 3.0028,
	"step": 100100
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.8865912004491106e-05,
	"loss": 2.9969,
	"step": 100200
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.86145441443857e-05,
	"loss": 3.0029,
	"step": 100300
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.836317628428029e-05,
	"loss": 3.0033,
	"step": 100400
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.811180842417488e-05,
	"loss": 2.9945,
	"step": 100500
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.786044056406947e-05,
	"loss": 2.9985,
	"step": 100600
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.760907270396406e-05,
	"loss": 2.9952,
	"step": 100700
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.735770484385866e-05,
	"loss": 2.9859,
	"step": 100800
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.710633698375325e-05,
	"loss": 2.9951,
	"step": 100900
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.685496912364785e-05,
	"loss": 2.9933,
	"step": 101000
	},
	{
	"epoch": 0.84,
	"eval_accuracy": 0.4362117672166871,
	"eval_loss": 3.01594614982605,
	"eval_runtime": 36.0518,
	"eval_samples_per_second": 311.108,
	"eval_steps_per_second": 2.607,
	"step": 101000
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.660360126354244e-05,
	"loss": 2.9979,
	"step": 101100
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.635223340343704e-05,
	"loss": 2.9961,
	"step": 101200
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.6100865543331624e-05,
	"loss": 3.0076,
	"step": 101300
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.5849497683226215e-05,
	"loss": 3.0,
	"step": 101400
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.559812982312081e-05,
	"loss": 2.9964,
	"step": 101500
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.5346761963015404e-05,
	"loss": 2.9951,
	"step": 101600
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.5095394102909996e-05,
	"loss": 2.9964,
	"step": 101700
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.4844026242804594e-05,
	"loss": 3.0034,
	"step": 101800
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.4592658382699185e-05,
	"loss": 2.994,
	"step": 101900
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.434129052259378e-05,
	"loss": 3.0002,
	"step": 102000
	},
	{
	"epoch": 0.85,
	"eval_accuracy": 0.43605310748424636,
	"eval_loss": 3.01462721824646,
	"eval_runtime": 36.4761,
	"eval_samples_per_second": 307.489,
	"eval_steps_per_second": 2.577,
	"step": 102000
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.408992266248837e-05,
	"loss": 2.9951,
	"step": 102100
	},
	{
	"epoch": 0.85,
	"learning_rate": 4.383855480238296e-05,
	"loss": 2.9959,
	"step": 102200
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.358718694227756e-05,
	"loss": 2.9922,
	"step": 102300
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.333581908217215e-05,
	"loss": 2.9888,
	"step": 102400
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.3084451222066746e-05,
	"loss": 2.9951,
	"step": 102500
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.283559704056239e-05,
	"loss": 2.994,
	"step": 102600
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.2586742859058035e-05,
	"loss": 2.9969,
	"step": 102700
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.2335374998952626e-05,
	"loss": 2.9959,
	"step": 102800
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.2084007138847224e-05,
	"loss": 3.0063,
	"step": 102900
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.1832639278741816e-05,
	"loss": 2.9901,
	"step": 103000
	},
	{
	"epoch": 0.86,
	"eval_accuracy": 0.4364076347624878,
	"eval_loss": 3.0131843090057373,
	"eval_runtime": 36.6938,
	"eval_samples_per_second": 305.665,
	"eval_steps_per_second": 2.562,
	"step": 103000
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.1581271418636414e-05,
	"loss": 2.996,
	"step": 103100
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.1329903558531005e-05,
	"loss": 2.9928,
	"step": 103200
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.1078535698425596e-05,
	"loss": 2.9981,
	"step": 103300
	},
	{
	"epoch": 0.86,
	"learning_rate": 4.082716783832019e-05,
	"loss": 2.9999,
	"step": 103400
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.057579997821478e-05,
	"loss": 2.9879,
	"step": 103500
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.032443211810937e-05,
	"loss": 2.9927,
	"step": 103600
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.007306425800397e-05,
	"loss": 2.997,
	"step": 103700
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.982169639789856e-05,
	"loss": 2.9899,
	"step": 103800
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.957032853779316e-05,
	"loss": 3.0014,
	"step": 103900
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.931896067768775e-05,
	"loss": 2.9895,
	"step": 104000
	},
	{
	"epoch": 0.87,
	"eval_accuracy": 0.4363837655992002,
	"eval_loss": 3.012049674987793,
	"eval_runtime": 36.7749,
	"eval_samples_per_second": 304.99,
	"eval_steps_per_second": 2.556,
	"step": 104000
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.906759281758235e-05,
	"loss": 3.0,
	"step": 104100
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.881622495747693e-05,
	"loss": 2.9981,
	"step": 104200
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.856485709737152e-05,
	"loss": 2.9975,
	"step": 104300
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.831600291586718e-05,
	"loss": 3.0007,
	"step": 104400
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.806463505576176e-05,
	"loss": 2.9958,
	"step": 104500
	},
	{
	"epoch": 0.87,
	"learning_rate": 3.781326719565636e-05,
	"loss": 2.9939,
	"step": 104600
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.756189933555095e-05,
	"loss": 2.9936,
	"step": 104700
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.731053147544555e-05,
	"loss": 3.0004,
	"step": 104800
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.705916361534014e-05,
	"loss": 2.9945,
	"step": 104900
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.680779575523473e-05,
	"loss": 2.9882,
	"step": 105000
	},
	{
	"epoch": 0.88,
	"eval_accuracy": 0.4366730036955081,
	"eval_loss": 3.0106048583984375,
	"eval_runtime": 36.7107,
	"eval_samples_per_second": 305.524,
	"eval_steps_per_second": 2.561,
	"step": 105000
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.655642789512932e-05,
	"loss": 2.9919,
	"step": 105100
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.630506003502392e-05,
	"loss": 2.9894,
	"step": 105200
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.605369217491851e-05,
	"loss": 3.0005,
	"step": 105300
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.580483799341416e-05,
	"loss": 2.9884,
	"step": 105400
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.555347013330875e-05,
	"loss": 2.9865,
	"step": 105500
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.530210227320335e-05,
	"loss": 2.9909,
	"step": 105600
	},
	{
	"epoch": 0.88,
	"learning_rate": 3.5050734413097934e-05,
	"loss": 2.9961,
	"step": 105700
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.479936655299253e-05,
	"loss": 2.9905,
	"step": 105800
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.454799869288712e-05,
	"loss": 2.9913,
	"step": 105900
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.429914451138277e-05,
	"loss": 2.9866,
	"step": 106000
	},
	{
	"epoch": 0.89,
	"eval_accuracy": 0.4369524133128152,
	"eval_loss": 3.008857250213623,
	"eval_runtime": 36.004,
	"eval_samples_per_second": 311.521,
	"eval_steps_per_second": 2.611,
	"step": 106000
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.404777665127736e-05,
	"loss": 2.9893,
	"step": 106100
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.379640879117196e-05,
	"loss": 2.989,
	"step": 106200
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.354504093106655e-05,
	"loss": 2.9886,
	"step": 106300
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.329367307096114e-05,
	"loss": 2.9835,
	"step": 106400
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.3042305210855734e-05,
	"loss": 2.9918,
	"step": 106500
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.279093735075033e-05,
	"loss": 2.9855,
	"step": 106600
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.2539569490644923e-05,
	"loss": 2.9895,
	"step": 106700
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.229071530914057e-05,
	"loss": 2.9791,
	"step": 106800
	},
	{
	"epoch": 0.89,
	"learning_rate": 3.203934744903516e-05,
	"loss": 2.9955,
	"step": 106900
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.178797958892976e-05,
	"loss": 2.9961,
	"step": 107000
	},
	{
	"epoch": 0.9,
	"eval_accuracy": 0.43725920226448156,
	"eval_loss": 3.007978677749634,
	"eval_runtime": 36.4349,
	"eval_samples_per_second": 307.837,
	"eval_steps_per_second": 2.58,
	"step": 107000
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.153661172882435e-05,
	"loss": 2.9921,
	"step": 107100
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.128524386871894e-05,
	"loss": 2.9937,
	"step": 107200
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.1033876008613534e-05,
	"loss": 2.9894,
	"step": 107300
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.078250814850813e-05,
	"loss": 2.9919,
	"step": 107400
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.0531140288402724e-05,
	"loss": 2.9906,
	"step": 107500
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.0279772428297315e-05,
	"loss": 2.9839,
	"step": 107600
	},
	{
	"epoch": 0.9,
	"learning_rate": 3.002840456819191e-05,
	"loss": 2.9871,
	"step": 107700
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.9777036708086504e-05,
	"loss": 2.9891,
	"step": 107800
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.9525668847981092e-05,
	"loss": 2.9898,
	"step": 107900
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.9274300987875687e-05,
	"loss": 2.9876,
	"step": 108000
	},
	{
	"epoch": 0.9,
	"eval_accuracy": 0.4373946948678491,
	"eval_loss": 3.0067296028137207,
	"eval_runtime": 36.3734,
	"eval_samples_per_second": 308.357,
	"eval_steps_per_second": 2.584,
	"step": 108000
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.902293312777028e-05,
	"loss": 2.9917,
	"step": 108100
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.8771565267664876e-05,
	"loss": 2.9916,
	"step": 108200
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.8520197407559464e-05,
	"loss": 2.9981,
	"step": 108300
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.826882954745406e-05,
	"loss": 2.9817,
	"step": 108400
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.8017461687348653e-05,
	"loss": 2.9875,
	"step": 108500
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.7766093827243248e-05,
	"loss": 2.9904,
	"step": 108600
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.751472596713784e-05,
	"loss": 2.9882,
	"step": 108700
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.7265871785633487e-05,
	"loss": 2.9885,
	"step": 108800
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.701450392552808e-05,
	"loss": 2.9898,
	"step": 108900
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.6763136065422673e-05,
	"loss": 2.9873,
	"step": 109000
	},
	{
	"epoch": 0.91,
	"eval_accuracy": 0.43755826883979015,
	"eval_loss": 3.0054852962493896,
	"eval_runtime": 36.8956,
	"eval_samples_per_second": 303.993,
	"eval_steps_per_second": 2.548,
	"step": 109000
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.6511768205317264e-05,
	"loss": 2.9921,
	"step": 109100
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.626040034521186e-05,
	"loss": 2.9863,
	"step": 109200
	},
	{
	"epoch": 0.91,
	"learning_rate": 2.600903248510645e-05,
	"loss": 2.9902,
	"step": 109300
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.5757664625001045e-05,
	"loss": 2.9823,
	"step": 109400
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.5508810443496693e-05,
	"loss": 2.9978,
	"step": 109500
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.5257442583391284e-05,
	"loss": 2.9859,
	"step": 109600
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.500607472328588e-05,
	"loss": 2.9821,
	"step": 109700
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.4754706863180473e-05,
	"loss": 2.9932,
	"step": 109800
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.4503339003075065e-05,
	"loss": 2.9906,
	"step": 109900
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.4251971142969656e-05,
	"loss": 2.9891,
	"step": 110000
	},
	{
	"epoch": 0.92,
	"eval_accuracy": 0.4375182528895728,
	"eval_loss": 3.004079580307007,
	"eval_runtime": 36.2219,
	"eval_samples_per_second": 309.647,
	"eval_steps_per_second": 2.595,
	"step": 110000
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.400060328286425e-05,
	"loss": 2.9875,
	"step": 110100
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.3749235422758845e-05,
	"loss": 2.9859,
	"step": 110200
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.349786756265344e-05,
	"loss": 2.9865,
	"step": 110300
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.3246499702548028e-05,
	"loss": 2.994,
	"step": 110400
	},
	{
	"epoch": 0.92,
	"learning_rate": 2.2995131842442623e-05,
	"loss": 2.9817,
	"step": 110500
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.2743763982337217e-05,
	"loss": 2.9915,
	"step": 110600
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.2492396122231812e-05,
	"loss": 2.9927,
	"step": 110700
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.22410282621264e-05,
	"loss": 2.9908,
	"step": 110800
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.1989660402020994e-05,
	"loss": 2.9897,
	"step": 110900
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.173829254191559e-05,
	"loss": 2.9835,
	"step": 111000
	},
	{
	"epoch": 0.93,
	"eval_accuracy": 0.4377632628303773,
	"eval_loss": 3.0032153129577637,
	"eval_runtime": 36.5662,
	"eval_samples_per_second": 306.731,
	"eval_steps_per_second": 2.571,
	"step": 111000
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.1486924681810184e-05,
	"loss": 2.9787,
	"step": 111100
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.123555682170477e-05,
	"loss": 2.9831,
	"step": 111200
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.0984188961599366e-05,
	"loss": 2.9913,
	"step": 111300
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.073282110149396e-05,
	"loss": 2.9904,
	"step": 111400
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.0481453241388556e-05,
	"loss": 2.9842,
	"step": 111500
	},
	{
	"epoch": 0.93,
	"learning_rate": 2.0230085381283147e-05,
	"loss": 2.987,
	"step": 111600
	},
	{
	"epoch": 0.93,
	"learning_rate": 1.9978717521177738e-05,
	"loss": 2.9868,
	"step": 111700
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.9727349661072333e-05,
	"loss": 2.9887,
	"step": 111800
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.9475981800966928e-05,
	"loss": 2.9844,
	"step": 111900
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.922461394086152e-05,
	"loss": 2.9887,
	"step": 112000
	},
	{
	"epoch": 0.94,
	"eval_accuracy": 0.4380391622766127,
	"eval_loss": 3.0022435188293457,
	"eval_runtime": 36.4456,
	"eval_samples_per_second": 307.746,
	"eval_steps_per_second": 2.579,
	"step": 112000
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.8973246080756113e-05,
	"loss": 2.9792,
	"step": 112100
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.8721878220650705e-05,
	"loss": 2.9813,
	"step": 112200
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.84705103605453e-05,
	"loss": 2.9852,
	"step": 112300
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.821914250043989e-05,
	"loss": 2.9927,
	"step": 112400
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.797028831893554e-05,
	"loss": 2.9869,
	"step": 112500
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7718920458830133e-05,
	"loss": 2.9798,
	"step": 112600
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.7467552598724724e-05,
	"loss": 2.982,
	"step": 112700
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.721618473861932e-05,
	"loss": 2.9787,
	"step": 112800
	},
	{
	"epoch": 0.94,
	"learning_rate": 1.6964816878513914e-05,
	"loss": 2.9891,
	"step": 112900
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.671596269700956e-05,
	"loss": 2.9876,
	"step": 113000
	},
	{
	"epoch": 0.95,
	"eval_accuracy": 0.43829610679906095,
	"eval_loss": 3.0009684562683105,
	"eval_runtime": 37.5779,
	"eval_samples_per_second": 298.473,
	"eval_steps_per_second": 2.501,
	"step": 113000
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.6464594836904153e-05,
	"loss": 2.9809,
	"step": 113100
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.6213226976798747e-05,
	"loss": 2.9933,
	"step": 113200
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.596185911669334e-05,
	"loss": 2.9868,
	"step": 113300
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.5710491256587933e-05,
	"loss": 2.9867,
	"step": 113400
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.5459123396482525e-05,
	"loss": 2.9831,
	"step": 113500
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.5207755536377118e-05,
	"loss": 2.9857,
	"step": 113600
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.495638767627171e-05,
	"loss": 2.9861,
	"step": 113700
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.4705019816166305e-05,
	"loss": 2.9797,
	"step": 113800
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.4453651956060897e-05,
	"loss": 2.9819,
	"step": 113900
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.4202284095955491e-05,
	"loss": 2.9818,
	"step": 114000
	},
	{
	"epoch": 0.95,
	"eval_accuracy": 0.4384379177103575,
	"eval_loss": 2.9998745918273926,
	"eval_runtime": 36.4806,
	"eval_samples_per_second": 307.451,
	"eval_steps_per_second": 2.577,
	"step": 114000
	},
	{
	"epoch": 0.95,
	"learning_rate": 1.3950916235850083e-05,
	"loss": 2.9861,
	"step": 114100
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.3699548375744677e-05,
	"loss": 2.9859,
	"step": 114200
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.3448180515639268e-05,
	"loss": 2.9864,
	"step": 114300
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.3196812655533863e-05,
	"loss": 2.9818,
	"step": 114400
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.2945444795428454e-05,
	"loss": 2.9732,
	"step": 114500
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.2694076935323049e-05,
	"loss": 2.9859,
	"step": 114600
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.244270907521764e-05,
	"loss": 2.9828,
	"step": 114700
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.2191341215112235e-05,
	"loss": 2.9837,
	"step": 114800
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1939973355006828e-05,
	"loss": 2.9748,
	"step": 114900
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1688605494901421e-05,
	"loss": 2.9797,
	"step": 115000
	},
	{
	"epoch": 0.96,
	"eval_accuracy": 0.43843651364192887,
	"eval_loss": 2.999021291732788,
	"eval_runtime": 36.1681,
	"eval_samples_per_second": 310.108,
	"eval_steps_per_second": 2.599,
	"step": 115000
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1437237634796014e-05,
	"loss": 2.9813,
	"step": 115100
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.1185869774690607e-05,
	"loss": 2.978,
	"step": 115200
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.09345019145852e-05,
	"loss": 2.9886,
	"step": 115300
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0683134054479795e-05,
	"loss": 2.9744,
	"step": 115400
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0431766194374386e-05,
	"loss": 2.9804,
	"step": 115500
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.0182912012870034e-05,
	"loss": 2.984,
	"step": 115600
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.931544152764628e-06,
	"loss": 2.985,
	"step": 115700
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.68017629265922e-06,
	"loss": 2.9843,
	"step": 115800
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.428808432553814e-06,
	"loss": 2.9809,
	"step": 115900
	},
	{
	"epoch": 0.97,
	"learning_rate": 9.177440572448405e-06,
	"loss": 2.9842,
	"step": 116000
	},
	{
	"epoch": 0.97,
	"eval_accuracy": 0.43876225751738235,
	"eval_loss": 2.9980885982513428,
	"eval_runtime": 36.1964,
	"eval_samples_per_second": 309.865,
	"eval_steps_per_second": 2.597,
	"step": 116000
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.926072712342998e-06,
	"loss": 2.9702,
	"step": 116100
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.674704852237591e-06,
	"loss": 2.9799,
	"step": 116200
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.423336992132184e-06,
	"loss": 2.9825,
	"step": 116300
	},
	{
	"epoch": 0.97,
	"learning_rate": 8.171969132026777e-06,
	"loss": 2.9726,
	"step": 116400
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.920601271921372e-06,
	"loss": 2.9788,
	"step": 116500
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.669233411815965e-06,
	"loss": 2.988,
	"step": 116600
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.417865551710557e-06,
	"loss": 2.9795,
	"step": 116700
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.16649769160515e-06,
	"loss": 2.9797,
	"step": 116800
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.915129831499744e-06,
	"loss": 2.9735,
	"step": 116900
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.663761971394337e-06,
	"loss": 2.9739,
	"step": 117000
	},
	{
	"epoch": 0.98,
	"eval_accuracy": 0.43866397272737484,
	"eval_loss": 2.9972493648529053,
	"eval_runtime": 36.7078,
	"eval_samples_per_second": 305.548,
	"eval_steps_per_second": 2.561,
	"step": 117000
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.41239411128893e-06,
	"loss": 2.9765,
	"step": 117100
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.161026251183523e-06,
	"loss": 2.9859,
	"step": 117200
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.909658391078116e-06,
	"loss": 2.9897,
	"step": 117300
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.658290530972709e-06,
	"loss": 2.9855,
	"step": 117400
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.406922670867302e-06,
	"loss": 2.9747,
	"step": 117500
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.155554810761895e-06,
	"loss": 2.9732,
	"step": 117600
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.9041869506564885e-06,
	"loss": 2.9796,
	"step": 117700
	},
	{
	"epoch": 0.99,
	"learning_rate": 4.6528190905510815e-06,
	"loss": 2.9782,
	"step": 117800
	},
	{
	"epoch": 0.99,
	"learning_rate": 4.4014512304456745e-06,
	"loss": 2.9841,
	"step": 117900
	},
	{
	"epoch": 0.99,
	"learning_rate": 4.150083370340268e-06,
	"loss": 2.9804,
	"step": 118000
	},
	{
	"epoch": 0.99,
	"eval_accuracy": 0.43883737517831667,
	"eval_loss": 2.9965155124664307,
	"eval_runtime": 36.1347,
	"eval_samples_per_second": 310.394,
	"eval_steps_per_second": 2.601,
	"step": 118000
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.898715510234861e-06,
	"loss": 2.9836,
	"step": 118100
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.6473476501294542e-06,
	"loss": 2.9815,
	"step": 118200
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.398493468625101e-06,
	"loss": 2.9744,
	"step": 118300
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.147125608519694e-06,
	"loss": 2.9847,
	"step": 118400
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.8957577484142875e-06,
	"loss": 2.9733,
	"step": 118500
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.6469035669099345e-06,
	"loss": 2.9766,
	"step": 118600
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.395535706804528e-06,
	"loss": 2.9802,
	"step": 118700
	},
	{
	"epoch": 0.99,
	"learning_rate": 2.144167846699121e-06,
	"loss": 2.9757,
	"step": 118800
	},
	{
	"epoch": 0.99,
	"learning_rate": 1.8927999865937138e-06,
	"loss": 2.9775,
	"step": 118900
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.641432126488307e-06,
	"loss": 2.9828,
	"step": 119000
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.43901218169768724,
	"eval_loss": 2.995953321456909,
	"eval_runtime": 36.3994,
	"eval_samples_per_second": 308.137,
	"eval_steps_per_second": 2.582,
	"step": 119000
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.3900642663829e-06,
	"loss": 2.9783,
	"step": 119100
	},
	{
	"epoch": 1.0,
	"learning_rate": 1.1386964062774932e-06,
	"loss": 2.9723,
	"step": 119200
	},
	{
	"epoch": 1.0,
	"learning_rate": 8.873285461720863e-07,
	"loss": 2.9817,
	"step": 119300
	},
	{
	"epoch": 1.0,
	"learning_rate": 6.359606860666794e-07,
	"loss": 2.9792,
	"step": 119400
	},
	{
	"epoch": 1.0,
	"learning_rate": 3.8459282596127255e-07,
	"loss": 2.982,
	"step": 119500
	},
	{
	"epoch": 1.0,
	"step": 119547,
	"total_flos": 1.455921831670228e+20,
	"train_loss": 3.081914688561298,
	"train_runtime": 169290.0352,
	"train_samples_per_second": 169.48,
	"train_steps_per_second": 0.706
	}
	],
	"max_steps": 119547,
	"num_train_epochs": 1,
	"total_flos": 1.455921831670228e+20,
	"trial_name": null,
	"trial_params": null
	}