top_20_ranking_stackexchange / trainer_state.json

End of training

be5ffc7 verified 19 days ago

36.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.999498746867168,
	"eval_steps": 500,
	"global_step": 2244,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013366750208855471,
	"grad_norm": 2.4323846059062397,
	"learning_rate": 5e-06,
	"loss": 1.0521,
	"step": 10
	},
	{
	"epoch": 0.026733500417710943,
	"grad_norm": 1.2707159898783558,
	"learning_rate": 5e-06,
	"loss": 0.9449,
	"step": 20
	},
	{
	"epoch": 0.040100250626566414,
	"grad_norm": 0.6645760066182232,
	"learning_rate": 5e-06,
	"loss": 0.9205,
	"step": 30
	},
	{
	"epoch": 0.053467000835421885,
	"grad_norm": 0.6860381528425127,
	"learning_rate": 5e-06,
	"loss": 0.9062,
	"step": 40
	},
	{
	"epoch": 0.06683375104427736,
	"grad_norm": 0.8462056832267063,
	"learning_rate": 5e-06,
	"loss": 0.8941,
	"step": 50
	},
	{
	"epoch": 0.08020050125313283,
	"grad_norm": 0.5498617128094427,
	"learning_rate": 5e-06,
	"loss": 0.8866,
	"step": 60
	},
	{
	"epoch": 0.0935672514619883,
	"grad_norm": 0.6217303867910247,
	"learning_rate": 5e-06,
	"loss": 0.8719,
	"step": 70
	},
	{
	"epoch": 0.10693400167084377,
	"grad_norm": 0.687429978149511,
	"learning_rate": 5e-06,
	"loss": 0.876,
	"step": 80
	},
	{
	"epoch": 0.12030075187969924,
	"grad_norm": 0.7639829931940186,
	"learning_rate": 5e-06,
	"loss": 0.8704,
	"step": 90
	},
	{
	"epoch": 0.1336675020885547,
	"grad_norm": 0.5349974897408032,
	"learning_rate": 5e-06,
	"loss": 0.8677,
	"step": 100
	},
	{
	"epoch": 0.14703425229741018,
	"grad_norm": 0.6212381364086903,
	"learning_rate": 5e-06,
	"loss": 0.8624,
	"step": 110
	},
	{
	"epoch": 0.16040100250626566,
	"grad_norm": 0.5610901155787884,
	"learning_rate": 5e-06,
	"loss": 0.8621,
	"step": 120
	},
	{
	"epoch": 0.17376775271512113,
	"grad_norm": 0.6155926013296407,
	"learning_rate": 5e-06,
	"loss": 0.8582,
	"step": 130
	},
	{
	"epoch": 0.1871345029239766,
	"grad_norm": 0.6528571036607788,
	"learning_rate": 5e-06,
	"loss": 0.8532,
	"step": 140
	},
	{
	"epoch": 0.20050125313283207,
	"grad_norm": 0.5372075443842537,
	"learning_rate": 5e-06,
	"loss": 0.8492,
	"step": 150
	},
	{
	"epoch": 0.21386800334168754,
	"grad_norm": 0.7095829143035569,
	"learning_rate": 5e-06,
	"loss": 0.8494,
	"step": 160
	},
	{
	"epoch": 0.227234753550543,
	"grad_norm": 0.7745444177509586,
	"learning_rate": 5e-06,
	"loss": 0.8476,
	"step": 170
	},
	{
	"epoch": 0.24060150375939848,
	"grad_norm": 0.7586050901974903,
	"learning_rate": 5e-06,
	"loss": 0.8494,
	"step": 180
	},
	{
	"epoch": 0.25396825396825395,
	"grad_norm": 0.5964597569119979,
	"learning_rate": 5e-06,
	"loss": 0.8498,
	"step": 190
	},
	{
	"epoch": 0.2673350041771094,
	"grad_norm": 0.6293549963407589,
	"learning_rate": 5e-06,
	"loss": 0.8432,
	"step": 200
	},
	{
	"epoch": 0.2807017543859649,
	"grad_norm": 0.5524407679849426,
	"learning_rate": 5e-06,
	"loss": 0.8475,
	"step": 210
	},
	{
	"epoch": 0.29406850459482037,
	"grad_norm": 0.524350214049005,
	"learning_rate": 5e-06,
	"loss": 0.8431,
	"step": 220
	},
	{
	"epoch": 0.30743525480367584,
	"grad_norm": 0.6760002252683699,
	"learning_rate": 5e-06,
	"loss": 0.8386,
	"step": 230
	},
	{
	"epoch": 0.3208020050125313,
	"grad_norm": 0.5906902446596286,
	"learning_rate": 5e-06,
	"loss": 0.8349,
	"step": 240
	},
	{
	"epoch": 0.3341687552213868,
	"grad_norm": 0.5723926384792003,
	"learning_rate": 5e-06,
	"loss": 0.8361,
	"step": 250
	},
	{
	"epoch": 0.34753550543024225,
	"grad_norm": 0.5616096712561062,
	"learning_rate": 5e-06,
	"loss": 0.8368,
	"step": 260
	},
	{
	"epoch": 0.3609022556390977,
	"grad_norm": 0.5507735559959206,
	"learning_rate": 5e-06,
	"loss": 0.835,
	"step": 270
	},
	{
	"epoch": 0.3742690058479532,
	"grad_norm": 0.4803949597709757,
	"learning_rate": 5e-06,
	"loss": 0.8414,
	"step": 280
	},
	{
	"epoch": 0.38763575605680867,
	"grad_norm": 0.5121852118343002,
	"learning_rate": 5e-06,
	"loss": 0.8325,
	"step": 290
	},
	{
	"epoch": 0.40100250626566414,
	"grad_norm": 0.5559477754717894,
	"learning_rate": 5e-06,
	"loss": 0.8364,
	"step": 300
	},
	{
	"epoch": 0.4143692564745196,
	"grad_norm": 0.7469026400245374,
	"learning_rate": 5e-06,
	"loss": 0.8306,
	"step": 310
	},
	{
	"epoch": 0.4277360066833751,
	"grad_norm": 0.5090947427034287,
	"learning_rate": 5e-06,
	"loss": 0.8339,
	"step": 320
	},
	{
	"epoch": 0.44110275689223055,
	"grad_norm": 0.6018861983279394,
	"learning_rate": 5e-06,
	"loss": 0.8283,
	"step": 330
	},
	{
	"epoch": 0.454469507101086,
	"grad_norm": 0.5434521657719814,
	"learning_rate": 5e-06,
	"loss": 0.8285,
	"step": 340
	},
	{
	"epoch": 0.4678362573099415,
	"grad_norm": 0.5903702809830117,
	"learning_rate": 5e-06,
	"loss": 0.8324,
	"step": 350
	},
	{
	"epoch": 0.48120300751879697,
	"grad_norm": 0.6243867601355255,
	"learning_rate": 5e-06,
	"loss": 0.8284,
	"step": 360
	},
	{
	"epoch": 0.49456975772765244,
	"grad_norm": 0.6094144532555286,
	"learning_rate": 5e-06,
	"loss": 0.8283,
	"step": 370
	},
	{
	"epoch": 0.5079365079365079,
	"grad_norm": 0.5482360219270039,
	"learning_rate": 5e-06,
	"loss": 0.8289,
	"step": 380
	},
	{
	"epoch": 0.5213032581453634,
	"grad_norm": 0.5061542985510644,
	"learning_rate": 5e-06,
	"loss": 0.8317,
	"step": 390
	},
	{
	"epoch": 0.5346700083542189,
	"grad_norm": 0.6652440131533577,
	"learning_rate": 5e-06,
	"loss": 0.8256,
	"step": 400
	},
	{
	"epoch": 0.5480367585630743,
	"grad_norm": 0.5613018728699922,
	"learning_rate": 5e-06,
	"loss": 0.8252,
	"step": 410
	},
	{
	"epoch": 0.5614035087719298,
	"grad_norm": 0.7255190718604577,
	"learning_rate": 5e-06,
	"loss": 0.8247,
	"step": 420
	},
	{
	"epoch": 0.5747702589807853,
	"grad_norm": 0.6781380945175464,
	"learning_rate": 5e-06,
	"loss": 0.823,
	"step": 430
	},
	{
	"epoch": 0.5881370091896407,
	"grad_norm": 0.5530197743336887,
	"learning_rate": 5e-06,
	"loss": 0.8251,
	"step": 440
	},
	{
	"epoch": 0.6015037593984962,
	"grad_norm": 0.571851888660113,
	"learning_rate": 5e-06,
	"loss": 0.8232,
	"step": 450
	},
	{
	"epoch": 0.6148705096073517,
	"grad_norm": 0.5208791337420644,
	"learning_rate": 5e-06,
	"loss": 0.8235,
	"step": 460
	},
	{
	"epoch": 0.6282372598162071,
	"grad_norm": 0.5198842932978275,
	"learning_rate": 5e-06,
	"loss": 0.8238,
	"step": 470
	},
	{
	"epoch": 0.6416040100250626,
	"grad_norm": 0.48452315583166233,
	"learning_rate": 5e-06,
	"loss": 0.8221,
	"step": 480
	},
	{
	"epoch": 0.6549707602339181,
	"grad_norm": 0.5219240912238245,
	"learning_rate": 5e-06,
	"loss": 0.8168,
	"step": 490
	},
	{
	"epoch": 0.6683375104427736,
	"grad_norm": 0.51813285089071,
	"learning_rate": 5e-06,
	"loss": 0.8173,
	"step": 500
	},
	{
	"epoch": 0.681704260651629,
	"grad_norm": 0.49897768190410446,
	"learning_rate": 5e-06,
	"loss": 0.8193,
	"step": 510
	},
	{
	"epoch": 0.6950710108604845,
	"grad_norm": 0.546834157816808,
	"learning_rate": 5e-06,
	"loss": 0.8129,
	"step": 520
	},
	{
	"epoch": 0.70843776106934,
	"grad_norm": 0.5295360571693272,
	"learning_rate": 5e-06,
	"loss": 0.8194,
	"step": 530
	},
	{
	"epoch": 0.7218045112781954,
	"grad_norm": 0.6854942956404928,
	"learning_rate": 5e-06,
	"loss": 0.8193,
	"step": 540
	},
	{
	"epoch": 0.7351712614870509,
	"grad_norm": 0.6819748794747951,
	"learning_rate": 5e-06,
	"loss": 0.8161,
	"step": 550
	},
	{
	"epoch": 0.7485380116959064,
	"grad_norm": 0.7134808000164234,
	"learning_rate": 5e-06,
	"loss": 0.8166,
	"step": 560
	},
	{
	"epoch": 0.7619047619047619,
	"grad_norm": 0.6412479917820569,
	"learning_rate": 5e-06,
	"loss": 0.8172,
	"step": 570
	},
	{
	"epoch": 0.7752715121136173,
	"grad_norm": 0.5246142664617556,
	"learning_rate": 5e-06,
	"loss": 0.8145,
	"step": 580
	},
	{
	"epoch": 0.7886382623224728,
	"grad_norm": 0.588843604202556,
	"learning_rate": 5e-06,
	"loss": 0.82,
	"step": 590
	},
	{
	"epoch": 0.8020050125313283,
	"grad_norm": 0.5124861711768851,
	"learning_rate": 5e-06,
	"loss": 0.8156,
	"step": 600
	},
	{
	"epoch": 0.8153717627401837,
	"grad_norm": 0.5015203839251716,
	"learning_rate": 5e-06,
	"loss": 0.8191,
	"step": 610
	},
	{
	"epoch": 0.8287385129490392,
	"grad_norm": 0.6441893371422894,
	"learning_rate": 5e-06,
	"loss": 0.812,
	"step": 620
	},
	{
	"epoch": 0.8421052631578947,
	"grad_norm": 0.5838304398634407,
	"learning_rate": 5e-06,
	"loss": 0.8086,
	"step": 630
	},
	{
	"epoch": 0.8554720133667502,
	"grad_norm": 0.5107304906894905,
	"learning_rate": 5e-06,
	"loss": 0.8155,
	"step": 640
	},
	{
	"epoch": 0.8688387635756056,
	"grad_norm": 0.5122885155184959,
	"learning_rate": 5e-06,
	"loss": 0.8131,
	"step": 650
	},
	{
	"epoch": 0.8822055137844611,
	"grad_norm": 0.5985811394437027,
	"learning_rate": 5e-06,
	"loss": 0.8104,
	"step": 660
	},
	{
	"epoch": 0.8955722639933166,
	"grad_norm": 0.5323936368547137,
	"learning_rate": 5e-06,
	"loss": 0.8186,
	"step": 670
	},
	{
	"epoch": 0.908939014202172,
	"grad_norm": 0.616312309430872,
	"learning_rate": 5e-06,
	"loss": 0.8124,
	"step": 680
	},
	{
	"epoch": 0.9223057644110275,
	"grad_norm": 0.6593022396181776,
	"learning_rate": 5e-06,
	"loss": 0.8156,
	"step": 690
	},
	{
	"epoch": 0.935672514619883,
	"grad_norm": 0.5181097754729659,
	"learning_rate": 5e-06,
	"loss": 0.8135,
	"step": 700
	},
	{
	"epoch": 0.9490392648287385,
	"grad_norm": 0.5160202542043503,
	"learning_rate": 5e-06,
	"loss": 0.8108,
	"step": 710
	},
	{
	"epoch": 0.9624060150375939,
	"grad_norm": 0.5439429222609182,
	"learning_rate": 5e-06,
	"loss": 0.8098,
	"step": 720
	},
	{
	"epoch": 0.9757727652464494,
	"grad_norm": 0.5666778381149935,
	"learning_rate": 5e-06,
	"loss": 0.8064,
	"step": 730
	},
	{
	"epoch": 0.9891395154553049,
	"grad_norm": 0.5087008142559319,
	"learning_rate": 5e-06,
	"loss": 0.8124,
	"step": 740
	},
	{
	"epoch": 0.9998329156223893,
	"eval_loss": 0.8087860345840454,
	"eval_runtime": 793.9439,
	"eval_samples_per_second": 25.391,
	"eval_steps_per_second": 0.397,
	"step": 748
	},
	{
	"epoch": 1.0025062656641603,
	"grad_norm": 0.6885103061332264,
	"learning_rate": 5e-06,
	"loss": 0.8763,
	"step": 750
	},
	{
	"epoch": 1.0158730158730158,
	"grad_norm": 0.6156521836752095,
	"learning_rate": 5e-06,
	"loss": 0.7692,
	"step": 760
	},
	{
	"epoch": 1.0292397660818713,
	"grad_norm": 0.6134559509903806,
	"learning_rate": 5e-06,
	"loss": 0.7719,
	"step": 770
	},
	{
	"epoch": 1.0426065162907268,
	"grad_norm": 0.635583159755333,
	"learning_rate": 5e-06,
	"loss": 0.7724,
	"step": 780
	},
	{
	"epoch": 1.0559732664995822,
	"grad_norm": 0.5771840092558814,
	"learning_rate": 5e-06,
	"loss": 0.7724,
	"step": 790
	},
	{
	"epoch": 1.0693400167084377,
	"grad_norm": 0.5138399093282234,
	"learning_rate": 5e-06,
	"loss": 0.7671,
	"step": 800
	},
	{
	"epoch": 1.0827067669172932,
	"grad_norm": 0.5865180500219783,
	"learning_rate": 5e-06,
	"loss": 0.7741,
	"step": 810
	},
	{
	"epoch": 1.0960735171261486,
	"grad_norm": 0.5737059877569465,
	"learning_rate": 5e-06,
	"loss": 0.7735,
	"step": 820
	},
	{
	"epoch": 1.1094402673350041,
	"grad_norm": 0.7198057887439943,
	"learning_rate": 5e-06,
	"loss": 0.7715,
	"step": 830
	},
	{
	"epoch": 1.1228070175438596,
	"grad_norm": 0.723247678442899,
	"learning_rate": 5e-06,
	"loss": 0.7688,
	"step": 840
	},
	{
	"epoch": 1.136173767752715,
	"grad_norm": 0.5724777994659187,
	"learning_rate": 5e-06,
	"loss": 0.7709,
	"step": 850
	},
	{
	"epoch": 1.1495405179615705,
	"grad_norm": 0.6343455699124487,
	"learning_rate": 5e-06,
	"loss": 0.7756,
	"step": 860
	},
	{
	"epoch": 1.162907268170426,
	"grad_norm": 0.5975092244071976,
	"learning_rate": 5e-06,
	"loss": 0.7762,
	"step": 870
	},
	{
	"epoch": 1.1762740183792815,
	"grad_norm": 0.5550810138685736,
	"learning_rate": 5e-06,
	"loss": 0.7713,
	"step": 880
	},
	{
	"epoch": 1.189640768588137,
	"grad_norm": 0.6031833100946619,
	"learning_rate": 5e-06,
	"loss": 0.7717,
	"step": 890
	},
	{
	"epoch": 1.2030075187969924,
	"grad_norm": 0.5674692784021945,
	"learning_rate": 5e-06,
	"loss": 0.7714,
	"step": 900
	},
	{
	"epoch": 1.2163742690058479,
	"grad_norm": 0.6831373781930358,
	"learning_rate": 5e-06,
	"loss": 0.7727,
	"step": 910
	},
	{
	"epoch": 1.2297410192147034,
	"grad_norm": 0.517398562451772,
	"learning_rate": 5e-06,
	"loss": 0.7715,
	"step": 920
	},
	{
	"epoch": 1.2431077694235588,
	"grad_norm": 0.5689793551691444,
	"learning_rate": 5e-06,
	"loss": 0.7682,
	"step": 930
	},
	{
	"epoch": 1.2564745196324143,
	"grad_norm": 0.6979997189308218,
	"learning_rate": 5e-06,
	"loss": 0.7753,
	"step": 940
	},
	{
	"epoch": 1.2698412698412698,
	"grad_norm": 0.5431703707142987,
	"learning_rate": 5e-06,
	"loss": 0.7726,
	"step": 950
	},
	{
	"epoch": 1.2832080200501252,
	"grad_norm": 0.5341233588300426,
	"learning_rate": 5e-06,
	"loss": 0.7721,
	"step": 960
	},
	{
	"epoch": 1.2965747702589807,
	"grad_norm": 0.5621957425809071,
	"learning_rate": 5e-06,
	"loss": 0.7702,
	"step": 970
	},
	{
	"epoch": 1.3099415204678362,
	"grad_norm": 0.6187116295591158,
	"learning_rate": 5e-06,
	"loss": 0.7755,
	"step": 980
	},
	{
	"epoch": 1.3233082706766917,
	"grad_norm": 0.6251656247161459,
	"learning_rate": 5e-06,
	"loss": 0.7742,
	"step": 990
	},
	{
	"epoch": 1.3366750208855471,
	"grad_norm": 0.6092934361550684,
	"learning_rate": 5e-06,
	"loss": 0.7732,
	"step": 1000
	},
	{
	"epoch": 1.3500417710944026,
	"grad_norm": 0.8086073910477094,
	"learning_rate": 5e-06,
	"loss": 0.7663,
	"step": 1010
	},
	{
	"epoch": 1.363408521303258,
	"grad_norm": 0.6337909009600926,
	"learning_rate": 5e-06,
	"loss": 0.7698,
	"step": 1020
	},
	{
	"epoch": 1.3767752715121135,
	"grad_norm": 0.6156017975821142,
	"learning_rate": 5e-06,
	"loss": 0.7687,
	"step": 1030
	},
	{
	"epoch": 1.390142021720969,
	"grad_norm": 0.4791494199069362,
	"learning_rate": 5e-06,
	"loss": 0.7707,
	"step": 1040
	},
	{
	"epoch": 1.4035087719298245,
	"grad_norm": 0.5102907384647386,
	"learning_rate": 5e-06,
	"loss": 0.7698,
	"step": 1050
	},
	{
	"epoch": 1.41687552213868,
	"grad_norm": 0.60763231448239,
	"learning_rate": 5e-06,
	"loss": 0.7722,
	"step": 1060
	},
	{
	"epoch": 1.4302422723475354,
	"grad_norm": 0.5538961425736992,
	"learning_rate": 5e-06,
	"loss": 0.7769,
	"step": 1070
	},
	{
	"epoch": 1.443609022556391,
	"grad_norm": 0.511489662319519,
	"learning_rate": 5e-06,
	"loss": 0.7709,
	"step": 1080
	},
	{
	"epoch": 1.4569757727652464,
	"grad_norm": 0.5006381424370965,
	"learning_rate": 5e-06,
	"loss": 0.7652,
	"step": 1090
	},
	{
	"epoch": 1.4703425229741018,
	"grad_norm": 0.6446877306415851,
	"learning_rate": 5e-06,
	"loss": 0.7668,
	"step": 1100
	},
	{
	"epoch": 1.4837092731829573,
	"grad_norm": 0.6472792025046472,
	"learning_rate": 5e-06,
	"loss": 0.7748,
	"step": 1110
	},
	{
	"epoch": 1.4970760233918128,
	"grad_norm": 0.5297094594069526,
	"learning_rate": 5e-06,
	"loss": 0.7716,
	"step": 1120
	},
	{
	"epoch": 1.5104427736006683,
	"grad_norm": 0.5172754876638852,
	"learning_rate": 5e-06,
	"loss": 0.7693,
	"step": 1130
	},
	{
	"epoch": 1.5238095238095237,
	"grad_norm": 0.5499645842959932,
	"learning_rate": 5e-06,
	"loss": 0.7663,
	"step": 1140
	},
	{
	"epoch": 1.5371762740183792,
	"grad_norm": 0.5115786493746641,
	"learning_rate": 5e-06,
	"loss": 0.7707,
	"step": 1150
	},
	{
	"epoch": 1.5505430242272347,
	"grad_norm": 0.5733666230248589,
	"learning_rate": 5e-06,
	"loss": 0.7708,
	"step": 1160
	},
	{
	"epoch": 1.5639097744360901,
	"grad_norm": 0.4914243878129098,
	"learning_rate": 5e-06,
	"loss": 0.769,
	"step": 1170
	},
	{
	"epoch": 1.5772765246449456,
	"grad_norm": 0.5986514689445189,
	"learning_rate": 5e-06,
	"loss": 0.7722,
	"step": 1180
	},
	{
	"epoch": 1.590643274853801,
	"grad_norm": 0.49301214049058534,
	"learning_rate": 5e-06,
	"loss": 0.7709,
	"step": 1190
	},
	{
	"epoch": 1.6040100250626566,
	"grad_norm": 0.49122462674305145,
	"learning_rate": 5e-06,
	"loss": 0.7684,
	"step": 1200
	},
	{
	"epoch": 1.617376775271512,
	"grad_norm": 0.5231320343494373,
	"learning_rate": 5e-06,
	"loss": 0.773,
	"step": 1210
	},
	{
	"epoch": 1.6307435254803675,
	"grad_norm": 0.5974519524827527,
	"learning_rate": 5e-06,
	"loss": 0.7703,
	"step": 1220
	},
	{
	"epoch": 1.644110275689223,
	"grad_norm": 0.49755848059450075,
	"learning_rate": 5e-06,
	"loss": 0.7684,
	"step": 1230
	},
	{
	"epoch": 1.6574770258980784,
	"grad_norm": 0.49980350150699104,
	"learning_rate": 5e-06,
	"loss": 0.7648,
	"step": 1240
	},
	{
	"epoch": 1.670843776106934,
	"grad_norm": 0.660197673406872,
	"learning_rate": 5e-06,
	"loss": 0.7663,
	"step": 1250
	},
	{
	"epoch": 1.6842105263157894,
	"grad_norm": 0.501447743813946,
	"learning_rate": 5e-06,
	"loss": 0.7687,
	"step": 1260
	},
	{
	"epoch": 1.6975772765246449,
	"grad_norm": 0.47339053427865196,
	"learning_rate": 5e-06,
	"loss": 0.7677,
	"step": 1270
	},
	{
	"epoch": 1.7109440267335003,
	"grad_norm": 0.4776630843112484,
	"learning_rate": 5e-06,
	"loss": 0.7705,
	"step": 1280
	},
	{
	"epoch": 1.7243107769423558,
	"grad_norm": 0.5805611285838953,
	"learning_rate": 5e-06,
	"loss": 0.7664,
	"step": 1290
	},
	{
	"epoch": 1.7376775271512113,
	"grad_norm": 0.5589747352729452,
	"learning_rate": 5e-06,
	"loss": 0.7643,
	"step": 1300
	},
	{
	"epoch": 1.7510442773600667,
	"grad_norm": 0.5862892637271495,
	"learning_rate": 5e-06,
	"loss": 0.767,
	"step": 1310
	},
	{
	"epoch": 1.7644110275689222,
	"grad_norm": 0.6267084370944045,
	"learning_rate": 5e-06,
	"loss": 0.7701,
	"step": 1320
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.5590629149887701,
	"learning_rate": 5e-06,
	"loss": 0.7725,
	"step": 1330
	},
	{
	"epoch": 1.7911445279866332,
	"grad_norm": 0.589200505231269,
	"learning_rate": 5e-06,
	"loss": 0.768,
	"step": 1340
	},
	{
	"epoch": 1.8045112781954886,
	"grad_norm": 0.4948446583957624,
	"learning_rate": 5e-06,
	"loss": 0.7685,
	"step": 1350
	},
	{
	"epoch": 1.817878028404344,
	"grad_norm": 0.471229575382462,
	"learning_rate": 5e-06,
	"loss": 0.7685,
	"step": 1360
	},
	{
	"epoch": 1.8312447786131996,
	"grad_norm": 0.5347363048336566,
	"learning_rate": 5e-06,
	"loss": 0.7668,
	"step": 1370
	},
	{
	"epoch": 1.844611528822055,
	"grad_norm": 0.6085798758140744,
	"learning_rate": 5e-06,
	"loss": 0.7685,
	"step": 1380
	},
	{
	"epoch": 1.8579782790309105,
	"grad_norm": 0.49237779847072155,
	"learning_rate": 5e-06,
	"loss": 0.766,
	"step": 1390
	},
	{
	"epoch": 1.871345029239766,
	"grad_norm": 0.5429938063483495,
	"learning_rate": 5e-06,
	"loss": 0.7675,
	"step": 1400
	},
	{
	"epoch": 1.8847117794486214,
	"grad_norm": 0.5315522378087794,
	"learning_rate": 5e-06,
	"loss": 0.7651,
	"step": 1410
	},
	{
	"epoch": 1.898078529657477,
	"grad_norm": 0.5774851920268103,
	"learning_rate": 5e-06,
	"loss": 0.7683,
	"step": 1420
	},
	{
	"epoch": 1.9114452798663324,
	"grad_norm": 0.4774206459938876,
	"learning_rate": 5e-06,
	"loss": 0.7651,
	"step": 1430
	},
	{
	"epoch": 1.9248120300751879,
	"grad_norm": 0.48893280928600313,
	"learning_rate": 5e-06,
	"loss": 0.7664,
	"step": 1440
	},
	{
	"epoch": 1.9381787802840433,
	"grad_norm": 0.47709822943051283,
	"learning_rate": 5e-06,
	"loss": 0.7667,
	"step": 1450
	},
	{
	"epoch": 1.9515455304928988,
	"grad_norm": 0.5221458173728611,
	"learning_rate": 5e-06,
	"loss": 0.7649,
	"step": 1460
	},
	{
	"epoch": 1.9649122807017543,
	"grad_norm": 0.5458985479332612,
	"learning_rate": 5e-06,
	"loss": 0.7653,
	"step": 1470
	},
	{
	"epoch": 1.9782790309106097,
	"grad_norm": 0.5449151757658263,
	"learning_rate": 5e-06,
	"loss": 0.7665,
	"step": 1480
	},
	{
	"epoch": 1.9916457811194652,
	"grad_norm": 0.5792068417255367,
	"learning_rate": 5e-06,
	"loss": 0.7674,
	"step": 1490
	},
	{
	"epoch": 1.9996658312447786,
	"eval_loss": 0.7951143383979797,
	"eval_runtime": 795.386,
	"eval_samples_per_second": 25.345,
	"eval_steps_per_second": 0.396,
	"step": 1496
	},
	{
	"epoch": 2.0050125313283207,
	"grad_norm": 0.7521880602206925,
	"learning_rate": 5e-06,
	"loss": 0.8233,
	"step": 1500
	},
	{
	"epoch": 2.018379281537176,
	"grad_norm": 0.6560054074439666,
	"learning_rate": 5e-06,
	"loss": 0.7256,
	"step": 1510
	},
	{
	"epoch": 2.0317460317460316,
	"grad_norm": 0.5201512747130638,
	"learning_rate": 5e-06,
	"loss": 0.7218,
	"step": 1520
	},
	{
	"epoch": 2.045112781954887,
	"grad_norm": 0.5262590120532872,
	"learning_rate": 5e-06,
	"loss": 0.7285,
	"step": 1530
	},
	{
	"epoch": 2.0584795321637426,
	"grad_norm": 0.5393650388873087,
	"learning_rate": 5e-06,
	"loss": 0.7229,
	"step": 1540
	},
	{
	"epoch": 2.071846282372598,
	"grad_norm": 0.5105428821348765,
	"learning_rate": 5e-06,
	"loss": 0.7231,
	"step": 1550
	},
	{
	"epoch": 2.0852130325814535,
	"grad_norm": 0.6021970483052078,
	"learning_rate": 5e-06,
	"loss": 0.7239,
	"step": 1560
	},
	{
	"epoch": 2.098579782790309,
	"grad_norm": 0.5009099309313954,
	"learning_rate": 5e-06,
	"loss": 0.7226,
	"step": 1570
	},
	{
	"epoch": 2.1119465329991645,
	"grad_norm": 0.5605434690720502,
	"learning_rate": 5e-06,
	"loss": 0.7277,
	"step": 1580
	},
	{
	"epoch": 2.12531328320802,
	"grad_norm": 0.5732299598938305,
	"learning_rate": 5e-06,
	"loss": 0.7286,
	"step": 1590
	},
	{
	"epoch": 2.1386800334168754,
	"grad_norm": 0.5399334511302041,
	"learning_rate": 5e-06,
	"loss": 0.726,
	"step": 1600
	},
	{
	"epoch": 2.152046783625731,
	"grad_norm": 0.505832452848056,
	"learning_rate": 5e-06,
	"loss": 0.7304,
	"step": 1610
	},
	{
	"epoch": 2.1654135338345863,
	"grad_norm": 0.5674143618926153,
	"learning_rate": 5e-06,
	"loss": 0.7232,
	"step": 1620
	},
	{
	"epoch": 2.178780284043442,
	"grad_norm": 0.5068914103748654,
	"learning_rate": 5e-06,
	"loss": 0.7336,
	"step": 1630
	},
	{
	"epoch": 2.1921470342522973,
	"grad_norm": 0.5118320329600874,
	"learning_rate": 5e-06,
	"loss": 0.7255,
	"step": 1640
	},
	{
	"epoch": 2.2055137844611528,
	"grad_norm": 0.5156250232792499,
	"learning_rate": 5e-06,
	"loss": 0.7295,
	"step": 1650
	},
	{
	"epoch": 2.2188805346700082,
	"grad_norm": 0.6165225897496419,
	"learning_rate": 5e-06,
	"loss": 0.7274,
	"step": 1660
	},
	{
	"epoch": 2.2322472848788637,
	"grad_norm": 0.5863877720536036,
	"learning_rate": 5e-06,
	"loss": 0.7256,
	"step": 1670
	},
	{
	"epoch": 2.245614035087719,
	"grad_norm": 0.5641007704480012,
	"learning_rate": 5e-06,
	"loss": 0.7308,
	"step": 1680
	},
	{
	"epoch": 2.2589807852965746,
	"grad_norm": 0.6101312501534099,
	"learning_rate": 5e-06,
	"loss": 0.7314,
	"step": 1690
	},
	{
	"epoch": 2.27234753550543,
	"grad_norm": 0.5200998469176243,
	"learning_rate": 5e-06,
	"loss": 0.7275,
	"step": 1700
	},
	{
	"epoch": 2.2857142857142856,
	"grad_norm": 0.5398343134194046,
	"learning_rate": 5e-06,
	"loss": 0.727,
	"step": 1710
	},
	{
	"epoch": 2.299081035923141,
	"grad_norm": 0.5247712631574941,
	"learning_rate": 5e-06,
	"loss": 0.727,
	"step": 1720
	},
	{
	"epoch": 2.3124477861319965,
	"grad_norm": 0.5655985095958795,
	"learning_rate": 5e-06,
	"loss": 0.7286,
	"step": 1730
	},
	{
	"epoch": 2.325814536340852,
	"grad_norm": 0.5927409653328921,
	"learning_rate": 5e-06,
	"loss": 0.7271,
	"step": 1740
	},
	{
	"epoch": 2.3391812865497075,
	"grad_norm": 0.6148593425957483,
	"learning_rate": 5e-06,
	"loss": 0.733,
	"step": 1750
	},
	{
	"epoch": 2.352548036758563,
	"grad_norm": 0.5969831864554942,
	"learning_rate": 5e-06,
	"loss": 0.7302,
	"step": 1760
	},
	{
	"epoch": 2.3659147869674184,
	"grad_norm": 0.4985456007136878,
	"learning_rate": 5e-06,
	"loss": 0.7341,
	"step": 1770
	},
	{
	"epoch": 2.379281537176274,
	"grad_norm": 0.5005254522981937,
	"learning_rate": 5e-06,
	"loss": 0.7244,
	"step": 1780
	},
	{
	"epoch": 2.3926482873851294,
	"grad_norm": 0.5288709360617612,
	"learning_rate": 5e-06,
	"loss": 0.7312,
	"step": 1790
	},
	{
	"epoch": 2.406015037593985,
	"grad_norm": 0.5355584900475018,
	"learning_rate": 5e-06,
	"loss": 0.727,
	"step": 1800
	},
	{
	"epoch": 2.4193817878028403,
	"grad_norm": 0.5666733459714918,
	"learning_rate": 5e-06,
	"loss": 0.731,
	"step": 1810
	},
	{
	"epoch": 2.4327485380116958,
	"grad_norm": 0.5939862506331437,
	"learning_rate": 5e-06,
	"loss": 0.7292,
	"step": 1820
	},
	{
	"epoch": 2.4461152882205512,
	"grad_norm": 0.5696153125681646,
	"learning_rate": 5e-06,
	"loss": 0.7295,
	"step": 1830
	},
	{
	"epoch": 2.4594820384294067,
	"grad_norm": 0.5263801998302109,
	"learning_rate": 5e-06,
	"loss": 0.7289,
	"step": 1840
	},
	{
	"epoch": 2.472848788638262,
	"grad_norm": 0.5564137280433736,
	"learning_rate": 5e-06,
	"loss": 0.7289,
	"step": 1850
	},
	{
	"epoch": 2.4862155388471177,
	"grad_norm": 0.6117589560276474,
	"learning_rate": 5e-06,
	"loss": 0.7281,
	"step": 1860
	},
	{
	"epoch": 2.499582289055973,
	"grad_norm": 0.5556838242891475,
	"learning_rate": 5e-06,
	"loss": 0.7296,
	"step": 1870
	},
	{
	"epoch": 2.5129490392648286,
	"grad_norm": 0.4681598446789898,
	"learning_rate": 5e-06,
	"loss": 0.7296,
	"step": 1880
	},
	{
	"epoch": 2.526315789473684,
	"grad_norm": 0.5231611697501862,
	"learning_rate": 5e-06,
	"loss": 0.7303,
	"step": 1890
	},
	{
	"epoch": 2.5396825396825395,
	"grad_norm": 0.5126109088017671,
	"learning_rate": 5e-06,
	"loss": 0.7324,
	"step": 1900
	},
	{
	"epoch": 2.553049289891395,
	"grad_norm": 0.5300428577804921,
	"learning_rate": 5e-06,
	"loss": 0.7273,
	"step": 1910
	},
	{
	"epoch": 2.5664160401002505,
	"grad_norm": 0.4968055663040118,
	"learning_rate": 5e-06,
	"loss": 0.729,
	"step": 1920
	},
	{
	"epoch": 2.579782790309106,
	"grad_norm": 0.568494743059541,
	"learning_rate": 5e-06,
	"loss": 0.7269,
	"step": 1930
	},
	{
	"epoch": 2.5931495405179614,
	"grad_norm": 0.5482221484283202,
	"learning_rate": 5e-06,
	"loss": 0.7285,
	"step": 1940
	},
	{
	"epoch": 2.606516290726817,
	"grad_norm": 0.47129332867964935,
	"learning_rate": 5e-06,
	"loss": 0.7292,
	"step": 1950
	},
	{
	"epoch": 2.6198830409356724,
	"grad_norm": 0.5198836974979396,
	"learning_rate": 5e-06,
	"loss": 0.7264,
	"step": 1960
	},
	{
	"epoch": 2.633249791144528,
	"grad_norm": 0.4945939304862693,
	"learning_rate": 5e-06,
	"loss": 0.7279,
	"step": 1970
	},
	{
	"epoch": 2.6466165413533833,
	"grad_norm": 0.5751403403674279,
	"learning_rate": 5e-06,
	"loss": 0.7282,
	"step": 1980
	},
	{
	"epoch": 2.659983291562239,
	"grad_norm": 0.5611452949151137,
	"learning_rate": 5e-06,
	"loss": 0.7331,
	"step": 1990
	},
	{
	"epoch": 2.6733500417710943,
	"grad_norm": 0.6119128996618558,
	"learning_rate": 5e-06,
	"loss": 0.7296,
	"step": 2000
	},
	{
	"epoch": 2.6867167919799497,
	"grad_norm": 0.4799215562608329,
	"learning_rate": 5e-06,
	"loss": 0.7298,
	"step": 2010
	},
	{
	"epoch": 2.700083542188805,
	"grad_norm": 0.5541418078345739,
	"learning_rate": 5e-06,
	"loss": 0.7268,
	"step": 2020
	},
	{
	"epoch": 2.7134502923976607,
	"grad_norm": 0.6870311878219804,
	"learning_rate": 5e-06,
	"loss": 0.7277,
	"step": 2030
	},
	{
	"epoch": 2.726817042606516,
	"grad_norm": 0.5687894755714459,
	"learning_rate": 5e-06,
	"loss": 0.7298,
	"step": 2040
	},
	{
	"epoch": 2.7401837928153716,
	"grad_norm": 0.5330460246090263,
	"learning_rate": 5e-06,
	"loss": 0.7325,
	"step": 2050
	},
	{
	"epoch": 2.753550543024227,
	"grad_norm": 0.5427879116319339,
	"learning_rate": 5e-06,
	"loss": 0.7296,
	"step": 2060
	},
	{
	"epoch": 2.7669172932330826,
	"grad_norm": 0.6013738539276209,
	"learning_rate": 5e-06,
	"loss": 0.7281,
	"step": 2070
	},
	{
	"epoch": 2.780284043441938,
	"grad_norm": 0.6091854363964149,
	"learning_rate": 5e-06,
	"loss": 0.7294,
	"step": 2080
	},
	{
	"epoch": 2.7936507936507935,
	"grad_norm": 0.5190279913663577,
	"learning_rate": 5e-06,
	"loss": 0.7248,
	"step": 2090
	},
	{
	"epoch": 2.807017543859649,
	"grad_norm": 0.5126718278939274,
	"learning_rate": 5e-06,
	"loss": 0.7311,
	"step": 2100
	},
	{
	"epoch": 2.8203842940685044,
	"grad_norm": 0.5571607138857257,
	"learning_rate": 5e-06,
	"loss": 0.7318,
	"step": 2110
	},
	{
	"epoch": 2.83375104427736,
	"grad_norm": 0.5341175882686895,
	"learning_rate": 5e-06,
	"loss": 0.7336,
	"step": 2120
	},
	{
	"epoch": 2.8471177944862154,
	"grad_norm": 0.4817774606348232,
	"learning_rate": 5e-06,
	"loss": 0.731,
	"step": 2130
	},
	{
	"epoch": 2.860484544695071,
	"grad_norm": 0.5487220776810837,
	"learning_rate": 5e-06,
	"loss": 0.7282,
	"step": 2140
	},
	{
	"epoch": 2.8738512949039263,
	"grad_norm": 0.6342699103351254,
	"learning_rate": 5e-06,
	"loss": 0.7335,
	"step": 2150
	},
	{
	"epoch": 2.887218045112782,
	"grad_norm": 0.5078552425291176,
	"learning_rate": 5e-06,
	"loss": 0.7273,
	"step": 2160
	},
	{
	"epoch": 2.9005847953216373,
	"grad_norm": 0.4819316377635323,
	"learning_rate": 5e-06,
	"loss": 0.7332,
	"step": 2170
	},
	{
	"epoch": 2.9139515455304927,
	"grad_norm": 0.4627017239179797,
	"learning_rate": 5e-06,
	"loss": 0.7306,
	"step": 2180
	},
	{
	"epoch": 2.927318295739348,
	"grad_norm": 0.4761325291977869,
	"learning_rate": 5e-06,
	"loss": 0.7314,
	"step": 2190
	},
	{
	"epoch": 2.9406850459482037,
	"grad_norm": 0.5784029020001881,
	"learning_rate": 5e-06,
	"loss": 0.7298,
	"step": 2200
	},
	{
	"epoch": 2.954051796157059,
	"grad_norm": 0.5120822643666457,
	"learning_rate": 5e-06,
	"loss": 0.731,
	"step": 2210
	},
	{
	"epoch": 2.9674185463659146,
	"grad_norm": 0.5116915736315969,
	"learning_rate": 5e-06,
	"loss": 0.7322,
	"step": 2220
	},
	{
	"epoch": 2.98078529657477,
	"grad_norm": 0.5021133290964584,
	"learning_rate": 5e-06,
	"loss": 0.7269,
	"step": 2230
	},
	{
	"epoch": 2.9941520467836256,
	"grad_norm": 0.5317540745896701,
	"learning_rate": 5e-06,
	"loss": 0.7322,
	"step": 2240
	},
	{
	"epoch": 2.999498746867168,
	"eval_loss": 0.7926730513572693,
	"eval_runtime": 792.6639,
	"eval_samples_per_second": 25.432,
	"eval_steps_per_second": 0.397,
	"step": 2244
	},
	{
	"epoch": 2.999498746867168,
	"step": 2244,
	"total_flos": 3758574199111680.0,
	"train_loss": 0.7796513685780625,
	"train_runtime": 132137.1731,
	"train_samples_per_second": 8.696,
	"train_steps_per_second": 0.017
	}
	],
	"logging_steps": 10,
	"max_steps": 2244,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3758574199111680.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}