RepairLLaMA / trainer_state.json

f46a625 verified 28 days ago

17.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 10.0,
	"global_step": 1384,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 0.0004999355950970494,
	"loss": 0.5182,
	"step": 10
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0004997424135721297,
	"loss": 0.2324,
	"step": 20
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0004994205549599399,
	"loss": 0.2389,
	"step": 30
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0004989701850946613,
	"loss": 0.2291,
	"step": 40
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0004983915360245138,
	"loss": 0.2182,
	"step": 50
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0004977613181928558,
	"loss": 0.2245,
	"step": 60
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0004969398145204346,
	"loss": 0.2189,
	"step": 70
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0004959910777697026,
	"loss": 0.2148,
	"step": 80
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0004949155967670468,
	"loss": 0.2242,
	"step": 90
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0004937139256424639,
	"loss": 0.2113,
	"step": 100
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0004923866835440515,
	"loss": 0.2212,
	"step": 110
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0004909345543189974,
	"loss": 0.212,
	"step": 120
	},
	{
	"epoch": 0.19,
	"learning_rate": 0.0004893582861612366,
	"loss": 0.2013,
	"step": 130
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00048765869122595047,
	"loss": 0.2228,
	"step": 140
	},
	{
	"epoch": 0.22,
	"learning_rate": 0.00048583664521111415,
	"loss": 0.1779,
	"step": 150
	},
	{
	"epoch": 0.23,
	"learning_rate": 0.00048389308690630165,
	"loss": 0.2137,
	"step": 160
	},
	{
	"epoch": 0.25,
	"learning_rate": 0.00048182901770898496,
	"loss": 0.1894,
	"step": 170
	},
	{
	"epoch": 0.26,
	"learning_rate": 0.0004796455011085747,
	"loss": 0.2175,
	"step": 180
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00047734366213846903,
	"loss": 0.1969,
	"step": 190
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.00047492468679639156,
	"loss": 0.1976,
	"step": 200
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.00047238982143331946,
	"loss": 0.2004,
	"step": 210
	},
	{
	"epoch": 0.32,
	"learning_rate": 0.0004697403721113144,
	"loss": 0.1829,
	"step": 220
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.000466977703930588,
	"loss": 0.2145,
	"step": 230
	},
	{
	"epoch": 0.35,
	"learning_rate": 0.0004641032403261489,
	"loss": 0.2168,
	"step": 240
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.00046111846233439283,
	"loss": 0.1924,
	"step": 250
	},
	{
	"epoch": 0.38,
	"learning_rate": 0.00045802490783001485,
	"loss": 0.2023,
	"step": 260
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.00045482417073363604,
	"loss": 0.2061,
	"step": 270
	},
	{
	"epoch": 0.4,
	"learning_rate": 0.0004515179001905528,
	"loss": 0.2002,
	"step": 280
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.000448107799721033,
	"loss": 0.194,
	"step": 290
	},
	{
	"epoch": 0.43,
	"learning_rate": 0.00044459562634259475,
	"loss": 0.1921,
	"step": 300
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0004409831896647228,
	"loss": 0.1975,
	"step": 310
	},
	{
	"epoch": 0.46,
	"learning_rate": 0.00043727235095648647,
	"loss": 0.1995,
	"step": 320
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0004334650221875406,
	"loss": 0.2173,
	"step": 330
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.00042956316504300416,
	"loss": 0.2032,
	"step": 340
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0004255687899127229,
	"loss": 0.2031,
	"step": 350
	},
	{
	"epoch": 0.52,
	"learning_rate": 0.00042148395485543767,
	"loss": 0.2004,
	"step": 360
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.000417310764538392,
	"loss": 0.1966,
	"step": 370
	},
	{
	"epoch": 0.55,
	"learning_rate": 0.00041305136915292486,
	"loss": 0.2355,
	"step": 380
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0004087079633066076,
	"loss": 0.1976,
	"step": 390
	},
	{
	"epoch": 0.58,
	"learning_rate": 0.0004042827848924964,
	"loss": 0.214,
	"step": 400
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00039977811393608143,
	"loss": 0.1978,
	"step": 410
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.0003951962714205291,
	"loss": 0.1958,
	"step": 420
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0003905396180908197,
	"loss": 0.2032,
	"step": 430
	},
	{
	"epoch": 0.64,
	"learning_rate": 0.00038581055323739946,
	"loss": 0.1839,
	"step": 440
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.00038101151345997175,
	"loss": 0.1954,
	"step": 450
	},
	{
	"epoch": 0.66,
	"learning_rate": 0.0003761449714120656,
	"loss": 0.1991,
	"step": 460
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.0003712134345270275,
	"loss": 0.1984,
	"step": 470
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.0003662194437260931,
	"loss": 0.1895,
	"step": 480
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00036116557210920554,
	"loss": 0.1876,
	"step": 490
	},
	{
	"epoch": 0.72,
	"learning_rate": 0.00035605442362925284,
	"loss": 0.1896,
	"step": 500
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.00035088863175040946,
	"loss": 0.1932,
	"step": 510
	},
	{
	"epoch": 0.75,
	"learning_rate": 0.0003456708580912725,
	"loss": 0.2007,
	"step": 520
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00034040379105349086,
	"loss": 0.1815,
	"step": 530
	},
	{
	"epoch": 0.78,
	"learning_rate": 0.0003350901444365959,
	"loss": 0.1707,
	"step": 540
	},
	{
	"epoch": 0.79,
	"learning_rate": 0.0003297326560397451,
	"loss": 0.2185,
	"step": 550
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.0003243340862511003,
	"loss": 0.2049,
	"step": 560
	},
	{
	"epoch": 0.82,
	"learning_rate": 0.00031889721662556813,
	"loss": 0.2334,
	"step": 570
	},
	{
	"epoch": 0.84,
	"learning_rate": 0.0003134248484516332,
	"loss": 0.2091,
	"step": 580
	},
	{
	"epoch": 0.85,
	"learning_rate": 0.00030791980130802485,
	"loss": 0.1785,
	"step": 590
	},
	{
	"epoch": 0.87,
	"learning_rate": 0.00030238491161095913,
	"loss": 0.1961,
	"step": 600
	},
	{
	"epoch": 0.88,
	"learning_rate": 0.0002968230311527065,
	"loss": 0.185,
	"step": 610
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0002912370256322358,
	"loss": 0.1823,
	"step": 620
	},
	{
	"epoch": 0.91,
	"learning_rate": 0.00028562977317869454,
	"loss": 0.1937,
	"step": 630
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.00028000416286848355,
	"loss": 0.2217,
	"step": 640
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.0002743630932366912,
	"loss": 0.204,
	"step": 650
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.0002687094707836551,
	"loss": 0.1993,
	"step": 660
	},
	{
	"epoch": 0.97,
	"learning_rate": 0.0002630462084774183,
	"loss": 0.2013,
	"step": 670
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00025737622425285454,
	"loss": 0.1956,
	"step": 680
	},
	{
	"epoch": 1.0,
	"learning_rate": 0.0002517024395082337,
	"loss": 0.208,
	"step": 690
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.0002460277776000023,
	"loss": 0.1845,
	"step": 700
	},
	{
	"epoch": 1.03,
	"learning_rate": 0.00024035516233655632,
	"loss": 0.1921,
	"step": 710
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.00023468751647177984,
	"loss": 0.1736,
	"step": 720
	},
	{
	"epoch": 1.05,
	"learning_rate": 0.0002290277601991279,
	"loss": 0.1844,
	"step": 730
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.00022337880964702823,
	"loss": 0.1933,
	"step": 740
	},
	{
	"epoch": 1.08,
	"learning_rate": 0.00021774357537637746,
	"loss": 0.1919,
	"step": 750
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.00021212496088090602,
	"loss": 0.2008,
	"step": 760
	},
	{
	"epoch": 1.11,
	"learning_rate": 0.00020652586109118432,
	"loss": 0.1894,
	"step": 770
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.0002009491608830409,
	"loss": 0.1817,
	"step": 780
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.0001953977335911613,
	"loss": 0.1812,
	"step": 790
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.00018987443952863336,
	"loss": 0.1731,
	"step": 800
	},
	{
	"epoch": 1.17,
	"learning_rate": 0.00018438212451320137,
	"loss": 0.1848,
	"step": 810
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.0001789236184009898,
	"loss": 0.1894,
	"step": 820
	},
	{
	"epoch": 1.2,
	"learning_rate": 0.00017350173362844999,
	"loss": 0.1861,
	"step": 830
	},
	{
	"epoch": 1.21,
	"learning_rate": 0.00016811926376328256,
	"loss": 0.1775,
	"step": 840
	},
	{
	"epoch": 1.23,
	"learning_rate": 0.00016277898206508199,
	"loss": 0.1872,
	"step": 850
	},
	{
	"epoch": 1.24,
	"learning_rate": 0.00015748364005644422,
	"loss": 0.1867,
	"step": 860
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.00015223596610527455,
	"loss": 0.1809,
	"step": 870
	},
	{
	"epoch": 1.27,
	"learning_rate": 0.00014703866401902528,
	"loss": 0.1743,
	"step": 880
	},
	{
	"epoch": 1.29,
	"learning_rate": 0.00014189441165158822,
	"loss": 0.1978,
	"step": 890
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.0001368058595235591,
	"loss": 0.1825,
	"step": 900
	},
	{
	"epoch": 1.32,
	"learning_rate": 0.00013177562945658578,
	"loss": 0.1857,
	"step": 910
	},
	{
	"epoch": 1.33,
	"learning_rate": 0.00012680631322250236,
	"loss": 0.1898,
	"step": 920
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.00012190047120794725,
	"loss": 0.1915,
	"step": 930
	},
	{
	"epoch": 1.36,
	"learning_rate": 0.00011706063109515111,
	"loss": 0.1728,
	"step": 940
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.00011228928655957607,
	"loss": 0.1759,
	"step": 950
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00010758889598507615,
	"loss": 0.1817,
	"step": 960
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.00010296188119724162,
	"loss": 0.1835,
	"step": 970
	},
	{
	"epoch": 1.42,
	"learning_rate": 9.841062621557937e-05,
	"loss": 0.2016,
	"step": 980
	},
	{
	"epoch": 1.43,
	"learning_rate": 9.393747602517259e-05,
	"loss": 0.2042,
	"step": 990
	},
	{
	"epoch": 1.45,
	"learning_rate": 8.954473536845239e-05,
	"loss": 0.1779,
	"step": 1000
	},
	{
	"epoch": 1.46,
	"learning_rate": 8.523466755770443e-05,
	"loss": 0.1868,
	"step": 1010
	},
	{
	"epoch": 1.47,
	"learning_rate": 8.100949330892093e-05,
	"loss": 0.1878,
	"step": 1020
	},
	{
	"epoch": 1.49,
	"learning_rate": 7.687138959760159e-05,
	"loss": 0.1826,
	"step": 1030
	},
	{
	"epoch": 1.5,
	"learning_rate": 7.282248853708981e-05,
	"loss": 0.1798,
	"step": 1040
	},
	{
	"epoch": 1.52,
	"learning_rate": 6.886487628002441e-05,
	"loss": 0.1655,
	"step": 1050
	},
	{
	"epoch": 1.53,
	"learning_rate": 6.500059194347213e-05,
	"loss": 0.1846,
	"step": 1060
	},
	{
	"epoch": 1.55,
	"learning_rate": 6.123162655829426e-05,
	"loss": 0.1731,
	"step": 1070
	},
	{
	"epoch": 1.56,
	"learning_rate": 5.755992204328969e-05,
	"loss": 0.1691,
	"step": 1080
	},
	{
	"epoch": 1.58,
	"learning_rate": 5.3987370204642003e-05,
	"loss": 0.1933,
	"step": 1090
	},
	{
	"epoch": 1.59,
	"learning_rate": 5.051581176118689e-05,
	"loss": 0.1969,
	"step": 1100
	},
	{
	"epoch": 1.6,
	"learning_rate": 4.7147035396001405e-05,
	"loss": 0.1949,
	"step": 1110
	},
	{
	"epoch": 1.62,
	"learning_rate": 4.388277683480446e-05,
	"loss": 0.1897,
	"step": 1120
	},
	{
	"epoch": 1.63,
	"learning_rate": 4.072471795164279e-05,
	"loss": 0.1776,
	"step": 1130
	},
	{
	"epoch": 1.65,
	"learning_rate": 3.767448590232342e-05,
	"loss": 0.1833,
	"step": 1140
	},
	{
	"epoch": 1.66,
	"learning_rate": 3.473365228603928e-05,
	"loss": 0.1782,
	"step": 1150
	},
	{
	"epoch": 1.68,
	"learning_rate": 3.190373233561955e-05,
	"loss": 0.1888,
	"step": 1160
	},
	{
	"epoch": 1.69,
	"learning_rate": 2.9186184136822392e-05,
	"loss": 0.1747,
	"step": 1170
	},
	{
	"epoch": 1.71,
	"learning_rate": 2.6582407877071836e-05,
	"loss": 0.2005,
	"step": 1180
	},
	{
	"epoch": 1.72,
	"learning_rate": 2.4093745124026402e-05,
	"loss": 0.1848,
	"step": 1190
	},
	{
	"epoch": 1.73,
	"learning_rate": 2.1721478134350798e-05,
	"loss": 0.1769,
	"step": 1200
	},
	{
	"epoch": 1.75,
	"learning_rate": 1.946682919304693e-05,
	"loss": 0.186,
	"step": 1210
	},
	{
	"epoch": 1.76,
	"learning_rate": 1.7330959983684863e-05,
	"loss": 0.1715,
	"step": 1220
	},
	{
	"epoch": 1.78,
	"learning_rate": 1.5314970989857735e-05,
	"loss": 0.1694,
	"step": 1230
	},
	{
	"epoch": 1.79,
	"learning_rate": 1.3419900928169498e-05,
	"loss": 0.1777,
	"step": 1240
	},
	{
	"epoch": 1.81,
	"learning_rate": 1.1646726213047437e-05,
	"loss": 0.1734,
	"step": 1250
	},
	{
	"epoch": 1.82,
	"learning_rate": 9.996360453655068e-06,
	"loss": 0.1989,
	"step": 1260
	},
	{
	"epoch": 1.84,
	"learning_rate": 8.469653983164933e-06,
	"loss": 0.1897,
	"step": 1270
	},
	{
	"epoch": 1.85,
	"learning_rate": 7.067393420633589e-06,
	"loss": 0.1898,
	"step": 1280
	},
	{
	"epoch": 1.86,
	"learning_rate": 5.790301265704539e-06,
	"loss": 0.1856,
	"step": 1290
	},
	{
	"epoch": 1.88,
	"learning_rate": 4.639035526348145e-06,
	"loss": 0.1787,
	"step": 1300
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.6141893798301293e-06,
	"loss": 0.1827,
	"step": 1310
	},
	{
	"epoch": 1.91,
	"learning_rate": 2.7162908670833596e-06,
	"loss": 0.1816,
	"step": 1320
	},
	{
	"epoch": 1.92,
	"learning_rate": 1.9458026206404245e-06,
	"loss": 0.1751,
	"step": 1330
	},
	{
	"epoch": 1.94,
	"learning_rate": 1.3031216262671675e-06,
	"loss": 0.1862,
	"step": 1340
	},
	{
	"epoch": 1.95,
	"learning_rate": 7.885790184201935e-07,
	"loss": 0.1938,
	"step": 1350
	},
	{
	"epoch": 1.97,
	"learning_rate": 4.024399096332898e-07,
	"loss": 0.1696,
	"step": 1360
	},
	{
	"epoch": 1.98,
	"learning_rate": 1.4490325392102488e-07,
	"loss": 0.1761,
	"step": 1370
	},
	{
	"epoch": 1.99,
	"learning_rate": 1.6101744269997332e-08,
	"loss": 0.1897,
	"step": 1380
	},
	{
	"epoch": 2.0,
	"step": 1384,
	"total_flos": 3.2554020600775967e+18,
	"train_loss": 0.19606802009605948,
	"train_runtime": 24012.3724,
	"train_samples_per_second": 3.688,
	"train_steps_per_second": 0.058
	}
	],
	"logging_steps": 10,
	"max_steps": 1384,
	"num_train_epochs": 2,
	"save_steps": 150,
	"total_flos": 3.2554020600775967e+18,
	"trial_name": null,
	"trial_params": null
	}