Upload trainer_state.json with huggingface_hub

27e5821 verified 5 months ago

15.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 200,
	"global_step": 1505,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013289036544850499,
	"grad_norm": 0.10525072365999222,
	"learning_rate": 4.9978216198586135e-05,
	"loss": 0.6155,
	"step": 20
	},
	{
	"epoch": 0.026578073089700997,
	"grad_norm": 0.08554615080356598,
	"learning_rate": 4.991290275706486e-05,
	"loss": 0.5694,
	"step": 40
	},
	{
	"epoch": 0.03986710963455149,
	"grad_norm": 0.08361516892910004,
	"learning_rate": 4.980417349743936e-05,
	"loss": 0.557,
	"step": 60
	},
	{
	"epoch": 0.053156146179401995,
	"grad_norm": 0.08680060505867004,
	"learning_rate": 4.9652217902637596e-05,
	"loss": 0.548,
	"step": 80
	},
	{
	"epoch": 0.0664451827242525,
	"grad_norm": 0.08960291743278503,
	"learning_rate": 4.945730078629964e-05,
	"loss": 0.5427,
	"step": 100
	},
	{
	"epoch": 0.07973421926910298,
	"grad_norm": 0.09262242168188095,
	"learning_rate": 4.921976183128585e-05,
	"loss": 0.5384,
	"step": 120
	},
	{
	"epoch": 0.09302325581395349,
	"grad_norm": 0.08780515193939209,
	"learning_rate": 4.894001499771015e-05,
	"loss": 0.5362,
	"step": 140
	},
	{
	"epoch": 0.10631229235880399,
	"grad_norm": 0.09249912202358246,
	"learning_rate": 4.861854780153004e-05,
	"loss": 0.5324,
	"step": 160
	},
	{
	"epoch": 0.11960132890365449,
	"grad_norm": 0.09562400728464127,
	"learning_rate": 4.825592046495054e-05,
	"loss": 0.5311,
	"step": 180
	},
	{
	"epoch": 0.132890365448505,
	"grad_norm": 0.09372778236865997,
	"learning_rate": 4.785276494012263e-05,
	"loss": 0.5278,
	"step": 200
	},
	{
	"epoch": 0.132890365448505,
	"eval_accuracy": 0.19452303794312395,
	"eval_loss": 0.5592088103294373,
	"eval_runtime": 19.5284,
	"eval_samples_per_second": 93.914,
	"eval_steps_per_second": 0.41,
	"step": 200
	},
	{
	"epoch": 0.1461794019933555,
	"grad_norm": 0.08762918412685394,
	"learning_rate": 4.740978380783765e-05,
	"loss": 0.5253,
	"step": 220
	},
	{
	"epoch": 0.15946843853820597,
	"grad_norm": 0.08518578112125397,
	"learning_rate": 4.6927749053136866e-05,
	"loss": 0.5192,
	"step": 240
	},
	{
	"epoch": 0.17275747508305647,
	"grad_norm": 0.09664598107337952,
	"learning_rate": 4.640750071996995e-05,
	"loss": 0.5217,
	"step": 260
	},
	{
	"epoch": 0.18604651162790697,
	"grad_norm": 0.08245342969894409,
	"learning_rate": 4.584994544724695e-05,
	"loss": 0.5172,
	"step": 280
	},
	{
	"epoch": 0.19933554817275748,
	"grad_norm": 0.08551981300115585,
	"learning_rate": 4.5256054888834934e-05,
	"loss": 0.5152,
	"step": 300
	},
	{
	"epoch": 0.21262458471760798,
	"grad_norm": 0.09647104889154434,
	"learning_rate": 4.4626864020252774e-05,
	"loss": 0.5139,
	"step": 320
	},
	{
	"epoch": 0.22591362126245848,
	"grad_norm": 0.09810427576303482,
	"learning_rate": 4.3963469335015085e-05,
	"loss": 0.5129,
	"step": 340
	},
	{
	"epoch": 0.23920265780730898,
	"grad_norm": 0.08342389762401581,
	"learning_rate": 4.326702693376844e-05,
	"loss": 0.5119,
	"step": 360
	},
	{
	"epoch": 0.25249169435215946,
	"grad_norm": 0.08738644421100616,
	"learning_rate": 4.2538750509550054e-05,
	"loss": 0.511,
	"step": 380
	},
	{
	"epoch": 0.26578073089701,
	"grad_norm": 0.08475251495838165,
	"learning_rate": 4.177990923267986e-05,
	"loss": 0.5117,
	"step": 400
	},
	{
	"epoch": 0.26578073089701,
	"eval_accuracy": 0.1953402564276045,
	"eval_loss": 0.5438870787620544,
	"eval_runtime": 15.5302,
	"eval_samples_per_second": 118.093,
	"eval_steps_per_second": 0.515,
	"step": 400
	},
	{
	"epoch": 0.27906976744186046,
	"grad_norm": 0.07873477786779404,
	"learning_rate": 4.099182553897229e-05,
	"loss": 0.5084,
	"step": 420
	},
	{
	"epoch": 0.292358803986711,
	"grad_norm": 0.09158772230148315,
	"learning_rate": 4.017587282512181e-05,
	"loss": 0.5065,
	"step": 440
	},
	{
	"epoch": 0.30564784053156147,
	"grad_norm": 0.07729614526033401,
	"learning_rate": 3.933347305527898e-05,
	"loss": 0.5047,
	"step": 460
	},
	{
	"epoch": 0.31893687707641194,
	"grad_norm": 0.08530613034963608,
	"learning_rate": 3.846609428298757e-05,
	"loss": 0.5049,
	"step": 480
	},
	{
	"epoch": 0.33222591362126247,
	"grad_norm": 0.07760792225599289,
	"learning_rate": 3.7575248092801686e-05,
	"loss": 0.5035,
	"step": 500
	},
	{
	"epoch": 0.34551495016611294,
	"grad_norm": 0.08521712571382523,
	"learning_rate": 3.66624869660411e-05,
	"loss": 0.5042,
	"step": 520
	},
	{
	"epoch": 0.3588039867109635,
	"grad_norm": 0.08439727872610092,
	"learning_rate": 3.572940157527572e-05,
	"loss": 0.5021,
	"step": 540
	},
	{
	"epoch": 0.37209302325581395,
	"grad_norm": 0.09042590111494064,
	"learning_rate": 3.47776180122539e-05,
	"loss": 0.5019,
	"step": 560
	},
	{
	"epoch": 0.3853820598006645,
	"grad_norm": 0.08219762146472931,
	"learning_rate": 3.3808794954105716e-05,
	"loss": 0.501,
	"step": 580
	},
	{
	"epoch": 0.39867109634551495,
	"grad_norm": 0.08426713198423386,
	"learning_rate": 3.282462077275947e-05,
	"loss": 0.5013,
	"step": 600
	},
	{
	"epoch": 0.39867109634551495,
	"eval_accuracy": 0.19588631180347973,
	"eval_loss": 0.5341373682022095,
	"eval_runtime": 16.1072,
	"eval_samples_per_second": 113.862,
	"eval_steps_per_second": 0.497,
	"step": 600
	},
	{
	"epoch": 0.4119601328903654,
	"grad_norm": 0.08020314574241638,
	"learning_rate": 3.1826810592609036e-05,
	"loss": 0.4968,
	"step": 620
	},
	{
	"epoch": 0.42524916943521596,
	"grad_norm": 0.07975760847330093,
	"learning_rate": 3.081710330155942e-05,
	"loss": 0.4997,
	"step": 640
	},
	{
	"epoch": 0.43853820598006643,
	"grad_norm": 0.08056964725255966,
	"learning_rate": 2.979725852065981e-05,
	"loss": 0.4968,
	"step": 660
	},
	{
	"epoch": 0.45182724252491696,
	"grad_norm": 0.08022565394639969,
	"learning_rate": 2.876905353760459e-05,
	"loss": 0.4976,
	"step": 680
	},
	{
	"epoch": 0.46511627906976744,
	"grad_norm": 0.08131925761699677,
	"learning_rate": 2.7734280209446865e-05,
	"loss": 0.4973,
	"step": 700
	},
	{
	"epoch": 0.47840531561461797,
	"grad_norm": 0.07562076300382614,
	"learning_rate": 2.6694741839921732e-05,
	"loss": 0.4956,
	"step": 720
	},
	{
	"epoch": 0.49169435215946844,
	"grad_norm": 0.07877329736948013,
	"learning_rate": 2.5652250036821523e-05,
	"loss": 0.4966,
	"step": 740
	},
	{
	"epoch": 0.5049833887043189,
	"grad_norm": 0.08014395087957382,
	"learning_rate": 2.4608621554899362e-05,
	"loss": 0.4934,
	"step": 760
	},
	{
	"epoch": 0.5182724252491694,
	"grad_norm": 0.07770328223705292,
	"learning_rate": 2.356567512980326e-05,
	"loss": 0.4934,
	"step": 780
	},
	{
	"epoch": 0.53156146179402,
	"grad_norm": 0.07732851803302765,
	"learning_rate": 2.252522830855798e-05,
	"loss": 0.4951,
	"step": 800
	},
	{
	"epoch": 0.53156146179402,
	"eval_accuracy": 0.19623978277118043,
	"eval_loss": 0.5274041295051575,
	"eval_runtime": 16.4552,
	"eval_samples_per_second": 111.454,
	"eval_steps_per_second": 0.486,
	"step": 800
	},
	{
	"epoch": 0.5448504983388704,
	"grad_norm": 0.07608461380004883,
	"learning_rate": 2.1489094282118395e-05,
	"loss": 0.4896,
	"step": 820
	},
	{
	"epoch": 0.5581395348837209,
	"grad_norm": 0.07657533138990402,
	"learning_rate": 2.0459078725514092e-05,
	"loss": 0.4918,
	"step": 840
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 0.07983728498220444,
	"learning_rate": 1.9436976651092144e-05,
	"loss": 0.4927,
	"step": 860
	},
	{
	"epoch": 0.584717607973422,
	"grad_norm": 0.07355430722236633,
	"learning_rate": 1.8424569280341653e-05,
	"loss": 0.493,
	"step": 880
	},
	{
	"epoch": 0.5980066445182725,
	"grad_norm": 0.08014149218797684,
	"learning_rate": 1.7423620939751788e-05,
	"loss": 0.4922,
	"step": 900
	},
	{
	"epoch": 0.6112956810631229,
	"grad_norm": 0.07500924915075302,
	"learning_rate": 1.6435875986112685e-05,
	"loss": 0.491,
	"step": 920
	},
	{
	"epoch": 0.6245847176079734,
	"grad_norm": 0.07356715947389603,
	"learning_rate": 1.546305576661776e-05,
	"loss": 0.4909,
	"step": 940
	},
	{
	"epoch": 0.6378737541528239,
	"grad_norm": 0.07140863686800003,
	"learning_rate": 1.4506855619064846e-05,
	"loss": 0.489,
	"step": 960
	},
	{
	"epoch": 0.6511627906976745,
	"grad_norm": 0.07692987471818924,
	"learning_rate": 1.3568941917384036e-05,
	"loss": 0.4902,
	"step": 980
	},
	{
	"epoch": 0.6644518272425249,
	"grad_norm": 0.07356040179729462,
	"learning_rate": 1.2650949167640997e-05,
	"loss": 0.4894,
	"step": 1000
	},
	{
	"epoch": 0.6644518272425249,
	"eval_accuracy": 0.19652373156663552,
	"eval_loss": 0.5229406952857971,
	"eval_runtime": 15.6791,
	"eval_samples_per_second": 116.971,
	"eval_steps_per_second": 0.51,
	"step": 1000
	},
	{
	"epoch": 0.6777408637873754,
	"grad_norm": 0.0691773071885109,
	"learning_rate": 1.1754477159576499e-05,
	"loss": 0.4869,
	"step": 1020
	},
	{
	"epoch": 0.6910299003322259,
	"grad_norm": 0.07505939155817032,
	"learning_rate": 1.088108817864629e-05,
	"loss": 0.4865,
	"step": 1040
	},
	{
	"epoch": 0.7043189368770764,
	"grad_norm": 0.06973451375961304,
	"learning_rate": 1.003230428341979e-05,
	"loss": 0.4888,
	"step": 1060
	},
	{
	"epoch": 0.717607973421927,
	"grad_norm": 0.07225219160318375,
	"learning_rate": 9.209604653082326e-06,
	"loss": 0.4858,
	"step": 1080
	},
	{
	"epoch": 0.7308970099667774,
	"grad_norm": 0.07558443397283554,
	"learning_rate": 8.414423009663563e-06,
	"loss": 0.4891,
	"step": 1100
	},
	{
	"epoch": 0.7441860465116279,
	"grad_norm": 0.0698658898472786,
	"learning_rate": 7.648145119484152e-06,
	"loss": 0.4871,
	"step": 1120
	},
	{
	"epoch": 0.7574750830564784,
	"grad_norm": 0.06963298469781876,
	"learning_rate": 6.912106378175098e-06,
	"loss": 0.4884,
	"step": 1140
	},
	{
	"epoch": 0.770764119601329,
	"grad_norm": 0.0692787617444992,
	"learning_rate": 6.207589483478266e-06,
	"loss": 0.4877,
	"step": 1160
	},
	{
	"epoch": 0.7840531561461794,
	"grad_norm": 0.07016126066446304,
	"learning_rate": 5.53582219988382e-06,
	"loss": 0.4856,
	"step": 1180
	},
	{
	"epoch": 0.7973421926910299,
	"grad_norm": 0.06945677101612091,
	"learning_rate": 4.897975218999926e-06,
	"loss": 0.4868,
	"step": 1200
	},
	{
	"epoch": 0.7973421926910299,
	"eval_accuracy": 0.19665158843513314,
	"eval_loss": 0.5205041170120239,
	"eval_runtime": 14.8321,
	"eval_samples_per_second": 123.651,
	"eval_steps_per_second": 0.539,
	"step": 1200
	},
	{
	"epoch": 0.8106312292358804,
	"grad_norm": 0.07045505195856094,
	"learning_rate": 4.295160119383712e-06,
	"loss": 0.4859,
	"step": 1220
	},
	{
	"epoch": 0.8239202657807309,
	"grad_norm": 0.06839559227228165,
	"learning_rate": 3.728427429388709e-06,
	"loss": 0.4863,
	"step": 1240
	},
	{
	"epoch": 0.8372093023255814,
	"grad_norm": 0.06684821844100952,
	"learning_rate": 3.198764796404807e-06,
	"loss": 0.4856,
	"step": 1260
	},
	{
	"epoch": 0.8504983388704319,
	"grad_norm": 0.06731660664081573,
	"learning_rate": 2.707095265681081e-06,
	"loss": 0.4854,
	"step": 1280
	},
	{
	"epoch": 0.8637873754152824,
	"grad_norm": 0.06780705600976944,
	"learning_rate": 2.254275671731007e-06,
	"loss": 0.4868,
	"step": 1300
	},
	{
	"epoch": 0.8770764119601329,
	"grad_norm": 0.06815515458583832,
	"learning_rate": 1.8410951451234533e-06,
	"loss": 0.4854,
	"step": 1320
	},
	{
	"epoch": 0.8903654485049833,
	"grad_norm": 0.0670180469751358,
	"learning_rate": 1.4682737372615967e-06,
	"loss": 0.485,
	"step": 1340
	},
	{
	"epoch": 0.9036544850498339,
	"grad_norm": 0.06649608910083771,
	"learning_rate": 1.1364611655463736e-06,
	"loss": 0.4867,
	"step": 1360
	},
	{
	"epoch": 0.9169435215946844,
	"grad_norm": 0.0674930214881897,
	"learning_rate": 8.462356811112987e-07,
	"loss": 0.4865,
	"step": 1380
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 0.06808231770992279,
	"learning_rate": 5.981030611018234e-07,
	"loss": 0.4864,
	"step": 1400
	},
	{
	"epoch": 0.9302325581395349,
	"eval_accuracy": 0.19667556159797644,
	"eval_loss": 0.519675612449646,
	"eval_runtime": 14.9507,
	"eval_samples_per_second": 122.67,
	"eval_steps_per_second": 0.535,
	"step": 1400
	},
	{
	"epoch": 0.9435215946843853,
	"grad_norm": 0.06696037203073502,
	"learning_rate": 3.9249572725543196e-07,
	"loss": 0.4852,
	"step": 1420
	},
	{
	"epoch": 0.9568106312292359,
	"grad_norm": 0.06675516068935394,
	"learning_rate": 2.297719923185032e-07,
	"loss": 0.4875,
	"step": 1440
	},
	{
	"epoch": 0.9700996677740864,
	"grad_norm": 0.06678403913974762,
	"learning_rate": 1.1021543561322012e-07,
	"loss": 0.4852,
	"step": 1460
	},
	{
	"epoch": 0.9833887043189369,
	"grad_norm": 0.0660882443189621,
	"learning_rate": 3.403440884269526e-08,
	"loss": 0.4848,
	"step": 1480
	},
	{
	"epoch": 0.9966777408637874,
	"grad_norm": 0.06698651611804962,
	"learning_rate": 1.3616729956228425e-09,
	"loss": 0.4847,
	"step": 1500
	},
	{
	"epoch": 1.0,
	"step": 1505,
	"total_flos": 2.786803439690685e+19,
	"train_loss": 0.0,
	"train_runtime": 4.5361,
	"train_samples_per_second": 339673.082,
	"train_steps_per_second": 331.781
	}
	],
	"logging_steps": 20,
	"max_steps": 1505,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.786803439690685e+19,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}