Model save

8cda389 verified 9 months ago

5.65 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9905956112852664,
	"eval_steps": 500,
	"global_step": 79,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.012539184952978056,
	"grad_norm": 9.394233371670921,
	"learning_rate": 6.25e-08,
	"logits/chosen": -2.9077322483062744,
	"logits/rejected": -2.8318910598754883,
	"logps/chosen": -351.8885498046875,
	"logps/pi_response": -76.32845306396484,
	"logps/ref_response": -76.32845306396484,
	"logps/rejected": -169.29762268066406,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.12539184952978055,
	"grad_norm": 8.360621703019095,
	"learning_rate": 4.990217055187362e-07,
	"logits/chosen": -2.7861883640289307,
	"logits/rejected": -2.7629709243774414,
	"logps/chosen": -234.14410400390625,
	"logps/pi_response": -70.11377716064453,
	"logps/ref_response": -70.02328491210938,
	"logps/rejected": -167.95562744140625,
	"loss": 0.6904,
	"rewards/accuracies": 0.4861111044883728,
	"rewards/chosen": 0.006910877302289009,
	"rewards/margins": 0.0037490064278244972,
	"rewards/rejected": 0.0031618711072951555,
	"step": 10
	},
	{
	"epoch": 0.2507836990595611,
	"grad_norm": 6.69893642100669,
	"learning_rate": 4.655786431300069e-07,
	"logits/chosen": -2.741486072540283,
	"logits/rejected": -2.690483331680298,
	"logps/chosen": -245.74948120117188,
	"logps/pi_response": -75.77564239501953,
	"logps/ref_response": -67.40553283691406,
	"logps/rejected": -170.17709350585938,
	"loss": 0.6608,
	"rewards/accuracies": 0.715624988079071,
	"rewards/chosen": 0.04696048051118851,
	"rewards/margins": 0.0809074118733406,
	"rewards/rejected": -0.0339469388127327,
	"step": 20
	},
	{
	"epoch": 0.3761755485893417,
	"grad_norm": 6.686646881580658,
	"learning_rate": 3.9061232191019517e-07,
	"logits/chosen": -2.6538798809051514,
	"logits/rejected": -2.620079517364502,
	"logps/chosen": -233.30227661132812,
	"logps/pi_response": -102.32685852050781,
	"logps/ref_response": -65.888427734375,
	"logps/rejected": -186.7948455810547,
	"loss": 0.6253,
	"rewards/accuracies": 0.734375,
	"rewards/chosen": -0.09834689646959305,
	"rewards/margins": 0.18449249863624573,
	"rewards/rejected": -0.2828393876552582,
	"step": 30
	},
	{
	"epoch": 0.5015673981191222,
	"grad_norm": 7.858132087597293,
	"learning_rate": 2.8856223324132555e-07,
	"logits/chosen": -2.6627352237701416,
	"logits/rejected": -2.6404871940612793,
	"logps/chosen": -254.8513641357422,
	"logps/pi_response": -137.86434936523438,
	"logps/ref_response": -70.97199249267578,
	"logps/rejected": -225.2699737548828,
	"loss": 0.5782,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.2209537923336029,
	"rewards/margins": 0.34001588821411133,
	"rewards/rejected": -0.5609697103500366,
	"step": 40
	},
	{
	"epoch": 0.6269592476489029,
	"grad_norm": 10.578475411451166,
	"learning_rate": 1.7908455541642582e-07,
	"logits/chosen": -2.65732479095459,
	"logits/rejected": -2.624019145965576,
	"logps/chosen": -284.77923583984375,
	"logps/pi_response": -154.8039093017578,
	"logps/ref_response": -69.12784576416016,
	"logps/rejected": -249.51736450195312,
	"loss": 0.5471,
	"rewards/accuracies": 0.796875,
	"rewards/chosen": -0.34653979539871216,
	"rewards/margins": 0.46229037642478943,
	"rewards/rejected": -0.8088302612304688,
	"step": 50
	},
	{
	"epoch": 0.7523510971786834,
	"grad_norm": 10.61093460315722,
	"learning_rate": 8.32661172908373e-08,
	"logits/chosen": -2.6534972190856934,
	"logits/rejected": -2.6186232566833496,
	"logps/chosen": -255.72732543945312,
	"logps/pi_response": -160.81385803222656,
	"logps/ref_response": -62.94016647338867,
	"logps/rejected": -265.20989990234375,
	"loss": 0.5272,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.4366573691368103,
	"rewards/margins": 0.5785155892372131,
	"rewards/rejected": -1.0151729583740234,
	"step": 60
	},
	{
	"epoch": 0.877742946708464,
	"grad_norm": 10.972518174316015,
	"learning_rate": 1.956279997278043e-08,
	"logits/chosen": -2.6517553329467773,
	"logits/rejected": -2.6147875785827637,
	"logps/chosen": -301.74700927734375,
	"logps/pi_response": -181.74948120117188,
	"logps/ref_response": -70.71024322509766,
	"logps/rejected": -276.01605224609375,
	"loss": 0.5138,
	"rewards/accuracies": 0.778124988079071,
	"rewards/chosen": -0.4930971562862396,
	"rewards/margins": 0.6322487592697144,
	"rewards/rejected": -1.1253459453582764,
	"step": 70
	},
	{
	"epoch": 0.9905956112852664,
	"step": 79,
	"total_flos": 0.0,
	"train_loss": 0.5845865599716766,
	"train_runtime": 3518.9349,
	"train_samples_per_second": 5.791,
	"train_steps_per_second": 0.022
	}
	],
	"logging_steps": 10,
	"max_steps": 79,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}