kto-llama3 / trainer_state.json

Upload folder using huggingface_hub

455a6aa verified 24 days ago

29.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9959925193694897,
	"eval_steps": 400,
	"global_step": 233,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02137323002938819,
	"grad_norm": 0.4608515202999115,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": -1.7747037410736084,
	"logits/rejected": -1.6486629247665405,
	"logps/chosen": -247.47836303710938,
	"logps/ref_chosen": -247.4757537841797,
	"logps/ref_rejected": -250.2177734375,
	"logps/rejected": -250.17874145507812,
	"loss": 0.5,
	"rewards/accuracies": 0.29374998807907104,
	"rewards/chosen": -2.605724148452282e-05,
	"rewards/margins": -0.00041639525443315506,
	"rewards/rejected": 0.0003903379547409713,
	"step": 5
	},
	{
	"epoch": 0.04274646005877638,
	"grad_norm": 0.426495224237442,
	"learning_rate": 2.0833333333333333e-07,
	"logits/chosen": -1.7335236072540283,
	"logits/rejected": -1.6989978551864624,
	"logps/chosen": -222.6909637451172,
	"logps/ref_chosen": -222.6491241455078,
	"logps/ref_rejected": -223.95663452148438,
	"logps/rejected": -223.9930877685547,
	"loss": 0.5,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.00041838129982352257,
	"rewards/margins": -5.400222653406672e-05,
	"rewards/rejected": -0.00036437893868424,
	"step": 10
	},
	{
	"epoch": 0.06411969008816458,
	"grad_norm": 0.4453659653663635,
	"learning_rate": 3.1249999999999997e-07,
	"logits/chosen": -1.9023773670196533,
	"logits/rejected": -1.789849042892456,
	"logps/chosen": -218.5724334716797,
	"logps/ref_chosen": -218.7084503173828,
	"logps/ref_rejected": -224.755615234375,
	"logps/rejected": -224.6824493408203,
	"loss": 0.5,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": 0.0013600520323961973,
	"rewards/margins": 0.0006284656701609492,
	"rewards/rejected": 0.000731586420442909,
	"step": 15
	},
	{
	"epoch": 0.08549292011755276,
	"grad_norm": 0.5101017951965332,
	"learning_rate": 4.1666666666666667e-07,
	"logits/chosen": -1.7127611637115479,
	"logits/rejected": -1.6293315887451172,
	"logps/chosen": -226.1074676513672,
	"logps/ref_chosen": -226.7457275390625,
	"logps/ref_rejected": -235.77908325195312,
	"logps/rejected": -235.2657928466797,
	"loss": 0.4999,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": 0.006382433231920004,
	"rewards/margins": 0.0012494683032855392,
	"rewards/rejected": 0.005132964812219143,
	"step": 20
	},
	{
	"epoch": 0.10686615014694095,
	"grad_norm": 0.4738335609436035,
	"learning_rate": 4.999717571181741e-07,
	"logits/chosen": -1.6099249124526978,
	"logits/rejected": -1.5539109706878662,
	"logps/chosen": -229.36843872070312,
	"logps/ref_chosen": -230.34494018554688,
	"logps/ref_rejected": -231.64236450195312,
	"logps/rejected": -230.74813842773438,
	"loss": 0.4999,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": 0.009765096008777618,
	"rewards/margins": 0.000822968955617398,
	"rewards/rejected": 0.008942126296460629,
	"step": 25
	},
	{
	"epoch": 0.12823938017632916,
	"grad_norm": 0.4367460608482361,
	"learning_rate": 4.98983926127519e-07,
	"logits/chosen": -1.6448577642440796,
	"logits/rejected": -1.560329794883728,
	"logps/chosen": -239.9384002685547,
	"logps/ref_chosen": -241.2040557861328,
	"logps/ref_rejected": -253.18862915039062,
	"logps/rejected": -251.95547485351562,
	"loss": 0.4998,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.012656150385737419,
	"rewards/margins": 0.00032438611378893256,
	"rewards/rejected": 0.012331764213740826,
	"step": 30
	},
	{
	"epoch": 0.14961261020571734,
	"grad_norm": 0.5036317706108093,
	"learning_rate": 4.965903258506806e-07,
	"logits/chosen": -1.65009343624115,
	"logits/rejected": -1.6685165166854858,
	"logps/chosen": -240.6787109375,
	"logps/ref_chosen": -242.33291625976562,
	"logps/ref_rejected": -237.6911163330078,
	"logps/rejected": -236.1189422607422,
	"loss": 0.4997,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": 0.016541726887226105,
	"rewards/margins": 0.0008201012387871742,
	"rewards/rejected": 0.015721624717116356,
	"step": 35
	},
	{
	"epoch": 0.17098584023510552,
	"grad_norm": 0.5212914347648621,
	"learning_rate": 4.928044706128802e-07,
	"logits/chosen": -1.6572792530059814,
	"logits/rejected": -1.6342990398406982,
	"logps/chosen": -224.078857421875,
	"logps/ref_chosen": -226.43637084960938,
	"logps/ref_rejected": -224.00546264648438,
	"logps/rejected": -221.7003173828125,
	"loss": 0.4996,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.02357516996562481,
	"rewards/margins": 0.0005238516023382545,
	"rewards/rejected": 0.023051317781209946,
	"step": 40
	},
	{
	"epoch": 0.19235907026449373,
	"grad_norm": 0.5110143423080444,
	"learning_rate": 4.876477354446189e-07,
	"logits/chosen": -1.4905364513397217,
	"logits/rejected": -1.3957011699676514,
	"logps/chosen": -216.25308227539062,
	"logps/ref_chosen": -219.16494750976562,
	"logps/ref_rejected": -227.38040161132812,
	"logps/rejected": -224.87564086914062,
	"loss": 0.4994,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": 0.02911846712231636,
	"rewards/margins": 0.004071122966706753,
	"rewards/rejected": 0.025047341361641884,
	"step": 45
	},
	{
	"epoch": 0.2137323002938819,
	"grad_norm": 0.48523762822151184,
	"learning_rate": 4.811492353977365e-07,
	"logits/chosen": -1.7010364532470703,
	"logits/rejected": -1.6736198663711548,
	"logps/chosen": -218.8837127685547,
	"logps/ref_chosen": -221.23171997070312,
	"logps/ref_rejected": -223.6177215576172,
	"logps/rejected": -221.6636199951172,
	"loss": 0.4993,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": 0.023480093106627464,
	"rewards/margins": 0.0039388458244502544,
	"rewards/rejected": 0.019541248679161072,
	"step": 50
	},
	{
	"epoch": 0.2351055303232701,
	"grad_norm": 0.4816797971725464,
	"learning_rate": 4.7334566116112327e-07,
	"logits/chosen": -1.62349534034729,
	"logits/rejected": -1.5281016826629639,
	"logps/chosen": -237.206787109375,
	"logps/ref_chosen": -239.38412475585938,
	"logps/ref_rejected": -245.71304321289062,
	"logps/rejected": -244.2113800048828,
	"loss": 0.4989,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.021773329004645348,
	"rewards/margins": 0.006756873335689306,
	"rewards/rejected": 0.015016456134617329,
	"step": 55
	},
	{
	"epoch": 0.2564787603526583,
	"grad_norm": 0.5273976922035217,
	"learning_rate": 4.6428107190419983e-07,
	"logits/chosen": -1.6468950510025024,
	"logits/rejected": -1.599461317062378,
	"logps/chosen": -228.3268585205078,
	"logps/ref_chosen": -231.1789093017578,
	"logps/ref_rejected": -231.9095001220703,
	"logps/rejected": -229.9440460205078,
	"loss": 0.4988,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": 0.028520625084638596,
	"rewards/margins": 0.008865959011018276,
	"rewards/rejected": 0.019654670730233192,
	"step": 60
	},
	{
	"epoch": 0.2778519903820465,
	"grad_norm": 0.47698166966438293,
	"learning_rate": 4.540066465177783e-07,
	"logits/chosen": -1.7030376195907593,
	"logits/rejected": -1.7270011901855469,
	"logps/chosen": -218.37466430664062,
	"logps/ref_chosen": -222.1732635498047,
	"logps/ref_rejected": -221.90371704101562,
	"logps/rejected": -219.0262451171875,
	"loss": 0.4985,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.03798612207174301,
	"rewards/margins": 0.009211419150233269,
	"rewards/rejected": 0.028774702921509743,
	"step": 65
	},
	{
	"epoch": 0.2992252204114347,
	"grad_norm": 0.4908115863800049,
	"learning_rate": 4.425803946568032e-07,
	"logits/chosen": -1.701042890548706,
	"logits/rejected": -1.642853021621704,
	"logps/chosen": -237.1160430908203,
	"logps/ref_chosen": -241.13235473632812,
	"logps/ref_rejected": -247.3893585205078,
	"logps/rejected": -243.56692504882812,
	"loss": 0.4985,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": 0.040162790566682816,
	"rewards/margins": 0.0019384495681151748,
	"rewards/rejected": 0.038224343210458755,
	"step": 70
	},
	{
	"epoch": 0.32059845044082286,
	"grad_norm": 0.48811107873916626,
	"learning_rate": 4.300668292164329e-07,
	"logits/chosen": -1.6175544261932373,
	"logits/rejected": -1.6155774593353271,
	"logps/chosen": -223.8777618408203,
	"logps/ref_chosen": -228.91860961914062,
	"logps/ref_rejected": -227.78170776367188,
	"logps/rejected": -223.22732543945312,
	"loss": 0.4981,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": 0.05040856450796127,
	"rewards/margins": 0.004864625167101622,
	"rewards/rejected": 0.04554395005106926,
	"step": 75
	},
	{
	"epoch": 0.34197168047021104,
	"grad_norm": 0.5498376488685608,
	"learning_rate": 4.165366020906683e-07,
	"logits/chosen": -1.721421480178833,
	"logits/rejected": -1.6703542470932007,
	"logps/chosen": -220.573486328125,
	"logps/ref_chosen": -226.90060424804688,
	"logps/ref_rejected": -232.0827178955078,
	"logps/rejected": -227.0341339111328,
	"loss": 0.4975,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.06327112019062042,
	"rewards/margins": 0.012785114347934723,
	"rewards/rejected": 0.0504860058426857,
	"step": 80
	},
	{
	"epoch": 0.36334491049959927,
	"grad_norm": 0.5343174338340759,
	"learning_rate": 4.0206610527004607e-07,
	"logits/chosen": -1.630051612854004,
	"logits/rejected": -1.571542739868164,
	"logps/chosen": -231.68496704101562,
	"logps/ref_chosen": -237.4697723388672,
	"logps/ref_rejected": -240.751953125,
	"logps/rejected": -236.31600952148438,
	"loss": 0.4978,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.05784807354211807,
	"rewards/margins": 0.013488592579960823,
	"rewards/rejected": 0.0443594828248024,
	"step": 85
	},
	{
	"epoch": 0.38471814052898745,
	"grad_norm": 0.5112692713737488,
	"learning_rate": 3.867370395306068e-07,
	"logits/chosen": -1.7595088481903076,
	"logits/rejected": -1.7580636739730835,
	"logps/chosen": -211.63906860351562,
	"logps/ref_chosen": -217.63436889648438,
	"logps/ref_rejected": -222.6137237548828,
	"logps/rejected": -217.2650909423828,
	"loss": 0.4977,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": 0.05995314195752144,
	"rewards/margins": 0.00646712351590395,
	"rewards/rejected": 0.053486019372940063,
	"step": 90
	},
	{
	"epoch": 0.40609137055837563,
	"grad_norm": 0.4654058516025543,
	"learning_rate": 3.7063595314933156e-07,
	"logits/chosen": -1.8619199991226196,
	"logits/rejected": -1.786892294883728,
	"logps/chosen": -208.5725555419922,
	"logps/ref_chosen": -213.7164306640625,
	"logps/ref_rejected": -228.556396484375,
	"logps/rejected": -224.4815216064453,
	"loss": 0.498,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": 0.051438819617033005,
	"rewards/margins": 0.010690188966691494,
	"rewards/rejected": 0.04074862599372864,
	"step": 95
	},
	{
	"epoch": 0.4274646005877638,
	"grad_norm": 0.5265087485313416,
	"learning_rate": 3.5385375325047163e-07,
	"logits/chosen": -1.6727230548858643,
	"logits/rejected": -1.677062749862671,
	"logps/chosen": -239.5093994140625,
	"logps/ref_chosen": -245.71194458007812,
	"logps/ref_rejected": -240.1134490966797,
	"logps/rejected": -235.6671142578125,
	"loss": 0.4967,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": 0.06202547624707222,
	"rewards/margins": 0.01756184920668602,
	"rewards/rejected": 0.0444636233150959,
	"step": 100
	},
	{
	"epoch": 0.448837830617152,
	"grad_norm": 0.53775554895401,
	"learning_rate": 3.36485192541719e-07,
	"logits/chosen": -1.8463099002838135,
	"logits/rejected": -1.7264705896377563,
	"logps/chosen": -224.50320434570312,
	"logps/ref_chosen": -232.00527954101562,
	"logps/ref_rejected": -232.0154266357422,
	"logps/rejected": -225.75454711914062,
	"loss": 0.4968,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.0750209242105484,
	"rewards/margins": 0.012411920353770256,
	"rewards/rejected": 0.062609001994133,
	"step": 105
	},
	{
	"epoch": 0.4702110606465402,
	"grad_norm": 0.5438077449798584,
	"learning_rate": 3.186283343381213e-07,
	"logits/chosen": -1.7997539043426514,
	"logits/rejected": -1.7138378620147705,
	"logps/chosen": -220.4825897216797,
	"logps/ref_chosen": -229.9724578857422,
	"logps/ref_rejected": -238.1800079345703,
	"logps/rejected": -230.29736328125,
	"loss": 0.4966,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": 0.09489865601062775,
	"rewards/margins": 0.016072329133749008,
	"rewards/rejected": 0.07882632315158844,
	"step": 110
	},
	{
	"epoch": 0.4915842906759284,
	"grad_norm": 0.5453912019729614,
	"learning_rate": 3.003839988942255e-07,
	"logits/chosen": -1.8438644409179688,
	"logits/rejected": -1.7028881311416626,
	"logps/chosen": -203.79205322265625,
	"logps/ref_chosen": -214.1478729248047,
	"logps/ref_rejected": -226.24618530273438,
	"logps/rejected": -217.4800567626953,
	"loss": 0.4968,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": 0.1035580188035965,
	"rewards/margins": 0.015896398574113846,
	"rewards/rejected": 0.08766160905361176,
	"step": 115
	},
	{
	"epoch": 0.5129575207053166,
	"grad_norm": 0.5030398964881897,
	"learning_rate": 2.8185519417047623e-07,
	"logits/chosen": -1.8514922857284546,
	"logits/rejected": -1.7740070819854736,
	"logps/chosen": -214.818359375,
	"logps/ref_chosen": -227.9495086669922,
	"logps/ref_rejected": -230.5752410888672,
	"logps/rejected": -218.9449005126953,
	"loss": 0.496,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": 0.13131138682365417,
	"rewards/margins": 0.015008069574832916,
	"rewards/rejected": 0.11630330979824066,
	"step": 120
	},
	{
	"epoch": 0.5343307507347048,
	"grad_norm": 0.5339066982269287,
	"learning_rate": 2.631465342477719e-07,
	"logits/chosen": -1.9007892608642578,
	"logits/rejected": -1.8334102630615234,
	"logps/chosen": -218.14743041992188,
	"logps/ref_chosen": -232.6212158203125,
	"logps/ref_rejected": -234.5932159423828,
	"logps/rejected": -222.1468505859375,
	"loss": 0.4958,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": 0.1447378695011139,
	"rewards/margins": 0.020274382084608078,
	"rewards/rejected": 0.12446349859237671,
	"step": 125
	},
	{
	"epoch": 0.555703980764093,
	"grad_norm": 0.5313855409622192,
	"learning_rate": 2.44363648673827e-07,
	"logits/chosen": -1.7636210918426514,
	"logits/rejected": -1.7406389713287354,
	"logps/chosen": -211.9698944091797,
	"logps/ref_chosen": -226.790771484375,
	"logps/ref_rejected": -231.8648223876953,
	"logps/rejected": -219.543212890625,
	"loss": 0.4945,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": 0.1482090801000595,
	"rewards/margins": 0.024992961436510086,
	"rewards/rejected": 0.12321610748767853,
	"step": 130
	},
	{
	"epoch": 0.5770772107934812,
	"grad_norm": 0.5537051558494568,
	"learning_rate": 2.2561258607618294e-07,
	"logits/chosen": -1.8008477687835693,
	"logits/rejected": -1.8080832958221436,
	"logps/chosen": -234.68893432617188,
	"logps/ref_chosen": -247.26119995117188,
	"logps/ref_rejected": -241.82345581054688,
	"logps/rejected": -231.585693359375,
	"loss": 0.4949,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": 0.12572243809700012,
	"rewards/margins": 0.023345012217760086,
	"rewards/rejected": 0.10237739980220795,
	"step": 135
	},
	{
	"epoch": 0.5984504408228694,
	"grad_norm": 0.5528976321220398,
	"learning_rate": 2.069992154090854e-07,
	"logits/chosen": -1.775397539138794,
	"logits/rejected": -1.6931631565093994,
	"logps/chosen": -219.74072265625,
	"logps/ref_chosen": -230.71826171875,
	"logps/ref_rejected": -227.7001953125,
	"logps/rejected": -218.38241577148438,
	"loss": 0.495,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": 0.10977540910243988,
	"rewards/margins": 0.01659761555492878,
	"rewards/rejected": 0.09317778795957565,
	"step": 140
	},
	{
	"epoch": 0.6198236708522575,
	"grad_norm": 0.5473525524139404,
	"learning_rate": 1.886286282148002e-07,
	"logits/chosen": -1.7711913585662842,
	"logits/rejected": -1.7026926279067993,
	"logps/chosen": -195.3854217529297,
	"logps/ref_chosen": -208.07254028320312,
	"logps/ref_rejected": -210.4279022216797,
	"logps/rejected": -199.79165649414062,
	"loss": 0.4946,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.12687113881111145,
	"rewards/margins": 0.020508771762251854,
	"rewards/rejected": 0.10636236518621445,
	"step": 145
	},
	{
	"epoch": 0.6411969008816457,
	"grad_norm": 0.5966719388961792,
	"learning_rate": 1.7060454527421686e-07,
	"logits/chosen": -1.8688771724700928,
	"logits/rejected": -1.810694932937622,
	"logps/chosen": -211.9062042236328,
	"logps/ref_chosen": -224.8968505859375,
	"logps/ref_rejected": -226.1548309326172,
	"logps/rejected": -215.7084503173828,
	"loss": 0.4943,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.12990659475326538,
	"rewards/margins": 0.02544253133237362,
	"rewards/rejected": 0.10446406900882721,
	"step": 150
	},
	{
	"epoch": 0.6625701309110339,
	"grad_norm": 0.5334843993186951,
	"learning_rate": 1.5302873099680374e-07,
	"logits/chosen": -1.786595344543457,
	"logits/rejected": -1.7971456050872803,
	"logps/chosen": -225.0083465576172,
	"logps/ref_chosen": -237.4626922607422,
	"logps/ref_rejected": -234.39547729492188,
	"logps/rejected": -223.2943572998047,
	"loss": 0.4955,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": 0.12454362213611603,
	"rewards/margins": 0.013532285578548908,
	"rewards/rejected": 0.1110113263130188,
	"step": 155
	},
	{
	"epoch": 0.6839433609404221,
	"grad_norm": 0.5639063715934753,
	"learning_rate": 1.360004188562841e-07,
	"logits/chosen": -2.0527145862579346,
	"logits/rejected": -1.9811140298843384,
	"logps/chosen": -217.0570068359375,
	"logps/ref_chosen": -231.03369140625,
	"logps/ref_rejected": -232.6383819580078,
	"logps/rejected": -220.0625457763672,
	"loss": 0.4952,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": 0.1397666186094284,
	"rewards/margins": 0.014008410274982452,
	"rewards/rejected": 0.12575821578502655,
	"step": 160
	},
	{
	"epoch": 0.7053165909698104,
	"grad_norm": 0.5417853593826294,
	"learning_rate": 1.1961575111603586e-07,
	"logits/chosen": -1.8371235132217407,
	"logits/rejected": -1.7954612970352173,
	"logps/chosen": -220.7694854736328,
	"logps/ref_chosen": -234.5041046142578,
	"logps/ref_rejected": -235.61181640625,
	"logps/rejected": -224.56640625,
	"loss": 0.4944,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": 0.1373465657234192,
	"rewards/margins": 0.026892542839050293,
	"rewards/rejected": 0.1104540079832077,
	"step": 165
	},
	{
	"epoch": 0.7266898209991985,
	"grad_norm": 0.565830409526825,
	"learning_rate": 1.0396723600754143e-07,
	"logits/chosen": -1.8288425207138062,
	"logits/rejected": -1.83499276638031,
	"logps/chosen": -213.2861785888672,
	"logps/ref_chosen": -227.1809844970703,
	"logps/ref_rejected": -230.8953094482422,
	"logps/rejected": -218.4414520263672,
	"loss": 0.4954,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 0.13894793391227722,
	"rewards/margins": 0.014409348368644714,
	"rewards/rejected": 0.12453857809305191,
	"step": 170
	},
	{
	"epoch": 0.7480630510285867,
	"grad_norm": 0.5855058431625366,
	"learning_rate": 8.914322542666822e-08,
	"logits/chosen": -1.8145122528076172,
	"logits/rejected": -1.7646887302398682,
	"logps/chosen": -212.070068359375,
	"logps/ref_chosen": -224.17794799804688,
	"logps/ref_rejected": -225.526123046875,
	"logps/rejected": -214.7656707763672,
	"loss": 0.4947,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": 0.12107895314693451,
	"rewards/margins": 0.013474419713020325,
	"rewards/rejected": 0.10760452598333359,
	"step": 175
	},
	{
	"epoch": 0.7694362810579749,
	"grad_norm": 0.6223751902580261,
	"learning_rate": 7.522741609672193e-08,
	"logits/chosen": -1.8675405979156494,
	"logits/rejected": -1.8476943969726562,
	"logps/chosen": -216.3776092529297,
	"logps/ref_chosen": -230.77182006835938,
	"logps/ref_rejected": -227.00619506835938,
	"logps/rejected": -214.32931518554688,
	"loss": 0.4945,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": 0.1439422070980072,
	"rewards/margins": 0.017173700034618378,
	"rewards/rejected": 0.12676851451396942,
	"step": 180
	},
	{
	"epoch": 0.7908095110873631,
	"grad_norm": 0.5778200030326843,
	"learning_rate": 6.229837701471644e-08,
	"logits/chosen": -1.9124794006347656,
	"logits/rejected": -1.8135532140731812,
	"logps/chosen": -216.97702026367188,
	"logps/ref_chosen": -229.8362274169922,
	"logps/ref_rejected": -233.65390014648438,
	"logps/rejected": -222.93417358398438,
	"loss": 0.4945,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.1285921037197113,
	"rewards/margins": 0.021394768729805946,
	"rewards/rejected": 0.10719730705022812,
	"step": 185
	},
	{
	"epoch": 0.8121827411167513,
	"grad_norm": 0.5558175444602966,
	"learning_rate": 5.0429105848910996e-08,
	"logits/chosen": -1.9621855020523071,
	"logits/rejected": -1.9175077676773071,
	"logps/chosen": -215.39450073242188,
	"logps/ref_chosen": -229.72836303710938,
	"logps/ref_rejected": -233.65237426757812,
	"logps/rejected": -222.21798706054688,
	"loss": 0.4937,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": 0.14333853125572205,
	"rewards/margins": 0.028994807973504066,
	"rewards/rejected": 0.11434372514486313,
	"step": 190
	},
	{
	"epoch": 0.8335559711461394,
	"grad_norm": 0.5308636426925659,
	"learning_rate": 3.968661679220467e-08,
	"logits/chosen": -1.971208930015564,
	"logits/rejected": -1.9112732410430908,
	"logps/chosen": -210.79598999023438,
	"logps/ref_chosen": -224.2023468017578,
	"logps/ref_rejected": -224.3248748779297,
	"logps/rejected": -212.8175811767578,
	"loss": 0.4932,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.1340634524822235,
	"rewards/margins": 0.018990488722920418,
	"rewards/rejected": 0.11507296562194824,
	"step": 195
	},
	{
	"epoch": 0.8549292011755276,
	"grad_norm": 0.615912675857544,
	"learning_rate": 3.013156219837776e-08,
	"logits/chosen": -1.7899879217147827,
	"logits/rejected": -1.6696176528930664,
	"logps/chosen": -215.92288208007812,
	"logps/ref_chosen": -228.88381958007812,
	"logps/ref_rejected": -231.0583953857422,
	"logps/rejected": -220.5959930419922,
	"loss": 0.4932,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": 0.12960924208164215,
	"rewards/margins": 0.024985069409012794,
	"rewards/rejected": 0.1046241745352745,
	"step": 200
	},
	{
	"epoch": 0.8763024312049158,
	"grad_norm": 0.590220034122467,
	"learning_rate": 2.1817890137430932e-08,
	"logits/chosen": -1.81471848487854,
	"logits/rejected": -1.714023232460022,
	"logps/chosen": -205.69888305664062,
	"logps/ref_chosen": -221.30752563476562,
	"logps/ref_rejected": -224.98486328125,
	"logps/rejected": -211.78884887695312,
	"loss": 0.4937,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": 0.15608620643615723,
	"rewards/margins": 0.024126073345541954,
	"rewards/rejected": 0.13196012377738953,
	"step": 205
	},
	{
	"epoch": 0.897675661234304,
	"grad_norm": 0.5369106531143188,
	"learning_rate": 1.479253980347392e-08,
	"logits/chosen": -1.8037662506103516,
	"logits/rejected": -1.7787643671035767,
	"logps/chosen": -225.9608612060547,
	"logps/ref_chosen": -241.4657440185547,
	"logps/ref_rejected": -241.3707733154297,
	"logps/rejected": -228.4087371826172,
	"loss": 0.4931,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": 0.15504886209964752,
	"rewards/margins": 0.025428583845496178,
	"rewards/rejected": 0.1296202689409256,
	"step": 210
	},
	{
	"epoch": 0.9190488912636923,
	"grad_norm": 0.5737273097038269,
	"learning_rate": 9.095176494896661e-09,
	"logits/chosen": -1.8023388385772705,
	"logits/rejected": -1.7160924673080444,
	"logps/chosen": -218.32034301757812,
	"logps/ref_chosen": -231.6717071533203,
	"logps/ref_rejected": -236.741943359375,
	"logps/rejected": -225.2128448486328,
	"loss": 0.4933,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 0.13351376354694366,
	"rewards/margins": 0.018222931772470474,
	"rewards/rejected": 0.11529083549976349,
	"step": 215
	},
	{
	"epoch": 0.9404221212930804,
	"grad_norm": 0.6087775826454163,
	"learning_rate": 4.757967663132689e-09,
	"logits/chosen": -1.833620309829712,
	"logits/rejected": -1.7870299816131592,
	"logps/chosen": -221.86032104492188,
	"logps/ref_chosen": -236.0878448486328,
	"logps/ref_rejected": -230.54141235351562,
	"logps/rejected": -218.8464813232422,
	"loss": 0.4935,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.14227530360221863,
	"rewards/margins": 0.025325754657387733,
	"rewards/rejected": 0.11694953590631485,
	"step": 220
	},
	{
	"epoch": 0.9617953513224686,
	"grad_norm": 0.6274195909500122,
	"learning_rate": 1.8054012944479224e-09,
	"logits/chosen": -1.7650978565216064,
	"logits/rejected": -1.7383601665496826,
	"logps/chosen": -231.64111328125,
	"logps/ref_chosen": -244.44155883789062,
	"logps/ref_rejected": -240.8953094482422,
	"logps/rejected": -230.3839874267578,
	"loss": 0.4932,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.12800416350364685,
	"rewards/margins": 0.022890925407409668,
	"rewards/rejected": 0.10511324554681778,
	"step": 225
	},
	{
	"epoch": 0.9831685813518568,
	"grad_norm": 0.5350868105888367,
	"learning_rate": 2.541476501764228e-10,
	"logits/chosen": -1.8503191471099854,
	"logits/rejected": -1.878313660621643,
	"logps/chosen": -206.16665649414062,
	"logps/ref_chosen": -219.6629638671875,
	"logps/ref_rejected": -212.42172241210938,
	"logps/rejected": -200.54551696777344,
	"loss": 0.494,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": 0.13496311008930206,
	"rewards/margins": 0.016201000660657883,
	"rewards/rejected": 0.11876209825277328,
	"step": 230
	},
	{
	"epoch": 0.9959925193694897,
	"step": 233,
	"total_flos": 0.0,
	"train_loss": 0.49642937480124283,
	"train_runtime": 16410.2083,
	"train_samples_per_second": 3.649,
	"train_steps_per_second": 0.014
	}
	],
	"logging_steps": 5,
	"max_steps": 233,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}