llama-3-8b-instruct-agg-judge / trainer_state.json

Upload folder using huggingface_hub

8c0375c verified 5 months ago

51.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9999333733093477,
	"eval_steps": 400,
	"global_step": 469,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0021320541008728097,
	"grad_norm": 4.17070478980581,
	"learning_rate": 1.0638297872340425e-08,
	"logits/chosen": -0.4388880133628845,
	"logits/rejected": -0.6813962459564209,
	"logps/chosen": -137.1171112060547,
	"logps/rejected": -114.13969421386719,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.010660270504364048,
	"grad_norm": 3.7299717491618436,
	"learning_rate": 5.3191489361702123e-08,
	"logits/chosen": -0.4889238774776459,
	"logits/rejected": -0.6665000319480896,
	"logps/chosen": -169.8695068359375,
	"logps/rejected": -153.95947265625,
	"loss": 0.6932,
	"rewards/accuracies": 0.3671875,
	"rewards/chosen": 0.00029664667090401053,
	"rewards/margins": -0.00023018479987513274,
	"rewards/rejected": 0.0005268314271233976,
	"step": 5
	},
	{
	"epoch": 0.021320541008728097,
	"grad_norm": 3.95978205732512,
	"learning_rate": 1.0638297872340425e-07,
	"logits/chosen": -0.46806925535202026,
	"logits/rejected": -0.6404483318328857,
	"logps/chosen": -160.8107147216797,
	"logps/rejected": -149.25921630859375,
	"loss": 0.6928,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 0.0006372839561663568,
	"rewards/margins": 0.0015358469681814313,
	"rewards/rejected": -0.0008985629538074136,
	"step": 10
	},
	{
	"epoch": 0.03198081151309214,
	"grad_norm": 4.070738919050114,
	"learning_rate": 1.5957446808510638e-07,
	"logits/chosen": -0.5198644399642944,
	"logits/rejected": -0.7026724219322205,
	"logps/chosen": -148.3934783935547,
	"logps/rejected": -137.8568878173828,
	"loss": 0.6932,
	"rewards/accuracies": 0.518750011920929,
	"rewards/chosen": 0.00037692085606977344,
	"rewards/margins": 9.87994353636168e-05,
	"rewards/rejected": 0.00027812132611870766,
	"step": 15
	},
	{
	"epoch": 0.04264108201745619,
	"grad_norm": 4.076698141198564,
	"learning_rate": 2.127659574468085e-07,
	"logits/chosen": -0.5080031156539917,
	"logits/rejected": -0.6844709515571594,
	"logps/chosen": -163.26565551757812,
	"logps/rejected": -144.93130493164062,
	"loss": 0.6929,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": 0.0008511164924129844,
	"rewards/margins": 0.0010705896420404315,
	"rewards/rejected": -0.00021947314962744713,
	"step": 20
	},
	{
	"epoch": 0.05330135252182024,
	"grad_norm": 4.091883356232605,
	"learning_rate": 2.659574468085106e-07,
	"logits/chosen": -0.45363473892211914,
	"logits/rejected": -0.6415150761604309,
	"logps/chosen": -160.65203857421875,
	"logps/rejected": -139.57582092285156,
	"loss": 0.6925,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": 0.0009880407014861703,
	"rewards/margins": 0.0012083369074389338,
	"rewards/rejected": -0.00022029613319318742,
	"step": 25
	},
	{
	"epoch": 0.06396162302618429,
	"grad_norm": 4.4267622202574675,
	"learning_rate": 3.1914893617021275e-07,
	"logits/chosen": -0.5177901983261108,
	"logits/rejected": -0.6321993470191956,
	"logps/chosen": -165.01699829101562,
	"logps/rejected": -151.71261596679688,
	"loss": 0.6921,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.0023814309388399124,
	"rewards/margins": 0.002116392133757472,
	"rewards/rejected": 0.0002650389797054231,
	"step": 30
	},
	{
	"epoch": 0.07462189353054834,
	"grad_norm": 4.269424985466007,
	"learning_rate": 3.7234042553191484e-07,
	"logits/chosen": -0.4782675802707672,
	"logits/rejected": -0.7104529738426208,
	"logps/chosen": -163.6421356201172,
	"logps/rejected": -143.2295379638672,
	"loss": 0.6913,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": 0.004739758092910051,
	"rewards/margins": 0.0038230004720389843,
	"rewards/rejected": 0.000916757620871067,
	"step": 35
	},
	{
	"epoch": 0.08528216403491239,
	"grad_norm": 4.2880363073067365,
	"learning_rate": 4.25531914893617e-07,
	"logits/chosen": -0.5303796529769897,
	"logits/rejected": -0.7106837630271912,
	"logps/chosen": -174.71463012695312,
	"logps/rejected": -153.29507446289062,
	"loss": 0.6903,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": 0.008925501257181168,
	"rewards/margins": 0.006593695841729641,
	"rewards/rejected": 0.0023318054154515266,
	"step": 40
	},
	{
	"epoch": 0.09594243453927644,
	"grad_norm": 4.016438849908063,
	"learning_rate": 4.787234042553192e-07,
	"logits/chosen": -0.522494375705719,
	"logits/rejected": -0.7226734757423401,
	"logps/chosen": -165.866455078125,
	"logps/rejected": -144.34194946289062,
	"loss": 0.6886,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": 0.010274471715092659,
	"rewards/margins": 0.011223495937883854,
	"rewards/rejected": -0.0009490237571299076,
	"step": 45
	},
	{
	"epoch": 0.10660270504364049,
	"grad_norm": 4.3216596095930235,
	"learning_rate": 4.999376538968061e-07,
	"logits/chosen": -0.5761003494262695,
	"logits/rejected": -0.7390087842941284,
	"logps/chosen": -161.60655212402344,
	"logps/rejected": -144.6966552734375,
	"loss": 0.6868,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": 0.009824760258197784,
	"rewards/margins": 0.014007952995598316,
	"rewards/rejected": -0.004183194134384394,
	"step": 50
	},
	{
	"epoch": 0.11726297554800454,
	"grad_norm": 4.305829979355763,
	"learning_rate": 4.99556762539107e-07,
	"logits/chosen": -0.5275800824165344,
	"logits/rejected": -0.7155976891517639,
	"logps/chosen": -172.5618133544922,
	"logps/rejected": -159.7906494140625,
	"loss": 0.6842,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": 0.007245404180139303,
	"rewards/margins": 0.016996894031763077,
	"rewards/rejected": -0.009751489385962486,
	"step": 55
	},
	{
	"epoch": 0.12792324605236857,
	"grad_norm": 3.919812332975093,
	"learning_rate": 4.988301435819852e-07,
	"logits/chosen": -0.528161883354187,
	"logits/rejected": -0.7242938280105591,
	"logps/chosen": -163.2517547607422,
	"logps/rejected": -152.65904235839844,
	"loss": 0.6833,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -4.5745400711894035e-05,
	"rewards/margins": 0.017660435289144516,
	"rewards/rejected": -0.01770617999136448,
	"step": 60
	},
	{
	"epoch": 0.13858351655673262,
	"grad_norm": 4.26787115297138,
	"learning_rate": 4.977588036590624e-07,
	"logits/chosen": -0.6125078797340393,
	"logits/rejected": -0.7909122109413147,
	"logps/chosen": -157.07858276367188,
	"logps/rejected": -142.1239776611328,
	"loss": 0.6787,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.011157763190567493,
	"rewards/margins": 0.029583096504211426,
	"rewards/rejected": -0.04074086248874664,
	"step": 65
	},
	{
	"epoch": 0.14924378706109667,
	"grad_norm": 4.32141025222622,
	"learning_rate": 4.96344226968867e-07,
	"logits/chosen": -0.6417307257652283,
	"logits/rejected": -0.8415061235427856,
	"logps/chosen": -177.39974975585938,
	"logps/rejected": -156.98171997070312,
	"loss": 0.6761,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.018069323152303696,
	"rewards/margins": 0.04366481304168701,
	"rewards/rejected": -0.061734139919281006,
	"step": 70
	},
	{
	"epoch": 0.15990405756546072,
	"grad_norm": 4.745633736375277,
	"learning_rate": 4.945883732186751e-07,
	"logits/chosen": -0.6420779824256897,
	"logits/rejected": -0.8456922769546509,
	"logps/chosen": -175.96359252929688,
	"logps/rejected": -160.39553833007812,
	"loss": 0.6753,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.049303699284791946,
	"rewards/margins": 0.04190283641219139,
	"rewards/rejected": -0.09120653569698334,
	"step": 75
	},
	{
	"epoch": 0.17056432806982477,
	"grad_norm": 4.4046157142215705,
	"learning_rate": 4.924936749095969e-07,
	"logits/chosen": -0.6506496071815491,
	"logits/rejected": -0.8331305384635925,
	"logps/chosen": -170.9277801513672,
	"logps/rejected": -157.8987579345703,
	"loss": 0.6764,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.07082077115774155,
	"rewards/margins": 0.044193871319293976,
	"rewards/rejected": -0.11501463502645493,
	"step": 80
	},
	{
	"epoch": 0.18122459857418882,
	"grad_norm": 5.024858873122934,
	"learning_rate": 4.900630339666717e-07,
	"logits/chosen": -0.6046501994132996,
	"logits/rejected": -0.879498302936554,
	"logps/chosen": -172.4420928955078,
	"logps/rejected": -155.1177215576172,
	"loss": 0.6708,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.08710388094186783,
	"rewards/margins": 0.05091012641787529,
	"rewards/rejected": -0.13801398873329163,
	"step": 85
	},
	{
	"epoch": 0.19188486907855287,
	"grad_norm": 4.906760943250142,
	"learning_rate": 4.872998177186375e-07,
	"logits/chosen": -0.6804112195968628,
	"logits/rejected": -0.9185736775398254,
	"logps/chosen": -173.2130126953125,
	"logps/rejected": -157.01849365234375,
	"loss": 0.6656,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.09927495568990707,
	"rewards/margins": 0.056527040898799896,
	"rewards/rejected": -0.15580201148986816,
	"step": 90
	},
	{
	"epoch": 0.20254513958291692,
	"grad_norm": 4.854322224106784,
	"learning_rate": 4.842078542329463e-07,
	"logits/chosen": -0.6420129537582397,
	"logits/rejected": -0.8440741300582886,
	"logps/chosen": -172.54263305664062,
	"logps/rejected": -160.012939453125,
	"loss": 0.6636,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.11956344544887543,
	"rewards/margins": 0.0651877298951149,
	"rewards/rejected": -0.18475116789340973,
	"step": 95
	},
	{
	"epoch": 0.21320541008728097,
	"grad_norm": 5.020847639274401,
	"learning_rate": 4.807914270124876e-07,
	"logits/chosen": -0.6584053635597229,
	"logits/rejected": -0.8369486927986145,
	"logps/chosen": -158.8271484375,
	"logps/rejected": -151.04791259765625,
	"loss": 0.6622,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.13495273888111115,
	"rewards/margins": 0.06916390359401703,
	"rewards/rejected": -0.20411665737628937,
	"step": 100
	},
	{
	"epoch": 0.22386568059164502,
	"grad_norm": 5.1518931973507875,
	"learning_rate": 4.770552690613665e-07,
	"logits/chosen": -0.7008846998214722,
	"logits/rejected": -0.9158443212509155,
	"logps/chosen": -181.6995391845703,
	"logps/rejected": -168.43638610839844,
	"loss": 0.6531,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.14559721946716309,
	"rewards/margins": 0.08520212024450302,
	"rewards/rejected": -0.2307993471622467,
	"step": 105
	},
	{
	"epoch": 0.23452595109600907,
	"grad_norm": 4.93222468686984,
	"learning_rate": 4.730045563279577e-07,
	"logits/chosen": -0.7327751517295837,
	"logits/rejected": -0.9426084756851196,
	"logps/chosen": -184.8527069091797,
	"logps/rejected": -169.2633056640625,
	"loss": 0.6536,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.18423308432102203,
	"rewards/margins": 0.08043086528778076,
	"rewards/rejected": -0.2646639347076416,
	"step": 110
	},
	{
	"epoch": 0.24518622160037312,
	"grad_norm": 5.321285521863998,
	"learning_rate": 4.6864490053432e-07,
	"logits/chosen": -0.7645201683044434,
	"logits/rejected": -0.9136350750923157,
	"logps/chosen": -184.50399780273438,
	"logps/rejected": -182.33792114257812,
	"loss": 0.6467,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.1797805279493332,
	"rewards/margins": 0.10915856063365936,
	"rewards/rejected": -0.28893908858299255,
	"step": 115
	},
	{
	"epoch": 0.25584649210473714,
	"grad_norm": 5.62424898876036,
	"learning_rate": 4.6398234140190413e-07,
	"logits/chosen": -0.7312062978744507,
	"logits/rejected": -0.9342387318611145,
	"logps/chosen": -189.24227905273438,
	"logps/rejected": -181.2150115966797,
	"loss": 0.6404,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.22928175330162048,
	"rewards/margins": 0.1005432978272438,
	"rewards/rejected": -0.3298250436782837,
	"step": 120
	},
	{
	"epoch": 0.2665067626091012,
	"grad_norm": 5.848008736661893,
	"learning_rate": 4.5902333828432416e-07,
	"logits/chosen": -0.7402585744857788,
	"logits/rejected": -0.9469724893569946,
	"logps/chosen": -188.2518768310547,
	"logps/rejected": -183.68360900878906,
	"loss": 0.6314,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.2475469410419464,
	"rewards/margins": 0.15488557517528534,
	"rewards/rejected": -0.40243250131607056,
	"step": 125
	},
	{
	"epoch": 0.27716703311346524,
	"grad_norm": 5.62435510068984,
	"learning_rate": 4.537747612187848e-07,
	"logits/chosen": -0.6827915906906128,
	"logits/rejected": -0.9053131341934204,
	"logps/chosen": -176.27835083007812,
	"logps/rejected": -177.09768676757812,
	"loss": 0.6331,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.2656404376029968,
	"rewards/margins": 0.14400802552700043,
	"rewards/rejected": -0.40964850783348083,
	"step": 130
	},
	{
	"epoch": 0.2878273036178293,
	"grad_norm": 5.883733263408107,
	"learning_rate": 4.4824388140856194e-07,
	"logits/chosen": -0.813726544380188,
	"logits/rejected": -0.9863494634628296,
	"logps/chosen": -193.75765991210938,
	"logps/rejected": -192.6829833984375,
	"loss": 0.6258,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.32872524857521057,
	"rewards/margins": 0.16848836839199066,
	"rewards/rejected": -0.49721360206604004,
	"step": 135
	},
	{
	"epoch": 0.29848757412219334,
	"grad_norm": 6.222829798884928,
	"learning_rate": 4.4243836114972003e-07,
	"logits/chosen": -0.7957421541213989,
	"logits/rejected": -0.9675641059875488,
	"logps/chosen": -185.958251953125,
	"logps/rejected": -190.2810516357422,
	"loss": 0.6259,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.36352983117103577,
	"rewards/margins": 0.1679573506116867,
	"rewards/rejected": -0.5314871072769165,
	"step": 140
	},
	{
	"epoch": 0.3091478446265574,
	"grad_norm": 6.026406045285321,
	"learning_rate": 4.3636624321602354e-07,
	"logits/chosen": -0.7669280171394348,
	"logits/rejected": -1.0013420581817627,
	"logps/chosen": -199.62496948242188,
	"logps/rejected": -198.5312957763672,
	"loss": 0.6139,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.41982731223106384,
	"rewards/margins": 0.1919022500514984,
	"rewards/rejected": -0.611729621887207,
	"step": 145
	},
	{
	"epoch": 0.31980811513092144,
	"grad_norm": 6.938366915650047,
	"learning_rate": 4.300359397167469e-07,
	"logits/chosen": -0.78579181432724,
	"logits/rejected": -1.0266155004501343,
	"logps/chosen": -190.5222625732422,
	"logps/rejected": -191.94302368164062,
	"loss": 0.6191,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.4288663864135742,
	"rewards/margins": 0.1750030219554901,
	"rewards/rejected": -0.6038694381713867,
	"step": 150
	},
	{
	"epoch": 0.3304683856352855,
	"grad_norm": 6.503433628260907,
	"learning_rate": 4.2345622044281914e-07,
	"logits/chosen": -0.7738896608352661,
	"logits/rejected": -0.9923878908157349,
	"logps/chosen": -201.4437255859375,
	"logps/rejected": -201.36099243164062,
	"loss": 0.6073,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.46533137559890747,
	"rewards/margins": 0.18831129372119904,
	"rewards/rejected": -0.6536425948143005,
	"step": 155
	},
	{
	"epoch": 0.34112865613964954,
	"grad_norm": 6.951278659773283,
	"learning_rate": 4.1663620071744896e-07,
	"logits/chosen": -0.8082219958305359,
	"logits/rejected": -1.0701286792755127,
	"logps/chosen": -221.80789184570312,
	"logps/rejected": -220.5237274169922,
	"loss": 0.6108,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.5697073340415955,
	"rewards/margins": 0.196958988904953,
	"rewards/rejected": -0.7666663527488708,
	"step": 160
	},
	{
	"epoch": 0.35178892664401357,
	"grad_norm": 7.107245594085975,
	"learning_rate": 4.0958532876806036e-07,
	"logits/chosen": -0.9068414568901062,
	"logits/rejected": -1.0665959119796753,
	"logps/chosen": -223.1608428955078,
	"logps/rejected": -228.6382598876953,
	"loss": 0.6007,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.6051439046859741,
	"rewards/margins": 0.22736486792564392,
	"rewards/rejected": -0.8325088620185852,
	"step": 165
	},
	{
	"epoch": 0.36244919714837764,
	"grad_norm": 7.5558158008023355,
	"learning_rate": 4.023133726370341e-07,
	"logits/chosen": -0.7768110036849976,
	"logits/rejected": -1.023694634437561,
	"logps/chosen": -230.20028686523438,
	"logps/rejected": -237.296630859375,
	"loss": 0.6005,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.6818786859512329,
	"rewards/margins": 0.2647910714149475,
	"rewards/rejected": -0.9466696977615356,
	"step": 170
	},
	{
	"epoch": 0.37310946765274167,
	"grad_norm": 7.748401207711855,
	"learning_rate": 3.9483040664938844e-07,
	"logits/chosen": -0.8651229739189148,
	"logits/rejected": -1.1080349683761597,
	"logps/chosen": -239.4313201904297,
	"logps/rejected": -245.35641479492188,
	"loss": 0.5827,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.7178173065185547,
	"rewards/margins": 0.29743796586990356,
	"rewards/rejected": -1.015255331993103,
	"step": 175
	},
	{
	"epoch": 0.38376973815710574,
	"grad_norm": 7.833168702083219,
	"learning_rate": 3.8714679745614556e-07,
	"logits/chosen": -0.9112879633903503,
	"logits/rejected": -1.1001932621002197,
	"logps/chosen": -251.1482391357422,
	"logps/rejected": -257.7167053222656,
	"loss": 0.5869,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.8083968162536621,
	"rewards/margins": 0.26524096727371216,
	"rewards/rejected": -1.073637843132019,
	"step": 180
	},
	{
	"epoch": 0.39443000866146977,
	"grad_norm": 7.402036456357543,
	"learning_rate": 3.792731896727196e-07,
	"logits/chosen": -0.8897370100021362,
	"logits/rejected": -1.091963768005371,
	"logps/chosen": -246.6190948486328,
	"logps/rejected": -268.6842041015625,
	"loss": 0.5851,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.8738805651664734,
	"rewards/margins": 0.3643074929714203,
	"rewards/rejected": -1.2381881475448608,
	"step": 185
	},
	{
	"epoch": 0.40509027916583384,
	"grad_norm": 7.32634230041485,
	"learning_rate": 3.712204911322228e-07,
	"logits/chosen": -0.8557780981063843,
	"logits/rejected": -1.057023286819458,
	"logps/chosen": -217.1138916015625,
	"logps/rejected": -232.2842254638672,
	"loss": 0.5838,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.7771707773208618,
	"rewards/margins": 0.2797245681285858,
	"rewards/rejected": -1.05689537525177,
	"step": 190
	},
	{
	"epoch": 0.41575054967019787,
	"grad_norm": 9.45088347010784,
	"learning_rate": 3.629998577741174e-07,
	"logits/chosen": -0.8742257952690125,
	"logits/rejected": -1.0490225553512573,
	"logps/chosen": -240.11489868164062,
	"logps/rejected": -265.6509094238281,
	"loss": 0.5864,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.8606696128845215,
	"rewards/margins": 0.3593491315841675,
	"rewards/rejected": -1.2200186252593994,
	"step": 195
	},
	{
	"epoch": 0.42641082017456194,
	"grad_norm": 8.652861206718594,
	"learning_rate": 3.546226781891501e-07,
	"logits/chosen": -0.8858518600463867,
	"logits/rejected": -1.0868691205978394,
	"logps/chosen": -266.2615051269531,
	"logps/rejected": -285.27703857421875,
	"loss": 0.5821,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.975814938545227,
	"rewards/margins": 0.4038930833339691,
	"rewards/rejected": -1.3797080516815186,
	"step": 200
	},
	{
	"epoch": 0.43707109067892597,
	"grad_norm": 9.648919264403354,
	"learning_rate": 3.461005578419791e-07,
	"logits/chosen": -0.8321302533149719,
	"logits/rejected": -1.0552650690078735,
	"logps/chosen": -253.7904815673828,
	"logps/rejected": -272.8400573730469,
	"loss": 0.588,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.9785162210464478,
	"rewards/margins": 0.3188565969467163,
	"rewards/rejected": -1.297372817993164,
	"step": 205
	},
	{
	"epoch": 0.44773136118329004,
	"grad_norm": 8.305774901520081,
	"learning_rate": 3.374453029933509e-07,
	"logits/chosen": -0.9058141708374023,
	"logits/rejected": -1.0458682775497437,
	"logps/chosen": -258.77069091796875,
	"logps/rejected": -279.82977294921875,
	"loss": 0.5823,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.9745637774467468,
	"rewards/margins": 0.3414529263973236,
	"rewards/rejected": -1.3160169124603271,
	"step": 210
	},
	{
	"epoch": 0.45839163168765407,
	"grad_norm": 8.730250055075079,
	"learning_rate": 3.286689043441015e-07,
	"logits/chosen": -0.8889232873916626,
	"logits/rejected": -1.12659752368927,
	"logps/chosen": -264.6424255371094,
	"logps/rejected": -273.76092529296875,
	"loss": 0.5905,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.9881819486618042,
	"rewards/margins": 0.31245288252830505,
	"rewards/rejected": -1.3006350994110107,
	"step": 215
	},
	{
	"epoch": 0.46905190219201814,
	"grad_norm": 9.464259902697126,
	"learning_rate": 3.197835204236402e-07,
	"logits/chosen": -0.9472643136978149,
	"logits/rejected": -1.142138123512268,
	"logps/chosen": -279.47662353515625,
	"logps/rejected": -311.5118103027344,
	"loss": 0.5629,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.133866548538208,
	"rewards/margins": 0.4763459265232086,
	"rewards/rejected": -1.6102125644683838,
	"step": 220
	},
	{
	"epoch": 0.47971217269638217,
	"grad_norm": 9.53110205637003,
	"learning_rate": 3.1080146074592877e-07,
	"logits/chosen": -0.8609586954116821,
	"logits/rejected": -1.1460800170898438,
	"logps/chosen": -280.66595458984375,
	"logps/rejected": -307.8553771972656,
	"loss": 0.5514,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -1.1233617067337036,
	"rewards/margins": 0.49458152055740356,
	"rewards/rejected": -1.6179431676864624,
	"step": 225
	},
	{
	"epoch": 0.49037244320074624,
	"grad_norm": 10.766670968073823,
	"learning_rate": 3.017351687562928e-07,
	"logits/chosen": -0.869361400604248,
	"logits/rejected": -1.071195125579834,
	"logps/chosen": -287.5640869140625,
	"logps/rejected": -315.25347900390625,
	"loss": 0.5665,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -1.2507811784744263,
	"rewards/margins": 0.4507381319999695,
	"rewards/rejected": -1.7015190124511719,
	"step": 230
	},
	{
	"epoch": 0.5010327137051103,
	"grad_norm": 8.57346401837084,
	"learning_rate": 2.925972045926878e-07,
	"logits/chosen": -0.9069381952285767,
	"logits/rejected": -1.0885123014450073,
	"logps/chosen": -276.06878662109375,
	"logps/rejected": -302.81072998046875,
	"loss": 0.5677,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.1936795711517334,
	"rewards/margins": 0.44402870535850525,
	"rewards/rejected": -1.6377084255218506,
	"step": 235
	},
	{
	"epoch": 0.5116929842094743,
	"grad_norm": 8.335769499664682,
	"learning_rate": 2.83400227685304e-07,
	"logits/chosen": -0.926740288734436,
	"logits/rejected": -1.188207983970642,
	"logps/chosen": -272.0440979003906,
	"logps/rejected": -291.0050964355469,
	"loss": 0.5609,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.1271604299545288,
	"rewards/margins": 0.37117230892181396,
	"rewards/rejected": -1.4983327388763428,
	"step": 240
	},
	{
	"epoch": 0.5223532547138383,
	"grad_norm": 8.95305553011223,
	"learning_rate": 2.7415697921861525e-07,
	"logits/chosen": -0.8435291051864624,
	"logits/rejected": -1.072458028793335,
	"logps/chosen": -263.8363952636719,
	"logps/rejected": -289.58270263671875,
	"loss": 0.552,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.0684736967086792,
	"rewards/margins": 0.43612685799598694,
	"rewards/rejected": -1.5046006441116333,
	"step": 245
	},
	{
	"epoch": 0.5330135252182024,
	"grad_norm": 10.305199478555215,
	"learning_rate": 2.6488026448016686e-07,
	"logits/chosen": -0.9254539608955383,
	"logits/rejected": -1.1660327911376953,
	"logps/chosen": -287.7872009277344,
	"logps/rejected": -306.3985290527344,
	"loss": 0.5594,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.1574687957763672,
	"rewards/margins": 0.37755414843559265,
	"rewards/rejected": -1.5350229740142822,
	"step": 250
	},
	{
	"epoch": 0.5436737957225665,
	"grad_norm": 9.11035884736237,
	"learning_rate": 2.5558293512055923e-07,
	"logits/chosen": -0.8859409093856812,
	"logits/rejected": -1.1229826211929321,
	"logps/chosen": -278.84051513671875,
	"logps/rejected": -311.79669189453125,
	"loss": 0.5571,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -1.2464487552642822,
	"rewards/margins": 0.48425453901290894,
	"rewards/rejected": -1.730703353881836,
	"step": 255
	},
	{
	"epoch": 0.5543340662269305,
	"grad_norm": 9.443455019352353,
	"learning_rate": 2.4627787134919946e-07,
	"logits/chosen": -0.8607537150382996,
	"logits/rejected": -1.067083716392517,
	"logps/chosen": -306.5609130859375,
	"logps/rejected": -340.9252014160156,
	"loss": 0.559,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -1.4955613613128662,
	"rewards/margins": 0.5148967504501343,
	"rewards/rejected": -2.01045823097229,
	"step": 260
	},
	{
	"epoch": 0.5649943367312945,
	"grad_norm": 10.020105882711649,
	"learning_rate": 2.369779640904909e-07,
	"logits/chosen": -0.9872435331344604,
	"logits/rejected": -1.1790921688079834,
	"logps/chosen": -301.1463928222656,
	"logps/rejected": -326.53509521484375,
	"loss": 0.5522,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.46715247631073,
	"rewards/margins": 0.45322275161743164,
	"rewards/rejected": -1.9203754663467407,
	"step": 265
	},
	{
	"epoch": 0.5756546072356586,
	"grad_norm": 9.230369920285517,
	"learning_rate": 2.2769609712517602e-07,
	"logits/chosen": -0.9972273707389832,
	"logits/rejected": -1.139904499053955,
	"logps/chosen": -310.1788635253906,
	"logps/rejected": -328.85455322265625,
	"loss": 0.5693,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.3879780769348145,
	"rewards/margins": 0.4023415446281433,
	"rewards/rejected": -1.7903196811676025,
	"step": 270
	},
	{
	"epoch": 0.5863148777400227,
	"grad_norm": 9.773551123939216,
	"learning_rate": 2.184451292415778e-07,
	"logits/chosen": -0.9245126843452454,
	"logits/rejected": -1.0917091369628906,
	"logps/chosen": -265.5910949707031,
	"logps/rejected": -292.25726318359375,
	"loss": 0.5625,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.123450517654419,
	"rewards/margins": 0.4249204099178314,
	"rewards/rejected": -1.5483709573745728,
	"step": 275
	},
	{
	"epoch": 0.5969751482443867,
	"grad_norm": 9.944866138311095,
	"learning_rate": 2.0923787642146434e-07,
	"logits/chosen": -0.8810575604438782,
	"logits/rejected": -1.0941672325134277,
	"logps/chosen": -280.61279296875,
	"logps/rejected": -312.9557800292969,
	"loss": 0.552,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.2670402526855469,
	"rewards/margins": 0.519837498664856,
	"rewards/rejected": -1.7868778705596924,
	"step": 280
	},
	{
	"epoch": 0.6076354187487507,
	"grad_norm": 9.880910925618455,
	"learning_rate": 2.0008709408521507e-07,
	"logits/chosen": -0.9383381009101868,
	"logits/rejected": -1.1827994585037231,
	"logps/chosen": -295.6000671386719,
	"logps/rejected": -324.3331604003906,
	"loss": 0.5407,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.2447686195373535,
	"rewards/margins": 0.5489395260810852,
	"rewards/rejected": -1.793708086013794,
	"step": 285
	},
	{
	"epoch": 0.6182956892531148,
	"grad_norm": 10.071491320024812,
	"learning_rate": 1.9100545942088848e-07,
	"logits/chosen": -0.9224274754524231,
	"logits/rejected": -1.1538960933685303,
	"logps/chosen": -289.017578125,
	"logps/rejected": -325.94952392578125,
	"loss": 0.5457,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.2537972927093506,
	"rewards/margins": 0.5672923922538757,
	"rewards/rejected": -1.821089744567871,
	"step": 290
	},
	{
	"epoch": 0.6289559597574789,
	"grad_norm": 11.845857689113707,
	"learning_rate": 1.8200555382166898e-07,
	"logits/chosen": -0.9387105107307434,
	"logits/rejected": -1.1250282526016235,
	"logps/chosen": -318.4964294433594,
	"logps/rejected": -338.69696044921875,
	"loss": 0.5696,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.5140787363052368,
	"rewards/margins": 0.4427851140499115,
	"rewards/rejected": -1.9568637609481812,
	"step": 295
	},
	{
	"epoch": 0.6396162302618429,
	"grad_norm": 10.971903527074975,
	"learning_rate": 1.7309984545602528e-07,
	"logits/chosen": -0.9286500215530396,
	"logits/rejected": -1.1137937307357788,
	"logps/chosen": -279.747802734375,
	"logps/rejected": -307.8285217285156,
	"loss": 0.5376,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.323687195777893,
	"rewards/margins": 0.48056259751319885,
	"rewards/rejected": -1.8042497634887695,
	"step": 300
	},
	{
	"epoch": 0.6502765007662069,
	"grad_norm": 10.964118734413244,
	"learning_rate": 1.6430067199472657e-07,
	"logits/chosen": -0.9661188125610352,
	"logits/rejected": -1.1719661951065063,
	"logps/chosen": -294.7871398925781,
	"logps/rejected": -329.8990783691406,
	"loss": 0.5342,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.3090574741363525,
	"rewards/margins": 0.5292733907699585,
	"rewards/rejected": -1.838330864906311,
	"step": 305
	},
	{
	"epoch": 0.660936771270571,
	"grad_norm": 11.086382549521785,
	"learning_rate": 1.5562022351864534e-07,
	"logits/chosen": -0.9217275381088257,
	"logits/rejected": -1.1163594722747803,
	"logps/chosen": -266.56402587890625,
	"logps/rejected": -306.4192810058594,
	"loss": 0.5437,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -1.1430429220199585,
	"rewards/margins": 0.5940698981285095,
	"rewards/rejected": -1.7371127605438232,
	"step": 310
	},
	{
	"epoch": 0.6715970417749351,
	"grad_norm": 10.957109584007643,
	"learning_rate": 1.4707052563102748e-07,
	"logits/chosen": -0.8743804097175598,
	"logits/rejected": -1.0983814001083374,
	"logps/chosen": -285.22607421875,
	"logps/rejected": -317.2628173828125,
	"loss": 0.5298,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.3059532642364502,
	"rewards/margins": 0.5242554545402527,
	"rewards/rejected": -1.8302087783813477,
	"step": 315
	},
	{
	"epoch": 0.6822573122792991,
	"grad_norm": 10.507330109558843,
	"learning_rate": 1.386634227976224e-07,
	"logits/chosen": -0.9597967863082886,
	"logits/rejected": -1.124963402748108,
	"logps/chosen": -286.6432189941406,
	"logps/rejected": -315.79937744140625,
	"loss": 0.5378,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.3352241516113281,
	"rewards/margins": 0.4382667541503906,
	"rewards/rejected": -1.7734909057617188,
	"step": 320
	},
	{
	"epoch": 0.6929175827836631,
	"grad_norm": 9.804790546339078,
	"learning_rate": 1.3041056193775665e-07,
	"logits/chosen": -0.888710618019104,
	"logits/rejected": -1.0851693153381348,
	"logps/chosen": -311.01544189453125,
	"logps/rejected": -332.7283020019531,
	"loss": 0.5475,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -1.5570933818817139,
	"rewards/margins": 0.4053064286708832,
	"rewards/rejected": -1.9623997211456299,
	"step": 325
	},
	{
	"epoch": 0.7035778532880271,
	"grad_norm": 9.630550808372668,
	"learning_rate": 1.2232337628908103e-07,
	"logits/chosen": -0.9582077264785767,
	"logits/rejected": -1.1537044048309326,
	"logps/chosen": -326.71221923828125,
	"logps/rejected": -377.6993713378906,
	"loss": 0.5435,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.4935967922210693,
	"rewards/margins": 0.7231054902076721,
	"rewards/rejected": -2.2167022228240967,
	"step": 330
	},
	{
	"epoch": 0.7142381237923913,
	"grad_norm": 9.172032682717258,
	"learning_rate": 1.1441306956834504e-07,
	"logits/chosen": -0.9413734674453735,
	"logits/rejected": -1.1069329977035522,
	"logps/chosen": -306.80218505859375,
	"logps/rejected": -357.0929870605469,
	"loss": 0.5238,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.4035927057266235,
	"rewards/margins": 0.6626663208007812,
	"rewards/rejected": -2.0662589073181152,
	"step": 335
	},
	{
	"epoch": 0.7248983942967553,
	"grad_norm": 10.907598822157487,
	"learning_rate": 1.0669060045014214e-07,
	"logits/chosen": -1.0222991704940796,
	"logits/rejected": -1.228389024734497,
	"logps/chosen": -316.627197265625,
	"logps/rejected": -357.66229248046875,
	"loss": 0.5388,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -1.4493268728256226,
	"rewards/margins": 0.5827343463897705,
	"rewards/rejected": -2.0320611000061035,
	"step": 340
	},
	{
	"epoch": 0.7355586648011193,
	"grad_norm": 10.97300975462713,
	"learning_rate": 9.9166667385128e-08,
	"logits/chosen": -0.963638186454773,
	"logits/rejected": -1.1757190227508545,
	"logps/chosen": -304.3102722167969,
	"logps/rejected": -354.2998962402344,
	"loss": 0.5432,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.4618219137191772,
	"rewards/margins": 0.7080960273742676,
	"rewards/rejected": -2.1699178218841553,
	"step": 345
	},
	{
	"epoch": 0.7462189353054833,
	"grad_norm": 9.89897013382996,
	"learning_rate": 9.185169377874488e-08,
	"logits/chosen": -0.9903243780136108,
	"logits/rejected": -1.1469306945800781,
	"logps/chosen": -312.1212158203125,
	"logps/rejected": -346.9307861328125,
	"loss": 0.5252,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -1.5106861591339111,
	"rewards/margins": 0.49892768263816833,
	"rewards/rejected": -2.0096137523651123,
	"step": 350
	},
	{
	"epoch": 0.7568792058098475,
	"grad_norm": 10.018680833325265,
	"learning_rate": 8.475581355098379e-08,
	"logits/chosen": -0.9698395729064941,
	"logits/rejected": -1.1572554111480713,
	"logps/chosen": -304.4853820800781,
	"logps/rejected": -342.16827392578125,
	"loss": 0.5462,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.4320096969604492,
	"rewards/margins": 0.5366055965423584,
	"rewards/rejected": -1.968615174293518,
	"step": 355
	},
	{
	"epoch": 0.7675394763142115,
	"grad_norm": 11.03385142626086,
	"learning_rate": 7.788885709719033e-08,
	"logits/chosen": -0.9215399622917175,
	"logits/rejected": -1.1144723892211914,
	"logps/chosen": -316.9365234375,
	"logps/rejected": -359.6341857910156,
	"loss": 0.5392,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.580185890197754,
	"rewards/margins": 0.564557671546936,
	"rewards/rejected": -2.1447434425354004,
	"step": 360
	},
	{
	"epoch": 0.7781997468185755,
	"grad_norm": 9.523737016870674,
	"learning_rate": 7.126033766936365e-08,
	"logits/chosen": -0.9409270286560059,
	"logits/rejected": -1.124208688735962,
	"logps/chosen": -311.7746276855469,
	"logps/rejected": -355.46343994140625,
	"loss": 0.536,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.5002214908599854,
	"rewards/margins": 0.5499864816665649,
	"rewards/rejected": -2.05020809173584,
	"step": 365
	},
	{
	"epoch": 0.7888600173229395,
	"grad_norm": 11.210638577879926,
	"learning_rate": 6.487943819681488e-08,
	"logits/chosen": -0.9616110920906067,
	"logits/rejected": -1.0974061489105225,
	"logps/chosen": -315.260009765625,
	"logps/rejected": -357.67059326171875,
	"loss": 0.5533,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -1.509570837020874,
	"rewards/margins": 0.537238597869873,
	"rewards/rejected": -2.046809434890747,
	"step": 370
	},
	{
	"epoch": 0.7995202878273037,
	"grad_norm": 9.781063018210089,
	"learning_rate": 5.875499856444358e-08,
	"logits/chosen": -0.9564340710639954,
	"logits/rejected": -1.1133265495300293,
	"logps/chosen": -314.17535400390625,
	"logps/rejected": -351.45001220703125,
	"loss": 0.5458,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.493622064590454,
	"rewards/margins": 0.5427702069282532,
	"rewards/rejected": -2.0363922119140625,
	"step": 375
	},
	{
	"epoch": 0.8101805583316677,
	"grad_norm": 11.983119955061767,
	"learning_rate": 5.289550336625731e-08,
	"logits/chosen": -1.0206782817840576,
	"logits/rejected": -1.2104320526123047,
	"logps/chosen": -327.4963684082031,
	"logps/rejected": -353.74603271484375,
	"loss": 0.5474,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.506259560585022,
	"rewards/margins": 0.49152374267578125,
	"rewards/rejected": -1.9977830648422241,
	"step": 380
	},
	{
	"epoch": 0.8208408288360317,
	"grad_norm": 10.83148544527409,
	"learning_rate": 4.730907015109759e-08,
	"logits/chosen": -0.9245961308479309,
	"logits/rejected": -1.1795787811279297,
	"logps/chosen": -309.1303405761719,
	"logps/rejected": -346.46051025390625,
	"loss": 0.5403,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.5297610759735107,
	"rewards/margins": 0.5533354878425598,
	"rewards/rejected": -2.083096742630005,
	"step": 385
	},
	{
	"epoch": 0.8315010993403957,
	"grad_norm": 9.500539654945461,
	"learning_rate": 4.200343817685981e-08,
	"logits/chosen": -0.9566155672073364,
	"logits/rejected": -1.0963544845581055,
	"logps/chosen": -313.0601501464844,
	"logps/rejected": -343.36773681640625,
	"loss": 0.547,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.5300524234771729,
	"rewards/margins": 0.4933779835700989,
	"rewards/rejected": -2.023430347442627,
	"step": 390
	},
	{
	"epoch": 0.8421613698447599,
	"grad_norm": 9.955855605589283,
	"learning_rate": 3.698595768878363e-08,
	"logits/chosen": -0.9913743734359741,
	"logits/rejected": -1.180884599685669,
	"logps/chosen": -311.83636474609375,
	"logps/rejected": -356.932373046875,
	"loss": 0.5178,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.429694414138794,
	"rewards/margins": 0.6187530755996704,
	"rewards/rejected": -2.048447370529175,
	"step": 395
	},
	{
	"epoch": 0.8528216403491239,
	"grad_norm": 11.149747005186983,
	"learning_rate": 3.226357973666888e-08,
	"logits/chosen": -1.0238213539123535,
	"logits/rejected": -1.1811949014663696,
	"logps/chosen": -332.1514587402344,
	"logps/rejected": -359.03167724609375,
	"loss": 0.5505,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.6280012130737305,
	"rewards/margins": 0.43937546014785767,
	"rewards/rejected": -2.0673766136169434,
	"step": 400
	},
	{
	"epoch": 0.8528216403491239,
	"eval_logits/chosen": -0.9705477356910706,
	"eval_logits/rejected": -1.165926456451416,
	"eval_logps/chosen": -307.21051025390625,
	"eval_logps/rejected": -356.52508544921875,
	"eval_loss": 0.5049245953559875,
	"eval_rewards/accuracies": 0.7932573556900024,
	"eval_rewards/chosen": -1.4455755949020386,
	"eval_rewards/margins": 0.6763937473297119,
	"eval_rewards/rejected": -2.12196946144104,
	"eval_runtime": 11441.6179,
	"eval_samples_per_second": 5.247,
	"eval_steps_per_second": 1.312,
	"step": 400
	},
	{
	"epoch": 0.8634819108534879,
	"grad_norm": 9.468787134199466,
	"learning_rate": 2.7842846545123505e-08,
	"logits/chosen": -0.9555789232254028,
	"logits/rejected": -1.1705703735351562,
	"logps/chosen": -289.6531677246094,
	"logps/rejected": -345.7925720214844,
	"loss": 0.5233,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.3922350406646729,
	"rewards/margins": 0.6980171203613281,
	"rewards/rejected": -2.090252161026001,
	"step": 405
	},
	{
	"epoch": 0.8741421813578519,
	"grad_norm": 10.178761020491258,
	"learning_rate": 2.372988245018401e-08,
	"logits/chosen": -0.9851318597793579,
	"logits/rejected": -1.1668522357940674,
	"logps/chosen": -316.6786193847656,
	"logps/rejected": -362.8905944824219,
	"loss": 0.5423,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.598661184310913,
	"rewards/margins": 0.608306884765625,
	"rewards/rejected": -2.206967830657959,
	"step": 410
	},
	{
	"epoch": 0.884802451862216,
	"grad_norm": 9.329485481095736,
	"learning_rate": 1.9930385414865386e-08,
	"logits/chosen": -1.0145405530929565,
	"logits/rejected": -1.2289698123931885,
	"logps/chosen": -336.15087890625,
	"logps/rejected": -373.11309814453125,
	"loss": 0.5293,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.558721899986267,
	"rewards/margins": 0.6198412775993347,
	"rewards/rejected": -2.178563356399536,
	"step": 415
	},
	{
	"epoch": 0.8954627223665801,
	"grad_norm": 9.690686562397088,
	"learning_rate": 1.6449619135393084e-08,
	"logits/chosen": -0.9239746928215027,
	"logits/rejected": -1.1881077289581299,
	"logps/chosen": -296.87200927734375,
	"logps/rejected": -329.9718017578125,
	"loss": 0.5513,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.472847580909729,
	"rewards/margins": 0.5113754868507385,
	"rewards/rejected": -1.9842230081558228,
	"step": 420
	},
	{
	"epoch": 0.9061229928709441,
	"grad_norm": 10.862769817255897,
	"learning_rate": 1.329240574905452e-08,
	"logits/chosen": -0.9023639559745789,
	"logits/rejected": -1.0890004634857178,
	"logps/chosen": -324.7179260253906,
	"logps/rejected": -374.7180480957031,
	"loss": 0.5149,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.5423232316970825,
	"rewards/margins": 0.6671528816223145,
	"rewards/rejected": -2.2094759941101074,
	"step": 425
	},
	{
	"epoch": 0.9167832633753081,
	"grad_norm": 11.35977235393007,
	"learning_rate": 1.0463119153770989e-08,
	"logits/chosen": -0.9444347620010376,
	"logits/rejected": -1.1702197790145874,
	"logps/chosen": -298.4215393066406,
	"logps/rejected": -328.64215087890625,
	"loss": 0.5404,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.4311974048614502,
	"rewards/margins": 0.5026859045028687,
	"rewards/rejected": -1.9338833093643188,
	"step": 430
	},
	{
	"epoch": 0.9274435338796722,
	"grad_norm": 10.068213055827782,
	"learning_rate": 7.965678948645832e-09,
	"logits/chosen": -0.9912747144699097,
	"logits/rejected": -1.2084077596664429,
	"logps/chosen": -336.46929931640625,
	"logps/rejected": -379.56640625,
	"loss": 0.538,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -1.6182082891464233,
	"rewards/margins": 0.6836891174316406,
	"rewards/rejected": -2.3018975257873535,
	"step": 435
	},
	{
	"epoch": 0.9381038043840363,
	"grad_norm": 12.790282190393167,
	"learning_rate": 5.803545003882554e-09,
	"logits/chosen": -0.9938758015632629,
	"logits/rejected": -1.17817223072052,
	"logps/chosen": -326.2915954589844,
	"logps/rejected": -371.28631591796875,
	"loss": 0.5377,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.5600776672363281,
	"rewards/margins": 0.5917671918869019,
	"rewards/rejected": -2.1518447399139404,
	"step": 440
	},
	{
	"epoch": 0.9487640748884003,
	"grad_norm": 9.050016131957404,
	"learning_rate": 3.979712667596669e-09,
	"logits/chosen": -0.9720270037651062,
	"logits/rejected": -1.1488044261932373,
	"logps/chosen": -304.312255859375,
	"logps/rejected": -351.5962219238281,
	"loss": 0.5199,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.4655094146728516,
	"rewards/margins": 0.6790416240692139,
	"rewards/rejected": -2.1445512771606445,
	"step": 445
	},
	{
	"epoch": 0.9594243453927643,
	"grad_norm": 13.159010993827899,
	"learning_rate": 2.4967086161600814e-09,
	"logits/chosen": -0.994873046875,
	"logits/rejected": -1.1672512292861938,
	"logps/chosen": -314.894287109375,
	"logps/rejected": -354.23223876953125,
	"loss": 0.5276,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.5018284320831299,
	"rewards/margins": 0.5567340850830078,
	"rewards/rejected": -2.0585622787475586,
	"step": 450
	},
	{
	"epoch": 0.9700846158971284,
	"grad_norm": 9.906738715572994,
	"learning_rate": 1.3565873538283757e-09,
	"logits/chosen": -0.9630732536315918,
	"logits/rejected": -1.1276707649230957,
	"logps/chosen": -306.04345703125,
	"logps/rejected": -351.21099853515625,
	"loss": 0.5208,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.395446538925171,
	"rewards/margins": 0.6138492822647095,
	"rewards/rejected": -2.009295701980591,
	"step": 455
	},
	{
	"epoch": 0.9807448864014925,
	"grad_norm": 10.687835024200046,
	"learning_rate": 5.609283664990693e-10,
	"logits/chosen": -0.9506285786628723,
	"logits/rejected": -1.20163094997406,
	"logps/chosen": -323.80657958984375,
	"logps/rejected": -370.2672424316406,
	"loss": 0.5199,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.5296146869659424,
	"rewards/margins": 0.6610507369041443,
	"rewards/rejected": -2.1906654834747314,
	"step": 460
	},
	{
	"epoch": 0.9914051569058565,
	"grad_norm": 11.797447945184583,
	"learning_rate": 1.1083393354488491e-10,
	"logits/chosen": -0.9356955289840698,
	"logits/rejected": -1.1217402219772339,
	"logps/chosen": -326.0872497558594,
	"logps/rejected": -382.658203125,
	"loss": 0.5263,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.588428020477295,
	"rewards/margins": 0.7401828169822693,
	"rewards/rejected": -2.328610897064209,
	"step": 465
	},
	{
	"epoch": 0.9999333733093477,
	"step": 469,
	"total_flos": 0.0,
	"train_loss": 0.5891387982409138,
	"train_runtime": 37343.5856,
	"train_samples_per_second": 1.608,
	"train_steps_per_second": 0.013
	}
	],
	"logging_steps": 5,
	"max_steps": 469,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}