Llama3-SimPO / trainer_state.json

Upload folder using huggingface_hub

26cfb89 verified 26 days ago

51.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.998691442030882,
	"eval_steps": 400,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.010468463752944255,
	"grad_norm": 89.9968305873071,
	"learning_rate": 6.25e-08,
	"logits/chosen": -0.7388366460800171,
	"logits/rejected": -0.7827404141426086,
	"logps/chosen": -1.15103280544281,
	"logps/rejected": -1.2909390926361084,
	"loss": 1.2935,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": -2.30206561088562,
	"rewards/margins": 0.2798125147819519,
	"rewards/rejected": -2.581878185272217,
	"step": 5
	},
	{
	"epoch": 0.02093692750588851,
	"grad_norm": 24.705919418070632,
	"learning_rate": 1.25e-07,
	"logits/chosen": -0.7937806844711304,
	"logits/rejected": -0.8651958703994751,
	"logps/chosen": -1.1529361009597778,
	"logps/rejected": -1.3611778020858765,
	"loss": 1.314,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -2.3058722019195557,
	"rewards/margins": 0.41648340225219727,
	"rewards/rejected": -2.722355604171753,
	"step": 10
	},
	{
	"epoch": 0.031405391258832765,
	"grad_norm": 27.735520006717728,
	"learning_rate": 1.875e-07,
	"logits/chosen": -0.7491501569747925,
	"logits/rejected": -0.8338179588317871,
	"logps/chosen": -1.1712462902069092,
	"logps/rejected": -1.270825743675232,
	"loss": 1.2667,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -2.3424925804138184,
	"rewards/margins": 0.19915875792503357,
	"rewards/rejected": -2.541651487350464,
	"step": 15
	},
	{
	"epoch": 0.04187385501177702,
	"grad_norm": 22.322171681204715,
	"learning_rate": 2.5e-07,
	"logits/chosen": -0.7619983553886414,
	"logits/rejected": -0.9046538472175598,
	"logps/chosen": -1.1294901371002197,
	"logps/rejected": -1.2941240072250366,
	"loss": 1.2696,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -2.2589802742004395,
	"rewards/margins": 0.32926779985427856,
	"rewards/rejected": -2.5882480144500732,
	"step": 20
	},
	{
	"epoch": 0.05234231876472128,
	"grad_norm": 12.849323230827375,
	"learning_rate": 3.125e-07,
	"logits/chosen": -0.772399365901947,
	"logits/rejected": -0.8519186973571777,
	"logps/chosen": -1.077214002609253,
	"logps/rejected": -1.2762653827667236,
	"loss": 1.2362,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -2.154428005218506,
	"rewards/margins": 0.39810293912887573,
	"rewards/rejected": -2.5525307655334473,
	"step": 25
	},
	{
	"epoch": 0.06281078251766553,
	"grad_norm": 84.84769866542291,
	"learning_rate": 3.75e-07,
	"logits/chosen": -0.7909184694290161,
	"logits/rejected": -0.8215691447257996,
	"logps/chosen": -1.059594988822937,
	"logps/rejected": -1.0990025997161865,
	"loss": 1.2897,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -2.119189977645874,
	"rewards/margins": 0.0788152664899826,
	"rewards/rejected": -2.198005199432373,
	"step": 30
	},
	{
	"epoch": 0.07327924627060979,
	"grad_norm": 12.477109087394112,
	"learning_rate": 4.3749999999999994e-07,
	"logits/chosen": -0.7678741216659546,
	"logits/rejected": -0.8405346870422363,
	"logps/chosen": -0.9820269346237183,
	"logps/rejected": -1.2532163858413696,
	"loss": 1.2497,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -1.9640538692474365,
	"rewards/margins": 0.5423787236213684,
	"rewards/rejected": -2.5064327716827393,
	"step": 35
	},
	{
	"epoch": 0.08374771002355404,
	"grad_norm": 10.85962784004132,
	"learning_rate": 5e-07,
	"logits/chosen": -0.7665027379989624,
	"logits/rejected": -0.8336607217788696,
	"logps/chosen": -0.9715523719787598,
	"logps/rejected": -1.1505324840545654,
	"loss": 1.2359,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -1.9431047439575195,
	"rewards/margins": 0.35795995593070984,
	"rewards/rejected": -2.301064968109131,
	"step": 40
	},
	{
	"epoch": 0.0942161737764983,
	"grad_norm": 10.414385637292323,
	"learning_rate": 5.625e-07,
	"logits/chosen": -0.7420114874839783,
	"logits/rejected": -0.8339902758598328,
	"logps/chosen": -0.9872716665267944,
	"logps/rejected": -1.1155823469161987,
	"loss": 1.2267,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -1.9745433330535889,
	"rewards/margins": 0.2566211223602295,
	"rewards/rejected": -2.2311646938323975,
	"step": 45
	},
	{
	"epoch": 0.10468463752944256,
	"grad_norm": 9.651448839940226,
	"learning_rate": 5.999678242522831e-07,
	"logits/chosen": -0.7927948832511902,
	"logits/rejected": -0.8290635943412781,
	"logps/chosen": -0.9459100961685181,
	"logps/rejected": -1.2578647136688232,
	"loss": 1.2207,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -1.8918201923370361,
	"rewards/margins": 0.6239093542098999,
	"rewards/rejected": -2.5157294273376465,
	"step": 50
	},
	{
	"epoch": 0.11515310128238682,
	"grad_norm": 43.90472722310407,
	"learning_rate": 5.996059263493219e-07,
	"logits/chosen": -0.7944079637527466,
	"logits/rejected": -0.9001775979995728,
	"logps/chosen": -1.072819471359253,
	"logps/rejected": -1.181773066520691,
	"loss": 1.2551,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -2.145638942718506,
	"rewards/margins": 0.21790704131126404,
	"rewards/rejected": -2.363546133041382,
	"step": 55
	},
	{
	"epoch": 0.12562156503533106,
	"grad_norm": 13.393066662370963,
	"learning_rate": 5.988423976115163e-07,
	"logits/chosen": -0.7826106548309326,
	"logits/rejected": -0.8369284868240356,
	"logps/chosen": -1.0628390312194824,
	"logps/rejected": -1.2253072261810303,
	"loss": 1.2246,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -2.125678062438965,
	"rewards/margins": 0.32493603229522705,
	"rewards/rejected": -2.4506144523620605,
	"step": 60
	},
	{
	"epoch": 0.1360900287882753,
	"grad_norm": 26.206483702491475,
	"learning_rate": 5.976782615723061e-07,
	"logits/chosen": -0.7975456714630127,
	"logits/rejected": -0.8562803268432617,
	"logps/chosen": -1.0680768489837646,
	"logps/rejected": -1.2204017639160156,
	"loss": 1.2268,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -2.1361536979675293,
	"rewards/margins": 0.3046496510505676,
	"rewards/rejected": -2.4408035278320312,
	"step": 65
	},
	{
	"epoch": 0.14655849254121958,
	"grad_norm": 13.41584537004533,
	"learning_rate": 5.961150787913738e-07,
	"logits/chosen": -0.8376196622848511,
	"logits/rejected": -0.9019572138786316,
	"logps/chosen": -1.0893644094467163,
	"logps/rejected": -1.2784545421600342,
	"loss": 1.1754,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -2.1787288188934326,
	"rewards/margins": 0.37818047404289246,
	"rewards/rejected": -2.5569090843200684,
	"step": 70
	},
	{
	"epoch": 0.15702695629416383,
	"grad_norm": 32.22425187362688,
	"learning_rate": 5.941549447626671e-07,
	"logits/chosen": -0.804112434387207,
	"logits/rejected": -0.845563530921936,
	"logps/chosen": -1.0805425643920898,
	"logps/rejected": -1.3212538957595825,
	"loss": 1.209,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -2.1610851287841797,
	"rewards/margins": 0.4814226031303406,
	"rewards/rejected": -2.642507791519165,
	"step": 75
	},
	{
	"epoch": 0.16749542004710807,
	"grad_norm": 8.981853488976475,
	"learning_rate": 5.918004871053251e-07,
	"logits/chosen": -0.7968226671218872,
	"logits/rejected": -0.8211067318916321,
	"logps/chosen": -1.026604413986206,
	"logps/rejected": -1.3631267547607422,
	"loss": 1.1624,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -2.053208827972412,
	"rewards/margins": 0.673044741153717,
	"rewards/rejected": -2.7262535095214844,
	"step": 80
	},
	{
	"epoch": 0.17796388380005235,
	"grad_norm": 17.367470137588203,
	"learning_rate": 5.890548620412763e-07,
	"logits/chosen": -0.8126602172851562,
	"logits/rejected": -0.8794834017753601,
	"logps/chosen": -1.0674957036972046,
	"logps/rejected": -1.3523355722427368,
	"loss": 1.1625,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -2.134991407394409,
	"rewards/margins": 0.5696790814399719,
	"rewards/rejected": -2.7046711444854736,
	"step": 85
	},
	{
	"epoch": 0.1884323475529966,
	"grad_norm": 17.833322868673477,
	"learning_rate": 5.859217501642258e-07,
	"logits/chosen": -0.840762734413147,
	"logits/rejected": -0.9274584054946899,
	"logps/chosen": -1.1602346897125244,
	"logps/rejected": -1.5290915966033936,
	"loss": 1.1734,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -2.320469379425049,
	"rewards/margins": 0.7377143502235413,
	"rewards/rejected": -3.058183193206787,
	"step": 90
	},
	{
	"epoch": 0.19890081130594087,
	"grad_norm": 22.98307788140464,
	"learning_rate": 5.824053515057091e-07,
	"logits/chosen": -0.8092079162597656,
	"logits/rejected": -0.8328098058700562,
	"logps/chosen": -1.133385419845581,
	"logps/rejected": -1.4298288822174072,
	"loss": 1.1919,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -2.266770839691162,
	"rewards/margins": 0.5928869247436523,
	"rewards/rejected": -2.8596577644348145,
	"step": 95
	},
	{
	"epoch": 0.2093692750588851,
	"grad_norm": 11.026437481785171,
	"learning_rate": 5.785103799048218e-07,
	"logits/chosen": -0.8240598440170288,
	"logits/rejected": -0.8689464330673218,
	"logps/chosen": -1.147385835647583,
	"logps/rejected": -1.3535184860229492,
	"loss": 1.2131,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -2.294771671295166,
	"rewards/margins": 0.41226544976234436,
	"rewards/rejected": -2.7070369720458984,
	"step": 100
	},
	{
	"epoch": 0.21983773881182936,
	"grad_norm": 9.837343506686455,
	"learning_rate": 5.742420566891749e-07,
	"logits/chosen": -0.7966706156730652,
	"logits/rejected": -0.878908634185791,
	"logps/chosen": -1.1871858835220337,
	"logps/rejected": -1.4869831800460815,
	"loss": 1.1062,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -2.3743717670440674,
	"rewards/margins": 0.5995948314666748,
	"rewards/rejected": -2.973966360092163,
	"step": 105
	},
	{
	"epoch": 0.23030620256477363,
	"grad_norm": 19.01097451640794,
	"learning_rate": 5.696061036755478e-07,
	"logits/chosen": -0.7402995228767395,
	"logits/rejected": -0.8451690673828125,
	"logps/chosen": -1.0870535373687744,
	"logps/rejected": -1.3536127805709839,
	"loss": 1.1368,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -2.174107074737549,
	"rewards/margins": 0.5331184267997742,
	"rewards/rejected": -2.7072255611419678,
	"step": 110
	},
	{
	"epoch": 0.24077466631771788,
	"grad_norm": 89.427421788791,
	"learning_rate": 5.64608735499618e-07,
	"logits/chosen": -0.833459734916687,
	"logits/rejected": -0.829018235206604,
	"logps/chosen": -1.150940179824829,
	"logps/rejected": -1.287229061126709,
	"loss": 1.1596,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -2.301880359649658,
	"rewards/margins": 0.2725774943828583,
	"rewards/rejected": -2.574458122253418,
	"step": 115
	},
	{
	"epoch": 0.2512431300706621,
	"grad_norm": 31.745365051153907,
	"learning_rate": 5.592566512850545e-07,
	"logits/chosen": -0.79100501537323,
	"logits/rejected": -0.8663417100906372,
	"logps/chosen": -1.0571635961532593,
	"logps/rejected": -1.4087059497833252,
	"loss": 1.1752,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -2.1143271923065186,
	"rewards/margins": 0.703084409236908,
	"rewards/rejected": -2.8174118995666504,
	"step": 120
	},
	{
	"epoch": 0.26171159382360637,
	"grad_norm": 14.496796822119729,
	"learning_rate": 5.535570256631384e-07,
	"logits/chosen": -0.798068642616272,
	"logits/rejected": -0.7694944143295288,
	"logps/chosen": -1.171478271484375,
	"logps/rejected": -1.5117442607879639,
	"loss": 1.1603,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -2.34295654296875,
	"rewards/margins": 0.6805320978164673,
	"rewards/rejected": -3.0234885215759277,
	"step": 125
	},
	{
	"epoch": 0.2721800575765506,
	"grad_norm": 11.15517991690276,
	"learning_rate": 5.475174991549528e-07,
	"logits/chosen": -0.7599740624427795,
	"logits/rejected": -0.8051120638847351,
	"logps/chosen": -1.1963175535202026,
	"logps/rejected": -1.5290193557739258,
	"loss": 1.1204,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.3926351070404053,
	"rewards/margins": 0.6654035449028015,
	"rewards/rejected": -3.0580387115478516,
	"step": 130
	},
	{
	"epoch": 0.2826485213294949,
	"grad_norm": 13.030746243741968,
	"learning_rate": 5.411461679290317e-07,
	"logits/chosen": -0.7586075663566589,
	"logits/rejected": -0.7899220585823059,
	"logps/chosen": -1.0880517959594727,
	"logps/rejected": -1.4661823511123657,
	"loss": 1.1668,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -2.1761035919189453,
	"rewards/margins": 0.7562611103057861,
	"rewards/rejected": -2.9323647022247314,
	"step": 135
	},
	{
	"epoch": 0.29311698508243916,
	"grad_norm": 12.738817253337984,
	"learning_rate": 5.34451572948201e-07,
	"logits/chosen": -0.8128818273544312,
	"logits/rejected": -0.842110812664032,
	"logps/chosen": -1.2075114250183105,
	"logps/rejected": -1.4238183498382568,
	"loss": 1.2141,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -2.415022850036621,
	"rewards/margins": 0.4326140284538269,
	"rewards/rejected": -2.8476366996765137,
	"step": 140
	},
	{
	"epoch": 0.3035854488353834,
	"grad_norm": 24.983190739092922,
	"learning_rate": 5.274426885201582e-07,
	"logits/chosen": -0.7843077778816223,
	"logits/rejected": -0.8767129182815552,
	"logps/chosen": -1.1461377143859863,
	"logps/rejected": -1.5009636878967285,
	"loss": 1.1207,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -2.2922754287719727,
	"rewards/margins": 0.7096518278121948,
	"rewards/rejected": -3.001927375793457,
	"step": 145
	},
	{
	"epoch": 0.31405391258832765,
	"grad_norm": 23.74860585722539,
	"learning_rate": 5.201289102671411e-07,
	"logits/chosen": -0.8561376333236694,
	"logits/rejected": -0.8589056134223938,
	"logps/chosen": -1.1982135772705078,
	"logps/rejected": -1.5201013088226318,
	"loss": 1.1476,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -2.3964271545410156,
	"rewards/margins": 0.6437759399414062,
	"rewards/rejected": -3.0402026176452637,
	"step": 150
	},
	{
	"epoch": 0.3245223763412719,
	"grad_norm": 15.03909875634319,
	"learning_rate": 5.12520042530811e-07,
	"logits/chosen": -0.7681445479393005,
	"logits/rejected": -0.8174452781677246,
	"logps/chosen": -1.2068870067596436,
	"logps/rejected": -1.6613304615020752,
	"loss": 1.1179,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -2.413774013519287,
	"rewards/margins": 0.908886730670929,
	"rewards/rejected": -3.3226609230041504,
	"step": 155
	},
	{
	"epoch": 0.33499084009421615,
	"grad_norm": 14.191169695059497,
	"learning_rate": 5.046262852292346e-07,
	"logits/chosen": -0.8029179573059082,
	"logits/rejected": -0.8746109008789062,
	"logps/chosen": -1.1898596286773682,
	"logps/rejected": -1.6815717220306396,
	"loss": 1.1138,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.3797192573547363,
	"rewards/margins": 0.9834240674972534,
	"rewards/rejected": -3.3631434440612793,
	"step": 160
	},
	{
	"epoch": 0.34545930384716045,
	"grad_norm": 35.93680907186828,
	"learning_rate": 4.964582201835856e-07,
	"logits/chosen": -0.7598133087158203,
	"logits/rejected": -0.7828689813613892,
	"logps/chosen": -1.1410859823226929,
	"logps/rejected": -1.5104478597640991,
	"loss": 1.1132,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -2.2821719646453857,
	"rewards/margins": 0.7387233972549438,
	"rewards/rejected": -3.0208957195281982,
	"step": 165
	},
	{
	"epoch": 0.3559277676001047,
	"grad_norm": 33.280459458949075,
	"learning_rate": 4.880267969328908e-07,
	"logits/chosen": -0.7489741444587708,
	"logits/rejected": -0.8511075973510742,
	"logps/chosen": -1.2344070672988892,
	"logps/rejected": -1.6722608804702759,
	"loss": 1.1051,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -2.4688141345977783,
	"rewards/margins": 0.8757076263427734,
	"rewards/rejected": -3.3445217609405518,
	"step": 170
	},
	{
	"epoch": 0.36639623135304894,
	"grad_norm": 13.559524548726696,
	"learning_rate": 4.793433180558423e-07,
	"logits/chosen": -0.7471566796302795,
	"logits/rejected": -0.8381919860839844,
	"logps/chosen": -1.1587435007095337,
	"logps/rejected": -1.5522888898849487,
	"loss": 1.133,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -2.3174870014190674,
	"rewards/margins": 0.7870910167694092,
	"rewards/rejected": -3.1045777797698975,
	"step": 175
	},
	{
	"epoch": 0.3768646951059932,
	"grad_norm": 19.60609504538111,
	"learning_rate": 4.704194240193467e-07,
	"logits/chosen": -0.7779995203018188,
	"logits/rejected": -0.8208974599838257,
	"logps/chosen": -1.1914243698120117,
	"logps/rejected": -1.6478986740112305,
	"loss": 1.0991,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -2.3828487396240234,
	"rewards/margins": 0.9129486083984375,
	"rewards/rejected": -3.295797348022461,
	"step": 180
	},
	{
	"epoch": 0.38733315885893743,
	"grad_norm": 15.986798312827595,
	"learning_rate": 4.6126707757412686e-07,
	"logits/chosen": -0.7536464333534241,
	"logits/rejected": -0.836445152759552,
	"logps/chosen": -1.18105149269104,
	"logps/rejected": -1.5753639936447144,
	"loss": 1.0801,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -2.36210298538208,
	"rewards/margins": 0.788625180721283,
	"rewards/rejected": -3.1507279872894287,
	"step": 185
	},
	{
	"epoch": 0.39780162261188173,
	"grad_norm": 11.085659412542848,
	"learning_rate": 4.5189854771829086e-07,
	"logits/chosen": -0.7779768705368042,
	"logits/rejected": -0.860378623008728,
	"logps/chosen": -1.174264907836914,
	"logps/rejected": -1.5782097578048706,
	"loss": 1.0897,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -2.348529815673828,
	"rewards/margins": 0.8078898191452026,
	"rewards/rejected": -3.156419515609741,
	"step": 190
	},
	{
	"epoch": 0.408270086364826,
	"grad_norm": 19.478521042945726,
	"learning_rate": 4.4232639325036807e-07,
	"logits/chosen": -0.8138440251350403,
	"logits/rejected": -0.888975977897644,
	"logps/chosen": -1.1923892498016357,
	"logps/rejected": -1.6592342853546143,
	"loss": 1.1171,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -2.3847784996032715,
	"rewards/margins": 0.933690071105957,
	"rewards/rejected": -3.3184685707092285,
	"step": 195
	},
	{
	"epoch": 0.4187385501177702,
	"grad_norm": 12.673420292445082,
	"learning_rate": 4.32563445933859e-07,
	"logits/chosen": -0.7443628311157227,
	"logits/rejected": -0.7802754044532776,
	"logps/chosen": -1.211715579032898,
	"logps/rejected": -1.5577033758163452,
	"loss": 1.0631,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -2.423431158065796,
	"rewards/margins": 0.6919752955436707,
	"rewards/rejected": -3.1154067516326904,
	"step": 200
	},
	{
	"epoch": 0.42920701387071447,
	"grad_norm": 18.156036717162227,
	"learning_rate": 4.226227932958664e-07,
	"logits/chosen": -0.8596774935722351,
	"logits/rejected": -0.8864806294441223,
	"logps/chosen": -1.2197387218475342,
	"logps/rejected": -1.706209421157837,
	"loss": 1.0695,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -2.4394774436950684,
	"rewards/margins": 0.9729412794113159,
	"rewards/rejected": -3.412418842315674,
	"step": 205
	},
	{
	"epoch": 0.4396754776236587,
	"grad_norm": 18.614311057711063,
	"learning_rate": 4.1251776108286854e-07,
	"logits/chosen": -0.7632856965065002,
	"logits/rejected": -0.7707933187484741,
	"logps/chosen": -1.2796884775161743,
	"logps/rejected": -1.6428205966949463,
	"loss": 1.1264,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -2.5593769550323486,
	"rewards/margins": 0.7262641191482544,
	"rewards/rejected": -3.2856411933898926,
	"step": 210
	},
	{
	"epoch": 0.45014394137660296,
	"grad_norm": 19.070261616595026,
	"learning_rate": 4.022618953971514e-07,
	"logits/chosen": -0.7568240761756897,
	"logits/rejected": -0.8358641862869263,
	"logps/chosen": -1.308774709701538,
	"logps/rejected": -1.6738483905792236,
	"loss": 1.1102,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -2.617549419403076,
	"rewards/margins": 0.7301470041275024,
	"rewards/rejected": -3.3476967811584473,
	"step": 215
	},
	{
	"epoch": 0.46061240512954726,
	"grad_norm": 13.160800920164423,
	"learning_rate": 3.918689445378477e-07,
	"logits/chosen": -0.7660185098648071,
	"logits/rejected": -0.8393454551696777,
	"logps/chosen": -1.2900028228759766,
	"logps/rejected": -1.7106046676635742,
	"loss": 1.0429,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -2.580005645751953,
	"rewards/margins": 0.8412036895751953,
	"rewards/rejected": -3.4212093353271484,
	"step": 220
	},
	{
	"epoch": 0.4710808688824915,
	"grad_norm": 15.467772988868518,
	"learning_rate": 3.813528405709251e-07,
	"logits/chosen": -0.7320618629455566,
	"logits/rejected": -0.7756307125091553,
	"logps/chosen": -1.3943421840667725,
	"logps/rejected": -1.8419634103775024,
	"loss": 1.084,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -2.788684368133545,
	"rewards/margins": 0.8952423334121704,
	"rewards/rejected": -3.683926820755005,
	"step": 225
	},
	{
	"epoch": 0.48154933263543576,
	"grad_norm": 23.599162652169078,
	"learning_rate": 3.707276806528282e-07,
	"logits/chosen": -0.7983018159866333,
	"logits/rejected": -0.8536737561225891,
	"logps/chosen": -1.3397753238677979,
	"logps/rejected": -1.8982980251312256,
	"loss": 1.0107,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -2.6795506477355957,
	"rewards/margins": 1.1170451641082764,
	"rewards/rejected": -3.796596050262451,
	"step": 230
	},
	{
	"epoch": 0.49201779638838,
	"grad_norm": 22.745006961113983,
	"learning_rate": 3.6000770813281334e-07,
	"logits/chosen": -0.7526620626449585,
	"logits/rejected": -0.7841376066207886,
	"logps/chosen": -1.3173251152038574,
	"logps/rejected": -1.6973741054534912,
	"loss": 1.096,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.634650230407715,
	"rewards/margins": 0.7600980401039124,
	"rewards/rejected": -3.3947482109069824,
	"step": 235
	},
	{
	"epoch": 0.5024862601413242,
	"grad_norm": 17.29631229132808,
	"learning_rate": 3.4920729345930654e-07,
	"logits/chosen": -0.8024924993515015,
	"logits/rejected": -0.8705514669418335,
	"logps/chosen": -1.3106586933135986,
	"logps/rejected": -1.8416321277618408,
	"loss": 1.0622,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -2.6213173866271973,
	"rewards/margins": 1.0619468688964844,
	"rewards/rejected": -3.6832642555236816,
	"step": 240
	},
	{
	"epoch": 0.5129547238942685,
	"grad_norm": 15.697390709369445,
	"learning_rate": 3.383409149158814e-07,
	"logits/chosen": -0.8013178110122681,
	"logits/rejected": -0.8261008262634277,
	"logps/chosen": -1.2374125719070435,
	"logps/rejected": -1.8463026285171509,
	"loss": 1.0412,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -2.474825143814087,
	"rewards/margins": 1.2177798748016357,
	"rewards/rejected": -3.6926052570343018,
	"step": 245
	},
	{
	"epoch": 0.5234231876472127,
	"grad_norm": 38.568029652024805,
	"learning_rate": 3.2742313921268035e-07,
	"logits/chosen": -0.7440148591995239,
	"logits/rejected": -0.8371674418449402,
	"logps/chosen": -1.3792295455932617,
	"logps/rejected": -1.996372938156128,
	"loss": 1.0533,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.7584590911865234,
	"rewards/margins": 1.234286904335022,
	"rewards/rejected": -3.992745876312256,
	"step": 250
	},
	{
	"epoch": 0.533891651400157,
	"grad_norm": 31.29600689027817,
	"learning_rate": 3.1646860195929825e-07,
	"logits/chosen": -0.798254132270813,
	"logits/rejected": -0.819698691368103,
	"logps/chosen": -1.4148808717727661,
	"logps/rejected": -1.9883480072021484,
	"loss": 1.1126,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -2.8297617435455322,
	"rewards/margins": 1.1469345092773438,
	"rewards/rejected": -3.976696014404297,
	"step": 255
	},
	{
	"epoch": 0.5443601151531012,
	"grad_norm": 21.255043892106038,
	"learning_rate": 3.054919880453032e-07,
	"logits/chosen": -0.8065778017044067,
	"logits/rejected": -0.8200203776359558,
	"logps/chosen": -1.3674335479736328,
	"logps/rejected": -1.8728046417236328,
	"loss": 1.0948,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -2.7348670959472656,
	"rewards/margins": 1.0107421875,
	"rewards/rejected": -3.7456092834472656,
	"step": 260
	},
	{
	"epoch": 0.5548285789060455,
	"grad_norm": 15.283609874940026,
	"learning_rate": 2.9450801195469686e-07,
	"logits/chosen": -0.7686730027198792,
	"logits/rejected": -0.7811926603317261,
	"logps/chosen": -1.3809654712677002,
	"logps/rejected": -1.8307151794433594,
	"loss": 1.0502,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.7619309425354004,
	"rewards/margins": 0.8994992971420288,
	"rewards/rejected": -3.6614303588867188,
	"step": 265
	},
	{
	"epoch": 0.5652970426589898,
	"grad_norm": 34.69673151716839,
	"learning_rate": 2.835313980407017e-07,
	"logits/chosen": -0.8522397875785828,
	"logits/rejected": -0.8554953336715698,
	"logps/chosen": -1.4796664714813232,
	"logps/rejected": -1.868570327758789,
	"loss": 1.11,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.9593329429626465,
	"rewards/margins": 0.7778076529502869,
	"rewards/rejected": -3.737140655517578,
	"step": 270
	},
	{
	"epoch": 0.575765506411934,
	"grad_norm": 12.490257980809535,
	"learning_rate": 2.7257686078731973e-07,
	"logits/chosen": -0.8593546748161316,
	"logits/rejected": -0.8926668167114258,
	"logps/chosen": -1.2937114238739014,
	"logps/rejected": -2.0442328453063965,
	"loss": 0.9612,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -2.5874228477478027,
	"rewards/margins": 1.5010432004928589,
	"rewards/rejected": -4.088465690612793,
	"step": 275
	},
	{
	"epoch": 0.5862339701648783,
	"grad_norm": 17.66798289482467,
	"learning_rate": 2.6165908508411857e-07,
	"logits/chosen": -0.7889951467514038,
	"logits/rejected": -0.8469230532646179,
	"logps/chosen": -1.3164467811584473,
	"logps/rejected": -1.873552680015564,
	"loss": 1.0829,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -2.6328935623168945,
	"rewards/margins": 1.114211916923523,
	"rewards/rejected": -3.747105360031128,
	"step": 280
	},
	{
	"epoch": 0.5967024339178225,
	"grad_norm": 25.798144103608532,
	"learning_rate": 2.5079270654069354e-07,
	"logits/chosen": -0.7999380230903625,
	"logits/rejected": -0.8465052843093872,
	"logps/chosen": -1.4005292654037476,
	"logps/rejected": -1.9563087224960327,
	"loss": 1.0559,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -2.801058530807495,
	"rewards/margins": 1.1115590333938599,
	"rewards/rejected": -3.9126174449920654,
	"step": 285
	},
	{
	"epoch": 0.6071708976707668,
	"grad_norm": 26.70646393830588,
	"learning_rate": 2.399922918671867e-07,
	"logits/chosen": -0.8188889622688293,
	"logits/rejected": -0.8326479196548462,
	"logps/chosen": -1.4042682647705078,
	"logps/rejected": -1.8107773065567017,
	"loss": 1.0877,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -2.8085365295410156,
	"rewards/margins": 0.8130179643630981,
	"rewards/rejected": -3.6215546131134033,
	"step": 290
	},
	{
	"epoch": 0.6176393614237111,
	"grad_norm": 23.426122701316096,
	"learning_rate": 2.2927231934717176e-07,
	"logits/chosen": -0.8667086362838745,
	"logits/rejected": -0.87919682264328,
	"logps/chosen": -1.4516851902008057,
	"logps/rejected": -1.7210047245025635,
	"loss": 1.0425,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -2.9033703804016113,
	"rewards/margins": 0.5386390686035156,
	"rewards/rejected": -3.442009449005127,
	"step": 295
	},
	{
	"epoch": 0.6281078251766553,
	"grad_norm": 26.456279591360094,
	"learning_rate": 2.1864715942907487e-07,
	"logits/chosen": -0.8121633529663086,
	"logits/rejected": -0.8183205723762512,
	"logps/chosen": -1.4428894519805908,
	"logps/rejected": -1.9755233526229858,
	"loss": 1.0841,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -2.8857789039611816,
	"rewards/margins": 1.0652679204940796,
	"rewards/rejected": -3.9510467052459717,
	"step": 300
	},
	{
	"epoch": 0.6385762889295996,
	"grad_norm": 31.787422608248555,
	"learning_rate": 2.081310554621522e-07,
	"logits/chosen": -0.812918484210968,
	"logits/rejected": -0.848720371723175,
	"logps/chosen": -1.3704057931900024,
	"logps/rejected": -1.7566410303115845,
	"loss": 1.0211,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -2.740811586380005,
	"rewards/margins": 0.7724703550338745,
	"rewards/rejected": -3.513282060623169,
	"step": 305
	},
	{
	"epoch": 0.6490447526825438,
	"grad_norm": 20.39803180345373,
	"learning_rate": 1.9773810460284862e-07,
	"logits/chosen": -0.7991079092025757,
	"logits/rejected": -0.8711285591125488,
	"logps/chosen": -1.4278900623321533,
	"logps/rejected": -2.05625581741333,
	"loss": 0.9925,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -2.8557801246643066,
	"rewards/margins": 1.256731629371643,
	"rewards/rejected": -4.11251163482666,
	"step": 310
	},
	{
	"epoch": 0.6595132164354881,
	"grad_norm": 22.590110789535018,
	"learning_rate": 1.874822389171314e-07,
	"logits/chosen": -0.8574708700180054,
	"logits/rejected": -0.9009912610054016,
	"logps/chosen": -1.545143723487854,
	"logps/rejected": -2.0895230770111084,
	"loss": 1.0237,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -3.090287446975708,
	"rewards/margins": 1.088758945465088,
	"rewards/rejected": -4.179046154022217,
	"step": 315
	},
	{
	"epoch": 0.6699816801884323,
	"grad_norm": 19.0520960322845,
	"learning_rate": 1.7737720670413356e-07,
	"logits/chosen": -0.8097273111343384,
	"logits/rejected": -0.8335424661636353,
	"logps/chosen": -1.5219576358795166,
	"logps/rejected": -2.0950403213500977,
	"loss": 1.0412,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -3.043915271759033,
	"rewards/margins": 1.1461658477783203,
	"rewards/rejected": -4.190080642700195,
	"step": 320
	},
	{
	"epoch": 0.6804501439413766,
	"grad_norm": 28.978881064657845,
	"learning_rate": 1.6743655406614095e-07,
	"logits/chosen": -0.8851544260978699,
	"logits/rejected": -0.8812357187271118,
	"logps/chosen": -1.505824089050293,
	"logps/rejected": -2.034778118133545,
	"loss": 1.0881,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -3.011648178100586,
	"rewards/margins": 1.0579078197479248,
	"rewards/rejected": -4.06955623626709,
	"step": 325
	},
	{
	"epoch": 0.6909186076943209,
	"grad_norm": 23.915843277630973,
	"learning_rate": 1.5767360674963198e-07,
	"logits/chosen": -0.870714008808136,
	"logits/rejected": -0.8971943855285645,
	"logps/chosen": -1.3601343631744385,
	"logps/rejected": -2.0130364894866943,
	"loss": 1.0087,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -2.720268726348877,
	"rewards/margins": 1.3058046102523804,
	"rewards/rejected": -4.026072978973389,
	"step": 330
	},
	{
	"epoch": 0.7013870714472651,
	"grad_norm": 26.514246744997322,
	"learning_rate": 1.4810145228170922e-07,
	"logits/chosen": -0.8225549459457397,
	"logits/rejected": -0.8689346313476562,
	"logps/chosen": -1.4374722242355347,
	"logps/rejected": -1.9102426767349243,
	"loss": 1.052,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.8749444484710693,
	"rewards/margins": 0.9455404281616211,
	"rewards/rejected": -3.8204853534698486,
	"step": 335
	},
	{
	"epoch": 0.7118555352002094,
	"grad_norm": 27.7004551617753,
	"learning_rate": 1.3873292242587306e-07,
	"logits/chosen": -0.8165398836135864,
	"logits/rejected": -0.9100580215454102,
	"logps/chosen": -1.461507797241211,
	"logps/rejected": -2.0511550903320312,
	"loss": 1.0709,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -2.923015594482422,
	"rewards/margins": 1.1792947053909302,
	"rewards/rejected": -4.1023101806640625,
	"step": 340
	},
	{
	"epoch": 0.7223239989531536,
	"grad_norm": 24.617595975995133,
	"learning_rate": 1.295805759806533e-07,
	"logits/chosen": -0.8566834330558777,
	"logits/rejected": -0.8978926539421082,
	"logps/chosen": -1.5079203844070435,
	"logps/rejected": -2.044774293899536,
	"loss": 1.0388,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -3.015840768814087,
	"rewards/margins": 1.073707938194275,
	"rewards/rejected": -4.089548587799072,
	"step": 345
	},
	{
	"epoch": 0.7327924627060979,
	"grad_norm": 22.995198881906134,
	"learning_rate": 1.2065668194415777e-07,
	"logits/chosen": -0.8893098831176758,
	"logits/rejected": -0.9465163946151733,
	"logps/chosen": -1.5923842191696167,
	"logps/rejected": -2.066089153289795,
	"loss": 0.9896,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -3.1847684383392334,
	"rewards/margins": 0.947409987449646,
	"rewards/rejected": -4.13217830657959,
	"step": 350
	},
	{
	"epoch": 0.7432609264590422,
	"grad_norm": 22.355221430364576,
	"learning_rate": 1.1197320306710923e-07,
	"logits/chosen": -0.8776585459709167,
	"logits/rejected": -0.9053448438644409,
	"logps/chosen": -1.5153396129608154,
	"logps/rejected": -2.0724828243255615,
	"loss": 1.0507,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -3.030679225921631,
	"rewards/margins": 1.1142865419387817,
	"rewards/rejected": -4.144965648651123,
	"step": 355
	},
	{
	"epoch": 0.7537293902119864,
	"grad_norm": 23.090030368869293,
	"learning_rate": 1.035417798164145e-07,
	"logits/chosen": -0.8465662002563477,
	"logits/rejected": -0.9114416837692261,
	"logps/chosen": -1.5818672180175781,
	"logps/rejected": -2.124342441558838,
	"loss": 1.0082,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -3.1637344360351562,
	"rewards/margins": 1.0849504470825195,
	"rewards/rejected": -4.248684883117676,
	"step": 360
	},
	{
	"epoch": 0.7641978539649307,
	"grad_norm": 23.156782358223225,
	"learning_rate": 9.537371477076535e-08,
	"logits/chosen": -0.8677560687065125,
	"logits/rejected": -0.9061796069145203,
	"logps/chosen": -1.5915837287902832,
	"logps/rejected": -2.287815570831299,
	"loss": 0.9867,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -3.1831674575805664,
	"rewards/margins": 1.3924639225006104,
	"rewards/rejected": -4.575631141662598,
	"step": 365
	},
	{
	"epoch": 0.7746663177178749,
	"grad_norm": 20.328637763728924,
	"learning_rate": 8.747995746918898e-08,
	"logits/chosen": -0.8234347105026245,
	"logits/rejected": -0.8825669288635254,
	"logps/chosen": -1.5265567302703857,
	"logps/rejected": -2.1997315883636475,
	"loss": 0.9162,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -3.0531134605407715,
	"rewards/margins": 1.3463497161865234,
	"rewards/rejected": -4.399463176727295,
	"step": 370
	},
	{
	"epoch": 0.7851347814708192,
	"grad_norm": 38.958615879066635,
	"learning_rate": 7.987108973285888e-08,
	"logits/chosen": -0.8697785139083862,
	"logits/rejected": -0.8908045887947083,
	"logps/chosen": -1.508302927017212,
	"logps/rejected": -2.1442337036132812,
	"loss": 1.0045,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -3.016605854034424,
	"rewards/margins": 1.2718614339828491,
	"rewards/rejected": -4.2884674072265625,
	"step": 375
	},
	{
	"epoch": 0.7956032452237635,
	"grad_norm": 40.64376807024019,
	"learning_rate": 7.255731147984174e-08,
	"logits/chosen": -0.8699348568916321,
	"logits/rejected": -0.9192712903022766,
	"logps/chosen": -1.5248959064483643,
	"logps/rejected": -2.057331085205078,
	"loss": 1.0402,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -3.0497918128967285,
	"rewards/margins": 1.064869999885559,
	"rewards/rejected": -4.114662170410156,
	"step": 380
	},
	{
	"epoch": 0.8060717089767077,
	"grad_norm": 31.79789174489367,
	"learning_rate": 6.554842705179898e-08,
	"logits/chosen": -0.8611375093460083,
	"logits/rejected": -0.8788291215896606,
	"logps/chosen": -1.4700887203216553,
	"logps/rejected": -2.0618722438812256,
	"loss": 1.0386,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -2.9401774406433105,
	"rewards/margins": 1.183566927909851,
	"rewards/rejected": -4.123744487762451,
	"step": 385
	},
	{
	"epoch": 0.816540172729652,
	"grad_norm": 27.699401276090363,
	"learning_rate": 5.885383207096832e-08,
	"logits/chosen": -0.8817920684814453,
	"logits/rejected": -0.9167042970657349,
	"logps/chosen": -1.5808578729629517,
	"logps/rejected": -2.0726354122161865,
	"loss": 1.0164,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -3.1617157459259033,
	"rewards/margins": 0.9835556149482727,
	"rewards/rejected": -4.145270824432373,
	"step": 390
	},
	{
	"epoch": 0.8270086364825961,
	"grad_norm": 22.291806094067294,
	"learning_rate": 5.2482500845047165e-08,
	"logits/chosen": -0.8046171069145203,
	"logits/rejected": -0.8632856607437134,
	"logps/chosen": -1.474746823310852,
	"logps/rejected": -2.074794292449951,
	"loss": 1.0014,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -2.949493646621704,
	"rewards/margins": 1.2000950574874878,
	"rewards/rejected": -4.149588584899902,
	"step": 395
	},
	{
	"epoch": 0.8374771002355405,
	"grad_norm": 32.14293789219742,
	"learning_rate": 4.644297433686162e-08,
	"logits/chosen": -0.8459577560424805,
	"logits/rejected": -0.8775212168693542,
	"logps/chosen": -1.5837218761444092,
	"logps/rejected": -2.0384469032287598,
	"loss": 1.0682,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -3.1674437522888184,
	"rewards/margins": 0.9094497561454773,
	"rewards/rejected": -4.0768938064575195,
	"step": 400
	},
	{
	"epoch": 0.8374771002355405,
	"eval_logits/chosen": -0.9671933650970459,
	"eval_logits/rejected": -0.9966414570808411,
	"eval_logps/chosen": -1.536142349243164,
	"eval_logps/rejected": -2.0912911891937256,
	"eval_loss": 0.9954066276550293,
	"eval_rewards/accuracies": 0.7279999852180481,
	"eval_rewards/chosen": -3.072284698486328,
	"eval_rewards/margins": 1.1102983951568604,
	"eval_rewards/rejected": -4.182582378387451,
	"eval_runtime": 45.9263,
	"eval_samples_per_second": 43.548,
	"eval_steps_per_second": 2.722,
	"step": 400
	},
	{
	"epoch": 0.8479455639884846,
	"grad_norm": 23.581025931041157,
	"learning_rate": 4.074334871494558e-08,
	"logits/chosen": -0.8318978548049927,
	"logits/rejected": -0.9007453918457031,
	"logps/chosen": -1.597597360610962,
	"logps/rejected": -2.2467799186706543,
	"loss": 0.9898,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -3.195194721221924,
	"rewards/margins": 1.2983646392822266,
	"rewards/rejected": -4.493559837341309,
	"step": 405
	},
	{
	"epoch": 0.8584140277414289,
	"grad_norm": 37.34203846776795,
	"learning_rate": 3.5391264500382e-08,
	"logits/chosen": -0.8569322824478149,
	"logits/rejected": -0.8944110870361328,
	"logps/chosen": -1.6689296960830688,
	"logps/rejected": -2.2536518573760986,
	"loss": 0.9821,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -3.3378593921661377,
	"rewards/margins": 1.16944420337677,
	"rewards/rejected": -4.507303714752197,
	"step": 410
	},
	{
	"epoch": 0.8688824914943732,
	"grad_norm": 25.448649440851888,
	"learning_rate": 3.0393896324452226e-08,
	"logits/chosen": -0.8548834919929504,
	"logits/rejected": -0.8898690938949585,
	"logps/chosen": -1.6892175674438477,
	"logps/rejected": -2.1383655071258545,
	"loss": 1.0282,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -3.3784351348876953,
	"rewards/margins": 0.8982963562011719,
	"rewards/rejected": -4.276731014251709,
	"step": 415
	},
	{
	"epoch": 0.8793509552473174,
	"grad_norm": 22.81456603203954,
	"learning_rate": 2.5757943310825026e-08,
	"logits/chosen": -0.8120086789131165,
	"logits/rejected": -0.8377026319503784,
	"logps/chosen": -1.5306228399276733,
	"logps/rejected": -2.244910478591919,
	"loss": 0.9802,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -3.0612456798553467,
	"rewards/margins": 1.428574800491333,
	"rewards/rejected": -4.489820957183838,
	"step": 420
	},
	{
	"epoch": 0.8898194190002617,
	"grad_norm": 37.81119467654555,
	"learning_rate": 2.148962009517823e-08,
	"logits/chosen": -0.8621734380722046,
	"logits/rejected": -0.9295539855957031,
	"logps/chosen": -1.594923973083496,
	"logps/rejected": -2.202113389968872,
	"loss": 0.9772,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -3.189847946166992,
	"rewards/margins": 1.2143787145614624,
	"rewards/rejected": -4.404226779937744,
	"step": 425
	},
	{
	"epoch": 0.9002878827532059,
	"grad_norm": 23.35609170503276,
	"learning_rate": 1.759464849429082e-08,
	"logits/chosen": -0.8409427404403687,
	"logits/rejected": -0.8790140151977539,
	"logps/chosen": -1.6252171993255615,
	"logps/rejected": -2.1690993309020996,
	"loss": 0.9766,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -3.250434398651123,
	"rewards/margins": 1.087764024734497,
	"rewards/rejected": -4.338198661804199,
	"step": 430
	},
	{
	"epoch": 0.9107563465061502,
	"grad_norm": 42.92976213914578,
	"learning_rate": 1.4078249835774169e-08,
	"logits/chosen": -0.8287452459335327,
	"logits/rejected": -0.8296720385551453,
	"logps/chosen": -1.493123173713684,
	"logps/rejected": -2.055771827697754,
	"loss": 1.0029,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -2.986246347427368,
	"rewards/margins": 1.1252974271774292,
	"rewards/rejected": -4.111543655395508,
	"step": 435
	},
	{
	"epoch": 0.9212248102590945,
	"grad_norm": 32.7360124305529,
	"learning_rate": 1.0945137958723705e-08,
	"logits/chosen": -0.8666203618049622,
	"logits/rejected": -0.9023343920707703,
	"logps/chosen": -1.6795040369033813,
	"logps/rejected": -2.055238962173462,
	"loss": 1.0619,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -3.3590080738067627,
	"rewards/margins": 0.7514694929122925,
	"rewards/rejected": -4.110477924346924,
	"step": 440
	},
	{
	"epoch": 0.9316932740120387,
	"grad_norm": 25.809975837885126,
	"learning_rate": 8.19951289467482e-09,
	"logits/chosen": -0.8226273655891418,
	"logits/rejected": -0.8915680646896362,
	"logps/chosen": -1.6063209772109985,
	"logps/rejected": -2.2188549041748047,
	"loss": 1.0036,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -3.212641954421997,
	"rewards/margins": 1.2250680923461914,
	"rewards/rejected": -4.437709808349609,
	"step": 445
	},
	{
	"epoch": 0.942161737764983,
	"grad_norm": 27.907394126837357,
	"learning_rate": 5.84505523733293e-09,
	"logits/chosen": -0.8590003848075867,
	"logits/rejected": -0.9254142642021179,
	"logps/chosen": -1.5489723682403564,
	"logps/rejected": -2.138707160949707,
	"loss": 1.0026,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -3.097944736480713,
	"rewards/margins": 1.1794699430465698,
	"rewards/rejected": -4.277414321899414,
	"step": 450
	},
	{
	"epoch": 0.9526302015179272,
	"grad_norm": 26.194546776590737,
	"learning_rate": 3.8849212086261466e-09,
	"logits/chosen": -0.8426074981689453,
	"logits/rejected": -0.8449162244796753,
	"logps/chosen": -1.5749680995941162,
	"logps/rejected": -2.065624475479126,
	"loss": 1.0628,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -3.1499361991882324,
	"rewards/margins": 0.9813130497932434,
	"rewards/rejected": -4.131248950958252,
	"step": 455
	},
	{
	"epoch": 0.9630986652708715,
	"grad_norm": 28.647656191366522,
	"learning_rate": 2.3217384276938756e-09,
	"logits/chosen": -0.7687999606132507,
	"logits/rejected": -0.8947674036026001,
	"logps/chosen": -1.4748101234436035,
	"logps/rejected": -2.2467246055603027,
	"loss": 1.0081,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -2.949620246887207,
	"rewards/margins": 1.5438289642333984,
	"rewards/rejected": -4.4934492111206055,
	"step": 460
	},
	{
	"epoch": 0.9735671290238157,
	"grad_norm": 25.297804062883948,
	"learning_rate": 1.1576023884836472e-09,
	"logits/chosen": -0.8351796269416809,
	"logits/rejected": -0.8887630701065063,
	"logps/chosen": -1.5146936178207397,
	"logps/rejected": -2.2188751697540283,
	"loss": 0.9987,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -3.0293872356414795,
	"rewards/margins": 1.4083633422851562,
	"rewards/rejected": -4.437750339508057,
	"step": 465
	},
	{
	"epoch": 0.98403559277676,
	"grad_norm": 19.986270660762962,
	"learning_rate": 3.940736506780395e-10,
	"logits/chosen": -0.7743644118309021,
	"logits/rejected": -0.788620114326477,
	"logps/chosen": -1.4425890445709229,
	"logps/rejected": -2.27103853225708,
	"loss": 1.0166,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -2.8851780891418457,
	"rewards/margins": 1.6568992137908936,
	"rewards/rejected": -4.54207706451416,
	"step": 470
	},
	{
	"epoch": 0.9945040565297043,
	"grad_norm": 26.273630707088135,
	"learning_rate": 3.2175747716822744e-11,
	"logits/chosen": -0.8468500971794128,
	"logits/rejected": -0.9172460436820984,
	"logps/chosen": -1.5344510078430176,
	"logps/rejected": -2.111969470977783,
	"loss": 0.9858,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -3.068902015686035,
	"rewards/margins": 1.1550369262695312,
	"rewards/rejected": -4.223938941955566,
	"step": 475
	}
	],
	"logging_steps": 5,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 225,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}