Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_model.bin +1 -1
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +750 -2
training_args.bin +1 -1

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fb41ed248b38a0d5c018c6a8583bdfba80b6d2fa606506f6813c43958a99bbf
 size 75641741

 version https://git-lfs.github.com/spec/v1
+oid sha256:9af4c3a65b7a773b24b082fa3d2bdf3b889f0c61459c6c6dc53f6e339785bcd4
 size 75641741

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:446b771342b713e07f4acb65267ef0679ef125566f0de980a5ac69b427e4f799
-size 151224453

 version https://git-lfs.github.com/spec/v1
+oid sha256:461887c9ec08fe4b1692b9fa6def1741d6a60b64bb08c37d3fdc064aa795bd26
+size 151222021

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:972139d83957a9cf2600cb6eeca17287d7a5377c33a53500ae7e13fe830ad36b
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdda7482499b855a06935901db3ef5c0346fd12eb58a510bec30c9e4dab13b1e
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f03c5a9d9fd80414287e17e83b0d9b80cfdcf5ad7a4a9d63da800e7a44f10384
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:749e3338e97b1ab6783e7f614fd50b2475fd9e06f92f74c2d73b555d52907729
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09665104141497124,
   "eval_steps": 200,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -739,6 +739,754 @@
       "rewards/margins": -0.20669928193092346,
       "rewards/rejected": -5.946280479431152,
       "step": 500
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.19331142470520007,
   "eval_steps": 200,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": -0.20669928193092346,
       "rewards/rejected": -5.946280479431152,
       "step": 500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004777992277992278,
+      "logits/chosen": -2.692495584487915,
+      "logits/rejected": -2.6421055793762207,
+      "logps/chosen": -172.01806640625,
+      "logps/rejected": -165.9178466796875,
+      "loss": 1.2994,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -4.898122787475586,
+      "rewards/margins": 0.04086846113204956,
+      "rewards/rejected": -4.938991546630859,
+      "step": 510
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004874517374517375,
+      "logits/chosen": -2.7154297828674316,
+      "logits/rejected": -2.5865087509155273,
+      "logps/chosen": -134.430419921875,
+      "logps/rejected": -144.77151489257812,
+      "loss": 1.0245,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -3.9665591716766357,
+      "rewards/margins": 0.17584654688835144,
+      "rewards/rejected": -4.1424055099487305,
+      "step": 520
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004961389961389962,
+      "logits/chosen": -2.863107442855835,
+      "logits/rejected": -2.8306002616882324,
+      "logps/chosen": -269.8907165527344,
+      "logps/rejected": -273.8556823730469,
+      "loss": 3.3909,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -13.715133666992188,
+      "rewards/margins": 0.3205181956291199,
+      "rewards/rejected": -14.035652160644531,
+      "step": 530
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004999979503849796,
+      "logits/chosen": -3.0216221809387207,
+      "logits/rejected": -3.014930248260498,
+      "logps/chosen": -194.19422912597656,
+      "logps/rejected": -201.08251953125,
+      "loss": 2.3037,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -7.459778785705566,
+      "rewards/margins": -0.22785942256450653,
+      "rewards/rejected": -7.231919288635254,
+      "step": 540
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004999854250815602,
+      "logits/chosen": -2.967331647872925,
+      "logits/rejected": -2.933845043182373,
+      "logps/chosen": -215.81240844726562,
+      "logps/rejected": -204.9075927734375,
+      "loss": 2.1232,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -7.889649868011475,
+      "rewards/margins": 0.17769476771354675,
+      "rewards/rejected": -8.067344665527344,
+      "step": 550
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00049996151371953,
+      "logits/chosen": -3.052489757537842,
+      "logits/rejected": -3.0332350730895996,
+      "logps/chosen": -181.4810791015625,
+      "logps/rejected": -172.9596405029297,
+      "loss": 1.3367,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -5.431277275085449,
+      "rewards/margins": 0.03274815157055855,
+      "rewards/rejected": -5.464025020599365,
+      "step": 560
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004999262173879769,
+      "logits/chosen": -3.040531635284424,
+      "logits/rejected": -3.037515163421631,
+      "logps/chosen": -179.90150451660156,
+      "logps/rejected": -185.0644989013672,
+      "loss": 1.4866,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -6.061680316925049,
+      "rewards/margins": 0.6980069279670715,
+      "rewards/rejected": -6.759686470031738,
+      "step": 570
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004998795376945392,
+      "logits/chosen": -3.021232843399048,
+      "logits/rejected": -2.9936585426330566,
+      "logps/chosen": -175.13389587402344,
+      "logps/rejected": -156.2028350830078,
+      "loss": 1.7235,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -5.4631123542785645,
+      "rewards/margins": -0.5610149502754211,
+      "rewards/rejected": -4.902098178863525,
+      "step": 580
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004998214767653319,
+      "logits/chosen": -2.944594621658325,
+      "logits/rejected": -3.0027194023132324,
+      "logps/chosen": -189.1737823486328,
+      "logps/rejected": -175.7019500732422,
+      "loss": 1.9699,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -6.499063014984131,
+      "rewards/margins": -0.3209795355796814,
+      "rewards/rejected": -6.178082466125488,
+      "step": 590
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004997520372448494,
+      "logits/chosen": -2.8185458183288574,
+      "logits/rejected": -2.798320770263672,
+      "logps/chosen": -262.44500732421875,
+      "logps/rejected": -245.83889770507812,
+      "loss": 3.8268,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -12.636558532714844,
+      "rewards/margins": -0.5035432577133179,
+      "rewards/rejected": -12.133015632629395,
+      "step": 600
+    },
+    {
+      "epoch": 0.12,
+      "eval_logits/chosen": -2.9935925006866455,
+      "eval_logits/rejected": -2.961137533187866,
+      "eval_logps/chosen": -184.5051727294922,
+      "eval_logps/rejected": -181.61184692382812,
+      "eval_loss": 1.3598365783691406,
+      "eval_rewards/accuracies": 0.5193312168121338,
+      "eval_rewards/chosen": -6.594781875610352,
+      "eval_rewards/margins": 0.12169010192155838,
+      "eval_rewards/rejected": -6.7164716720581055,
+      "eval_runtime": 1314.8357,
+      "eval_samples_per_second": 0.728,
+      "eval_steps_per_second": 0.728,
+      "step": 600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004996712222958462,
+      "logits/chosen": -2.9863028526306152,
+      "logits/rejected": -2.841834306716919,
+      "logps/chosen": -234.49893188476562,
+      "logps/rejected": -215.51123046875,
+      "loss": 3.4529,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -11.542932510375977,
+      "rewards/margins": -1.085506796836853,
+      "rewards/rejected": -10.457425117492676,
+      "step": 610
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004995790355991916,
+      "logits/chosen": -2.9887356758117676,
+      "logits/rejected": -2.887108564376831,
+      "logps/chosen": -202.21853637695312,
+      "logps/rejected": -198.64749145507812,
+      "loss": 1.6552,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -7.725579261779785,
+      "rewards/margins": 0.2432982176542282,
+      "rewards/rejected": -7.96887731552124,
+      "step": 620
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004994754813537031,
+      "logits/chosen": -3.116293430328369,
+      "logits/rejected": -3.126661539077759,
+      "logps/chosen": -201.38604736328125,
+      "logps/rejected": -192.84515380859375,
+      "loss": 1.9923,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -8.627758979797363,
+      "rewards/margins": -0.4443356990814209,
+      "rewards/rejected": -8.183423042297363,
+      "step": 630
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000499372567166064,
+      "logits/chosen": -3.480961561203003,
+      "logits/rejected": -3.476128339767456,
+      "logps/chosen": -226.2942657470703,
+      "logps/rejected": -198.20462036132812,
+      "loss": 3.5697,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -10.370187759399414,
+      "rewards/margins": -1.4912974834442139,
+      "rewards/rejected": -8.878890037536621,
+      "step": 640
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004992474279997049,
+      "logits/chosen": -3.380039930343628,
+      "logits/rejected": -3.3540236949920654,
+      "logps/chosen": -183.65228271484375,
+      "logps/rejected": -192.43350219726562,
+      "loss": 2.0561,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -6.808587551116943,
+      "rewards/margins": 1.2175410985946655,
+      "rewards/rejected": -8.026129722595215,
+      "step": 650
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004991109363882065,
+      "logits/chosen": -2.5853641033172607,
+      "logits/rejected": -2.6103484630584717,
+      "logps/chosen": -464.68310546875,
+      "logps/rejected": -447.2250061035156,
+      "loss": 11.4738,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -34.34156036376953,
+      "rewards/margins": -1.95975661277771,
+      "rewards/rejected": -32.381797790527344,
+      "step": 660
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004989630985483375,
+      "logits/chosen": -2.7174885272979736,
+      "logits/rejected": -2.707397937774658,
+      "logps/chosen": -447.7940979003906,
+      "logps/rejected": -407.99493408203125,
+      "loss": 12.9625,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -32.60967254638672,
+      "rewards/margins": -3.206895112991333,
+      "rewards/rejected": -29.40277671813965,
+      "step": 670
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004988203490218075,
+      "logits/chosen": -2.946742296218872,
+      "logits/rejected": -2.8993031978607178,
+      "logps/chosen": -445.21142578125,
+      "logps/rejected": -432.021240234375,
+      "loss": 10.7741,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -32.348819732666016,
+      "rewards/margins": -1.2561819553375244,
+      "rewards/rejected": -31.092632293701172,
+      "step": 680
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004986509723258511,
+      "logits/chosen": -3.1020426750183105,
+      "logits/rejected": -3.133068561553955,
+      "logps/chosen": -427.81756591796875,
+      "logps/rejected": -416.2047424316406,
+      "loss": 11.4242,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -31.230037689208984,
+      "rewards/margins": -0.655289351940155,
+      "rewards/rejected": -30.57474708557129,
+      "step": 690
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004984702703514565,
+      "logits/chosen": -3.0160446166992188,
+      "logits/rejected": -3.0138049125671387,
+      "logps/chosen": -433.4644470214844,
+      "logps/rejected": -405.3623046875,
+      "loss": 10.8165,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -30.836090087890625,
+      "rewards/margins": -2.514590263366699,
+      "rewards/rejected": -28.321496963500977,
+      "step": 700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004982782513290365,
+      "logits/chosen": -3.1978919506073,
+      "logits/rejected": -3.197380542755127,
+      "logps/chosen": -422.511962890625,
+      "logps/rejected": -402.30938720703125,
+      "loss": 12.8189,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -30.785781860351562,
+      "rewards/margins": -2.3963069915771484,
+      "rewards/rejected": -28.389474868774414,
+      "step": 710
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004980749240044603,
+      "logits/chosen": -3.1342532634735107,
+      "logits/rejected": -3.1338047981262207,
+      "logps/chosen": -403.13494873046875,
+      "logps/rejected": -357.790771484375,
+      "loss": 11.5675,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": -28.892202377319336,
+      "rewards/margins": -3.723827362060547,
+      "rewards/rejected": -25.168371200561523,
+      "step": 720
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004978602976386554,
+      "logits/chosen": -3.0739312171936035,
+      "logits/rejected": -3.0738184452056885,
+      "logps/chosen": -381.2265625,
+      "logps/rejected": -378.4680480957031,
+      "loss": 11.5225,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -27.621994018554688,
+      "rewards/margins": -0.9019744992256165,
+      "rewards/rejected": -26.720022201538086,
+      "step": 730
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004976343820071849,
+      "logits/chosen": -3.166983127593994,
+      "logits/rejected": -3.1671650409698486,
+      "logps/chosen": -408.42071533203125,
+      "logps/rejected": -387.2364196777344,
+      "loss": 13.9818,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -29.39678382873535,
+      "rewards/margins": -2.448943614959717,
+      "rewards/rejected": -26.94784164428711,
+      "step": 740
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004973971873998035,
+      "logits/chosen": -3.0561656951904297,
+      "logits/rejected": -3.0557007789611816,
+      "logps/chosen": -417.0025329589844,
+      "logps/rejected": -349.56463623046875,
+      "loss": 12.3073,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -29.997058868408203,
+      "rewards/margins": -5.650521278381348,
+      "rewards/rejected": -24.346534729003906,
+      "step": 750
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004971487246199875,
+      "logits/chosen": -3.0265376567840576,
+      "logits/rejected": -3.0265283584594727,
+      "logps/chosen": -434.55419921875,
+      "logps/rejected": -381.22808837890625,
+      "loss": 12.0398,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -30.918407440185547,
+      "rewards/margins": -4.258307456970215,
+      "rewards/rejected": -26.66009521484375,
+      "step": 760
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.000496889004984444,
+      "logits/chosen": -2.8932366371154785,
+      "logits/rejected": -2.895204544067383,
+      "logps/chosen": -396.3167419433594,
+      "logps/rejected": -428.53839111328125,
+      "loss": 9.4104,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -28.4284610748291,
+      "rewards/margins": 1.9928890466690063,
+      "rewards/rejected": -30.42134666442871,
+      "step": 770
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004966180403225946,
+      "logits/chosen": -2.895068407058716,
+      "logits/rejected": -2.894937753677368,
+      "logps/chosen": -395.245849609375,
+      "logps/rejected": -378.4429626464844,
+      "loss": 10.2846,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -28.237285614013672,
+      "rewards/margins": -1.503316879272461,
+      "rewards/rejected": -26.733972549438477,
+      "step": 780
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004963358429760368,
+      "logits/chosen": -2.551323652267456,
+      "logits/rejected": -2.5523290634155273,
+      "logps/chosen": -477.17327880859375,
+      "logps/rejected": -427.474853515625,
+      "loss": 12.1626,
+      "rewards/accuracies": 0.42500001192092896,
+      "rewards/chosen": -35.30048370361328,
+      "rewards/margins": -4.13530158996582,
+      "rewards/rejected": -31.165185928344727,
+      "step": 790
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004960424257979822,
+      "logits/chosen": -2.7914838790893555,
+      "logits/rejected": -2.790367841720581,
+      "logps/chosen": -478.9364318847656,
+      "logps/rejected": -461.02655029296875,
+      "loss": 10.3404,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -35.25132369995117,
+      "rewards/margins": -1.6512939929962158,
+      "rewards/rejected": -33.60003662109375,
+      "step": 800
+    },
+    {
+      "epoch": 0.15,
+      "eval_logits/chosen": -3.0016679763793945,
+      "eval_logits/rejected": -3.0014870166778564,
+      "eval_logps/chosen": -441.87054443359375,
+      "eval_logps/rejected": -399.2597961425781,
+      "eval_loss": 11.33322811126709,
+      "eval_rewards/accuracies": 0.4555903971195221,
+      "eval_rewards/chosen": -32.331321716308594,
+      "eval_rewards/margins": -3.850048303604126,
+      "eval_rewards/rejected": -28.481277465820312,
+      "eval_runtime": 1312.1317,
+      "eval_samples_per_second": 0.729,
+      "eval_steps_per_second": 0.729,
+      "step": 800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004957378021526705,
+      "logits/chosen": -2.9228155612945557,
+      "logits/rejected": -2.925412654876709,
+      "logps/chosen": -481.1300354003906,
+      "logps/rejected": -465.1952209472656,
+      "loss": 11.3707,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -35.0019416809082,
+      "rewards/margins": -1.9142730236053467,
+      "rewards/rejected": -33.08766555786133,
+      "step": 810
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004954219859147614,
+      "logits/chosen": -3.0219039916992188,
+      "logits/rejected": -3.0174221992492676,
+      "logps/chosen": -364.8722839355469,
+      "logps/rejected": -295.5256652832031,
+      "loss": 12.3607,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -25.810903549194336,
+      "rewards/margins": -5.978564262390137,
+      "rewards/rejected": -19.832340240478516,
+      "step": 820
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004950949914687023,
+      "logits/chosen": -3.118417263031006,
+      "logits/rejected": -3.1218113899230957,
+      "logps/chosen": -469.4906311035156,
+      "logps/rejected": -412.5103454589844,
+      "loss": 11.9496,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -33.402565002441406,
+      "rewards/margins": -4.156603813171387,
+      "rewards/rejected": -29.245960235595703,
+      "step": 830
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004947568337080732,
+      "logits/chosen": -3.0231635570526123,
+      "logits/rejected": -3.0243794918060303,
+      "logps/chosen": -382.8542785644531,
+      "logps/rejected": -346.9595031738281,
+      "loss": 9.7701,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -27.092443466186523,
+      "rewards/margins": -3.154633045196533,
+      "rewards/rejected": -23.93781089782715,
+      "step": 840
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004944075280349084,
+      "logits/chosen": -3.034963846206665,
+      "logits/rejected": -3.0339653491973877,
+      "logps/chosen": -385.3253173828125,
+      "logps/rejected": -367.23638916015625,
+      "loss": 9.2328,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -27.111583709716797,
+      "rewards/margins": -1.6716159582138062,
+      "rewards/rejected": -25.43996810913086,
+      "step": 850
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004940470903589948,
+      "logits/chosen": -3.1586310863494873,
+      "logits/rejected": -3.128281831741333,
+      "logps/chosen": -487.345703125,
+      "logps/rejected": -389.9637756347656,
+      "loss": 12.7587,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -34.73926544189453,
+      "rewards/margins": -6.996462821960449,
+      "rewards/rejected": -27.7428035736084,
+      "step": 860
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004936755370971475,
+      "logits/chosen": -2.9109790325164795,
+      "logits/rejected": -2.888288974761963,
+      "logps/chosen": -463.9207458496094,
+      "logps/rejected": -376.2655334472656,
+      "loss": 13.8618,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -34.083106994628906,
+      "rewards/margins": -7.244679927825928,
+      "rewards/rejected": -26.838430404663086,
+      "step": 870
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004932928851724621,
+      "logits/chosen": -2.8432798385620117,
+      "logits/rejected": -2.8495278358459473,
+      "logps/chosen": -365.90679931640625,
+      "logps/rejected": -361.8638000488281,
+      "loss": 8.7379,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -26.055978775024414,
+      "rewards/margins": -0.3134794235229492,
+      "rewards/rejected": -25.742502212524414,
+      "step": 880
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004928991520135436,
+      "logits/chosen": -2.6536898612976074,
+      "logits/rejected": -2.6361289024353027,
+      "logps/chosen": -519.7141723632812,
+      "logps/rejected": -389.46575927734375,
+      "loss": 15.3084,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -37.92496871948242,
+      "rewards/margins": -10.107343673706055,
+      "rewards/rejected": -27.817623138427734,
+      "step": 890
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004924943555537128,
+      "logits/chosen": -3.1115312576293945,
+      "logits/rejected": -3.0791449546813965,
+      "logps/chosen": -469.66351318359375,
+      "logps/rejected": -401.14508056640625,
+      "loss": 13.3952,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -33.486183166503906,
+      "rewards/margins": -5.449090480804443,
+      "rewards/rejected": -28.037090301513672,
+      "step": 900
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004920785142301893,
+      "logits/chosen": -2.454453945159912,
+      "logits/rejected": -2.4585988521575928,
+      "logps/chosen": -463.24517822265625,
+      "logps/rejected": -402.23773193359375,
+      "loss": 13.7904,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": -34.2692985534668,
+      "rewards/margins": -5.860762596130371,
+      "rewards/rejected": -28.40853500366211,
+      "step": 910
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004916516469832524,
+      "logits/chosen": -2.8716561794281006,
+      "logits/rejected": -2.8634109497070312,
+      "logps/chosen": -347.35198974609375,
+      "logps/rejected": -340.46942138671875,
+      "loss": 7.8634,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -24.902542114257812,
+      "rewards/margins": -1.0167404413223267,
+      "rewards/rejected": -23.885799407958984,
+      "step": 920
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004912137732553772,
+      "logits/chosen": -3.2272415161132812,
+      "logits/rejected": -3.2235121726989746,
+      "logps/chosen": -450.973876953125,
+      "logps/rejected": -462.0083923339844,
+      "loss": 9.2953,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -32.52794647216797,
+      "rewards/margins": 0.38686689734458923,
+      "rewards/rejected": -32.91481399536133,
+      "step": 930
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004907649129903504,
+      "logits/chosen": -2.647204875946045,
+      "logits/rejected": -2.6482150554656982,
+      "logps/chosen": -373.737060546875,
+      "logps/rejected": -383.5912780761719,
+      "loss": 7.0717,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -26.5350284576416,
+      "rewards/margins": 0.7499195337295532,
+      "rewards/rejected": -27.284948348999023,
+      "step": 940
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004903050866323608,
+      "logits/chosen": -3.079465627670288,
+      "logits/rejected": -3.0794615745544434,
+      "logps/chosen": -395.6184997558594,
+      "logps/rejected": -406.3051452636719,
+      "loss": 9.1411,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -29.57635498046875,
+      "rewards/margins": 0.8788874745368958,
+      "rewards/rejected": -30.45524024963379,
+      "step": 950
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000489834315125069,
+      "logits/chosen": -3.1981568336486816,
+      "logits/rejected": -3.1923341751098633,
+      "logps/chosen": -453.5596618652344,
+      "logps/rejected": -425.4774475097656,
+      "loss": 11.2943,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -32.61115646362305,
+      "rewards/margins": -2.69136118888855,
+      "rewards/rejected": -29.9197998046875,
+      "step": 960
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004893526199106531,
+      "logits/chosen": -2.876206874847412,
+      "logits/rejected": -2.881593942642212,
+      "logps/chosen": -433.71636962890625,
+      "logps/rejected": -391.15692138671875,
+      "loss": 10.9992,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -31.739410400390625,
+      "rewards/margins": -3.6809983253479004,
+      "rewards/rejected": -28.058406829833984,
+      "step": 970
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004888600229288316,
+      "logits/chosen": -2.865589141845703,
+      "logits/rejected": -2.8664183616638184,
+      "logps/chosen": -359.43023681640625,
+      "logps/rejected": -321.70599365234375,
+      "loss": 7.9915,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -25.906265258789062,
+      "rewards/margins": -3.289003849029541,
+      "rewards/rejected": -22.617259979248047,
+      "step": 980
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004883565466158652,
+      "logits/chosen": -2.8116517066955566,
+      "logits/rejected": -2.782489776611328,
+      "logps/chosen": -494.1553649902344,
+      "logps/rejected": -430.222412109375,
+      "loss": 13.6529,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": -36.09266662597656,
+      "rewards/margins": -5.284867286682129,
+      "rewards/rejected": -30.807796478271484,
+      "step": 990
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004878422139035341,
+      "logits/chosen": -2.4114489555358887,
+      "logits/rejected": -2.377622604370117,
+      "logps/chosen": -482.96856689453125,
+      "logps/rejected": -437.3125,
+      "loss": 11.137,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -34.935813903808594,
+      "rewards/margins": -3.0001707077026367,
+      "rewards/rejected": -31.93564224243164,
+      "step": 1000
+    },
+    {
+      "epoch": 0.19,
+      "eval_logits/chosen": -2.2959094047546387,
+      "eval_logits/rejected": -2.2838947772979736,
+      "eval_logps/chosen": -438.8805236816406,
+      "eval_logps/rejected": -399.5718688964844,
+      "eval_loss": 10.402800559997559,
+      "eval_rewards/accuracies": 0.45036572217941284,
+      "eval_rewards/chosen": -32.032310485839844,
+      "eval_rewards/margins": -3.519833564758301,
+      "eval_rewards/rejected": -28.51247787475586,
+      "eval_runtime": 1313.6418,
+      "eval_samples_per_second": 0.729,
+      "eval_steps_per_second": 0.729,
+      "step": 1000
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2d24f52f3de130e83c614d71d9b7667bb85da1de04a98bd39d203115dbe7af7
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:5958bf8104a088a450e0b4310623d9428611ebdb5fcbb92ab0f567ab6883bfbd
 size 4091