Training in progress, epoch 3, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff875785ab924ddd06a66be771594fe532d0d87d67059a754f87a79e011492f6
 size 16060527788

 version https://git-lfs.github.com/spec/v1
+oid sha256:05913d20787049efa6f824d72634683bd1f7c033d1cecedd4d145e7004455eb9
 size 16060527788

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57602bd05fa70544df76925acf63ee24ea4316d87843ebc84abd169f793452f1
 size 16060527788

 version https://git-lfs.github.com/spec/v1
+oid sha256:aefda786d9f77daf98567fa45de15ba99eea0ce8264d2ac64ddb64e84142f95c
 size 16060527788

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19747266673f3adc37eb34cd72e64194822c760661df80b1e4e1f14bd06413f0
 size 16060527788

 version https://git-lfs.github.com/spec/v1
+oid sha256:321f40b28d9d745c38f4a28c5d2a0f4e22cda431ff78463d45c843efafabd3ea
 size 16060527788

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62ea89cf520034e1a0d86ed2f8efed6dbcec31fe835a5303f632c173b9ce209b
 size 16060527788

 version https://git-lfs.github.com/spec/v1
+oid sha256:173cbd92e7431ae3bcd5833d4031309b911b5ac8a690cb0807de6316d6ffe747
 size 16060527788

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2dc4dedb86acccf2e1c5b4a75ed6634cc7d2f756d42627de228881233991669
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:e328c4b9e408094b769bcfdf47a15208d5acb0eb5819e898d72b4d7196e8ba4c
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5462a38b49bba85e5ad8b66745f7c1a636c22c4ba050213c99d26a28b002a6b5
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:09d5c223ef59d11fe1dfa4cb6735afd256a9a354d3f5951af9b2f47767185aee
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31e156640c29ba1aad1d24dec864f5b9b9e3a691befaaff77044f6811549a480
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee090c536140ebe9822778c771b86d853685174c66af36ffb76a6b8a796df814
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1dd80c6bba1a45d169fc29d48de0878da37846e60bf945be15eaee3dc9c30bd
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c6c3237f3c1804ed5da951f36e10eb384ff1b824ca5e50a8b56a30ca3290e67
 size 1168138808

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7725b44c69725321786f1e58dccd7ea4d3ae5794ea47bd49c0d4a139aec266d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe7d17fbcfa5bee1bf6cb5aedab3ff5a70436912c200d7301d173be443809d63
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 15.854,
       "eval_steps_per_second": 0.555,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.854,
       "eval_steps_per_second": 0.555,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 15.229138030548278,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -240.0,
+      "logps/rejected": -268.0,
+      "loss": 0.2259,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.201171875,
+      "rewards/margins": 1.8046875,
+      "rewards/rejected": -2.0,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 17.70681792433403,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -237.0,
+      "logps/rejected": -264.0,
+      "loss": 0.2073,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.208984375,
+      "rewards/margins": 2.203125,
+      "rewards/rejected": -2.0,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 13.769490197345323,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -242.0,
+      "logps/rejected": -270.0,
+      "loss": 0.2069,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.0859375,
+      "rewards/margins": 2.015625,
+      "rewards/rejected": -2.109375,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 10.553376765871462,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -266.0,
+      "loss": 0.188,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.06640625,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -2.28125,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 12.717503262116809,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -1.6640625,
+      "logits/rejected": -1.625,
+      "logps/chosen": -240.0,
+      "logps/rejected": -258.0,
+      "loss": 0.2087,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.05419921875,
+      "rewards/margins": 1.828125,
+      "rewards/rejected": -1.8828125,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 17.368724259557464,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -244.0,
+      "logps/rejected": -264.0,
+      "loss": 0.196,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.09423828125,
+      "rewards/margins": 2.28125,
+      "rewards/rejected": -2.375,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 15.997180398783524,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -239.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1955,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.07763671875,
+      "rewards/margins": 1.890625,
+      "rewards/rejected": -1.96875,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 16.465231501289626,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6796875,
+      "logps/chosen": -247.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1818,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.0087890625,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -2.03125,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 15.303382006736875,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -240.0,
+      "logps/rejected": -266.0,
+      "loss": 0.196,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.02001953125,
+      "rewards/margins": 1.9375,
+      "rewards/rejected": -1.9609375,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 27.787991315567947,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -247.0,
+      "logps/rejected": -268.0,
+      "loss": 0.2045,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.34765625,
+      "rewards/margins": 1.9375,
+      "rewards/rejected": -2.28125,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 20.488749808987933,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -236.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1955,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.076171875,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -2.078125,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 16.34392558119839,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -235.0,
+      "logps/rejected": -260.0,
+      "loss": 0.2017,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.171875,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -2.0,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 22.986892420642484,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1846,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.033935546875,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -1.9921875,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 22.954617926133928,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1675,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.1943359375,
+      "rewards/margins": 2.3125,
+      "rewards/rejected": -2.125,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 10.72220228289897,
+      "learning_rate": 1e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -239.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1909,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.083984375,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -2.25,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 22.698230184573,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -247.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1904,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.044921875,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -1.9921875,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 17.131418963453264,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -249.0,
+      "logps/rejected": -264.0,
+      "loss": 0.2065,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.2119140625,
+      "rewards/margins": 2.09375,
+      "rewards/rejected": -2.296875,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 14.204160115025998,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -247.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1824,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.130859375,
+      "rewards/margins": 1.9296875,
+      "rewards/rejected": -2.0625,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 16.438831527877248,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -241.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1841,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.08154296875,
+      "rewards/margins": 2.125,
+      "rewards/rejected": -2.203125,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 23.382793800196303,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -240.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1805,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.03271484375,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -2.296875,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 17.97702724195434,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -1.6640625,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -239.0,
+      "logps/rejected": -258.0,
+      "loss": 0.1621,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.004974365234375,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -2.21875,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 15.72139882933752,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -244.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1928,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.142578125,
+      "rewards/margins": 2.296875,
+      "rewards/rejected": -2.4375,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 20.685915337750906,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -237.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1831,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.1875,
+      "rewards/margins": 2.390625,
+      "rewards/rejected": -2.203125,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 20.038756432535152,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -246.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1985,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.298828125,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -2.328125,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 21.447728631568275,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -246.0,
+      "logps/rejected": -266.0,
+      "loss": 0.2021,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.1845703125,
+      "rewards/margins": 1.9609375,
+      "rewards/rejected": -2.140625,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 13.38540049073994,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -240.0,
+      "logps/rejected": -270.0,
+      "loss": 0.18,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.00701904296875,
+      "rewards/margins": 2.25,
+      "rewards/rejected": -2.265625,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 17.91486249665347,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -241.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1964,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.057373046875,
+      "rewards/margins": 2.109375,
+      "rewards/rejected": -2.0625,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 22.402213957503538,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.625,
+      "logps/chosen": -240.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1627,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1201171875,
+      "rewards/margins": 2.578125,
+      "rewards/rejected": -2.46875,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 16.63729631800027,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -270.0,
+      "loss": 0.2028,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.09765625,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -2.171875,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 13.806768716470549,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -244.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1701,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.208984375,
+      "rewards/margins": 2.015625,
+      "rewards/rejected": -2.21875,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 12.821411876121983,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -243.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1777,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.1640625,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -2.34375,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.640625,
+      "eval_logits/rejected": -1.6484375,
+      "eval_logps/chosen": -251.0,
+      "eval_logps/rejected": -255.0,
+      "eval_loss": 0.6092968583106995,
+      "eval_rewards/accuracies": 0.6607142686843872,
+      "eval_rewards/chosen": -0.83984375,
+      "eval_rewards/margins": 0.56640625,
+      "eval_rewards/rejected": -1.40625,
+      "eval_runtime": 15.3355,
+      "eval_samples_per_second": 13.042,
+      "eval_steps_per_second": 0.456,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }