AmberYifan commited on Dec 26, 2024

Commit

f04bced

verified ·

1 Parent(s): f15b28f

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9276996f91cee811722c76edd5ab5ea93cf6c6e23dede78fbe6e27fb37658b0
+size 13476836524

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7303457805d51de5d9d1281b86762de532666cb032d3439de26cdd524a9a7a8
+size 13476836524

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b662648b8075521ff007f45dc56189ea206ac9a8687568050b6c90c2506e8e6e
+size 13476836524

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2caa57b282e91ab6c1eaa9e53b06cbf8a6b8e9e236ef96159bf0502e9097dbeb
+size 13476836524

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:253d93a65ababec7e8d2c5035bfcc45ae7a41810abb52fbdf0a05b83ccf04218
+size 150693

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ef94076c38828657a277c16da8f1894d0af86c6ec14a1796976e6f0c89f4315
+size 150693

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5565fd91b803663c46642d38c5588350a5093428d94b80b354ef4b8f8460d350
+size 150693

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10f60571c891579c183f2b7c26c677405ff7aa2b4558b2e2c86ad07d80334e6f
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bba1df728f0a13c32473530dfdf8f2b9e407ef34cc781c3f369d508860f0ac6
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c3dda109ea02222209f0e73eddf89eab00153838f42a96efa82735073e50e76
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11b000d5ce7e244db5581aa54cbceba6b8330bae9c6128c79cb7cc8b33fe3425
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6d5197818899e725007e56dac1c127770cb0cbd2a6e849cfbe4f2a6dc017132
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8848153f15166b9cad0472ba12cd8877ab2aef7f2e79e9af3a0a62a3742c4156
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5b8848023b2734acfc17bb49ab2e88d44b9b0bfcd05a769f33a8c45d0f15317
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7725b44c69725321786f1e58dccd7ea4d3ae5794ea47bd49c0d4a139aec266d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe7d17fbcfa5bee1bf6cb5aedab3ff5a70436912c200d7301d173be443809d63
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 16.274,
       "eval_steps_per_second": 0.57,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.274,
       "eval_steps_per_second": 0.57,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 15.817315308499108,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -239.0,
+      "logps/rejected": -262.0,
+      "loss": 0.3165,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.330078125,
+      "rewards/margins": 1.40625,
+      "rewards/rejected": -1.0703125,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 11.365629657180074,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2917,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.361328125,
+      "rewards/margins": 1.4375,
+      "rewards/rejected": -1.078125,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 13.196571731112993,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -231.0,
+      "logps/rejected": -280.0,
+      "loss": 0.2862,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.328125,
+      "rewards/margins": 1.546875,
+      "rewards/rejected": -1.21875,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 10.695579683512666,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.625,
+      "logps/chosen": -228.0,
+      "logps/rejected": -276.0,
+      "loss": 0.301,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.392578125,
+      "rewards/margins": 1.65625,
+      "rewards/rejected": -1.265625,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 11.265653450090454,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -235.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2557,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.365234375,
+      "rewards/margins": 1.6171875,
+      "rewards/rejected": -1.25,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 14.15113024471477,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -234.0,
+      "logps/rejected": -274.0,
+      "loss": 0.2776,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.1884765625,
+      "rewards/margins": 1.46875,
+      "rewards/rejected": -1.28125,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 14.981353716929215,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -240.0,
+      "logps/rejected": -278.0,
+      "loss": 0.2842,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.294921875,
+      "rewards/margins": 1.4296875,
+      "rewards/rejected": -1.140625,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 17.85170492540105,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -237.0,
+      "logps/rejected": -274.0,
+      "loss": 0.2841,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.2353515625,
+      "rewards/margins": 1.5390625,
+      "rewards/rejected": -1.3046875,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 14.441788785513792,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.59375,
+      "logps/chosen": -237.0,
+      "logps/rejected": -280.0,
+      "loss": 0.303,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 0.2451171875,
+      "rewards/margins": 1.5625,
+      "rewards/rejected": -1.3125,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 16.017805126479765,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -240.0,
+      "logps/rejected": -272.0,
+      "loss": 0.3037,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.267578125,
+      "rewards/margins": 1.4609375,
+      "rewards/rejected": -1.1875,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 14.374194587453172,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -234.0,
+      "logps/rejected": -276.0,
+      "loss": 0.2611,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.2255859375,
+      "rewards/margins": 1.6328125,
+      "rewards/rejected": -1.40625,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 17.298259126788636,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.625,
+      "logps/chosen": -231.0,
+      "logps/rejected": -276.0,
+      "loss": 0.2663,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.47265625,
+      "rewards/margins": 1.7890625,
+      "rewards/rejected": -1.3125,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 15.560832236353352,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -236.0,
+      "logps/rejected": -282.0,
+      "loss": 0.2495,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.462890625,
+      "rewards/margins": 1.8671875,
+      "rewards/rejected": -1.40625,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 13.505631748827204,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -228.0,
+      "logps/rejected": -284.0,
+      "loss": 0.2635,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.349609375,
+      "rewards/margins": 1.671875,
+      "rewards/rejected": -1.328125,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 12.876093667551999,
+      "learning_rate": 1e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -236.0,
+      "logps/rejected": -276.0,
+      "loss": 0.2579,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.25390625,
+      "rewards/margins": 1.5625,
+      "rewards/rejected": -1.3125,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 15.762232240327554,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -236.0,
+      "logps/rejected": -282.0,
+      "loss": 0.2702,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.1640625,
+      "rewards/margins": 1.7421875,
+      "rewards/rejected": -1.578125,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 14.086973297325832,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -1.671875,
+      "logits/rejected": -1.7265625,
+      "logps/chosen": -243.0,
+      "logps/rejected": -274.0,
+      "loss": 0.2447,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.177734375,
+      "rewards/margins": 1.6796875,
+      "rewards/rejected": -1.5,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 15.821508873733881,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -237.0,
+      "logps/rejected": -286.0,
+      "loss": 0.2482,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.236328125,
+      "rewards/margins": 1.9609375,
+      "rewards/rejected": -1.71875,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 12.958827992117726,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -228.0,
+      "logps/rejected": -268.0,
+      "loss": 0.2824,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.35546875,
+      "rewards/margins": 1.5859375,
+      "rewards/rejected": -1.2265625,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 14.078315987923908,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -240.0,
+      "logps/rejected": -268.0,
+      "loss": 0.3035,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.224609375,
+      "rewards/margins": 1.65625,
+      "rewards/rejected": -1.4296875,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 10.88207889438703,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -243.0,
+      "logps/rejected": -278.0,
+      "loss": 0.2711,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.1455078125,
+      "rewards/margins": 1.53125,
+      "rewards/rejected": -1.3828125,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 14.648580375481389,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -241.0,
+      "logps/rejected": -274.0,
+      "loss": 0.2889,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.1708984375,
+      "rewards/margins": 1.5234375,
+      "rewards/rejected": -1.3515625,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 14.952610668822093,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.625,
+      "logps/chosen": -233.0,
+      "logps/rejected": -268.0,
+      "loss": 0.2814,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.30078125,
+      "rewards/margins": 1.6484375,
+      "rewards/rejected": -1.3515625,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 14.079308847224443,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -241.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2493,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.1552734375,
+      "rewards/margins": 1.6875,
+      "rewards/rejected": -1.53125,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 12.418261084361873,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -1.6875,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -247.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2975,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.031494140625,
+      "rewards/margins": 1.5859375,
+      "rewards/rejected": -1.5546875,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 18.172327917262383,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -238.0,
+      "logps/rejected": -278.0,
+      "loss": 0.2769,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.1162109375,
+      "rewards/margins": 1.8359375,
+      "rewards/rejected": -1.7265625,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 16.82265755243597,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6796875,
+      "logps/chosen": -238.0,
+      "logps/rejected": -274.0,
+      "loss": 0.2871,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.232421875,
+      "rewards/margins": 1.859375,
+      "rewards/rejected": -1.625,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 13.793067995533367,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -1.6640625,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2916,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.18359375,
+      "rewards/margins": 1.7265625,
+      "rewards/rejected": -1.5390625,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 14.63855638742523,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.625,
+      "logps/chosen": -246.0,
+      "logps/rejected": -278.0,
+      "loss": 0.269,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.12255859375,
+      "rewards/margins": 1.640625,
+      "rewards/rejected": -1.515625,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 15.081828948432232,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -1.6875,
+      "logits/rejected": -1.625,
+      "logps/chosen": -245.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2832,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.0174560546875,
+      "rewards/margins": 1.53125,
+      "rewards/rejected": -1.5078125,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 12.755168018204367,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -243.0,
+      "logps/rejected": -266.0,
+      "loss": 0.273,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.1015625,
+      "rewards/margins": 1.4375,
+      "rewards/rejected": -1.3359375,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.640625,
+      "eval_logits/rejected": -1.6171875,
+      "eval_logps/chosen": -247.0,
+      "eval_logps/rejected": -264.0,
+      "eval_loss": 0.5956249833106995,
+      "eval_rewards/accuracies": 0.625,
+      "eval_rewards/chosen": -0.27734375,
+      "eval_rewards/margins": 0.6875,
+      "eval_rewards/rejected": -0.96484375,
+      "eval_runtime": 14.7718,
+      "eval_samples_per_second": 13.539,
+      "eval_steps_per_second": 0.474,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }