AmberYifan commited on 2 days ago

Commit

cbf2c9f

verified ·

1 Parent(s): 54e867a

Training in progress, epoch 2, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step626/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step626/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step626/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step626/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step626/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step626/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step626/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step626/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +483 -2

last-checkpoint/global_step626/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5d9385d10776de46e55576f5e7ee4f17e5d03f22be2820865ba4c219a6039b9
+size 14483468456

last-checkpoint/global_step626/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d83c35994f4c11e180388beee946d3fe3be4641ed8cca9b052c85b809a44ac8
+size 14483468456

last-checkpoint/global_step626/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62a29226a3a4c54c53708c1b247afcef4b890938affef1c8afdc32ece9666a00
+size 14483468456

last-checkpoint/global_step626/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2893b0a6acda9fcd324f7f47ebde25d7fc57fa56bb696cce4d2ed2ea4f739d3
+size 14483468456

last-checkpoint/global_step626/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:203048b30f1bb519666c0cf58fd587814f05f60970d756e739fa11f57f608e03
+size 150629

last-checkpoint/global_step626/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11647db0cbc5ed91082b24d902e35ea91650d9e6600a41d8541c9f83bd2d5e32
+size 150629

last-checkpoint/global_step626/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:028ec0a8bdae57a09b3bb4b64b68297ddb3410588af25acf7a4b19c1a2e94962
+size 150629

last-checkpoint/global_step626/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb918ba6dc381e20e30f6cddff94def965ce758e354110661370b9c5098114c
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step313~~


1	+ global_step626

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54291c260f5c2689465df63fdede05e440c1aafc0212bd3ce8e3acbc8292ed6f
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0036c05b254572558cb546a2706deb28189940b6a765edcacd6237276d194ff7
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660e2c41bf4cc75f204b677dc5fef5a47a122677aec0a5671cc227a89eef393b
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:e98328950cf92d4c907e80012fff060016797a1f24ef5ba559fd1faa50d091a2
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ddb9fe35bc146e504041c43d70b415db6d7ae67bc1986f5f7f47373ac46107c
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:f144f52ebb34b8746388f40db293c081941170b6590f251882c58350da515d98
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ce770862b76ceecb3453a5d0b9ef65311eab0f6a60f52997726a89d718de08
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bcae6573442578b752be3e988d4ccb38056b45c31b5c02eb579ec6cebcfa62e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:398ff45072fee2975e88b9e078f915103d75d94bc08753303cf855b915973623
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f4b210bc832d4c648e3bee8c21dca26e5a8b365d6ec90c638062005a052e57b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c019f2bd3222f739db75f458caa9c28765649010b6fa70739851be6f2b00c68b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3fd160e69e5766b513d913785299b2ff6d181cae9fd47f741adc100cb17d22e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 313,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -503,6 +503,487 @@
       "eval_samples_per_second": 10.452,
       "eval_steps_per_second": 0.366,
       "step": 313
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.452,
       "eval_steps_per_second": 0.366,
       "step": 313
+    },
+    {
+      "epoch": 1.0223642172523961,
+      "grad_norm": 0.005478609557178483,
+      "learning_rate": 3.662721893491124e-07,
+      "logits/chosen": -2.78125,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -296.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.421875,
+      "rewards/margins": 19.125,
+      "rewards/rejected": -16.75,
+      "step": 320
+    },
+    {
+      "epoch": 1.0543130990415335,
+      "grad_norm": 0.013737635995063696,
+      "learning_rate": 3.603550295857988e-07,
+      "logits/chosen": -2.8125,
+      "logits/rejected": -2.65625,
+      "logps/chosen": -324.0,
+      "logps/rejected": -284.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.640625,
+      "rewards/margins": 18.875,
+      "rewards/rejected": -16.25,
+      "step": 330
+    },
+    {
+      "epoch": 1.0862619808306708,
+      "grad_norm": 0.00019349035033339429,
+      "learning_rate": 3.544378698224852e-07,
+      "logits/chosen": -2.765625,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -322.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.640625,
+      "rewards/margins": 19.5,
+      "rewards/rejected": -16.875,
+      "step": 340
+    },
+    {
+      "epoch": 1.1182108626198084,
+      "grad_norm": 0.0005813199789647137,
+      "learning_rate": 3.485207100591716e-07,
+      "logits/chosen": -2.828125,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -320.0,
+      "logps/rejected": -280.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.609375,
+      "rewards/margins": 18.375,
+      "rewards/rejected": -15.8125,
+      "step": 350
+    },
+    {
+      "epoch": 1.1501597444089458,
+      "grad_norm": 0.006146815019397078,
+      "learning_rate": 3.42603550295858e-07,
+      "logits/chosen": -2.78125,
+      "logits/rejected": -2.671875,
+      "logps/chosen": -280.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.84375,
+      "rewards/margins": 18.625,
+      "rewards/rejected": -16.75,
+      "step": 360
+    },
+    {
+      "epoch": 1.182108626198083,
+      "grad_norm": 0.001769493435224336,
+      "learning_rate": 3.366863905325444e-07,
+      "logits/chosen": -2.59375,
+      "logits/rejected": -2.640625,
+      "logps/chosen": -418.0,
+      "logps/rejected": -290.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.96875,
+      "rewards/margins": 19.125,
+      "rewards/rejected": -16.125,
+      "step": 370
+    },
+    {
+      "epoch": 1.2140575079872205,
+      "grad_norm": 0.00289437017638318,
+      "learning_rate": 3.3076923076923075e-07,
+      "logits/chosen": -2.734375,
+      "logits/rejected": -2.421875,
+      "logps/chosen": -304.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.75,
+      "rewards/margins": 19.625,
+      "rewards/rejected": -16.875,
+      "step": 380
+    },
+    {
+      "epoch": 1.2460063897763578,
+      "grad_norm": 0.002541615596439298,
+      "learning_rate": 3.2485207100591716e-07,
+      "logits/chosen": -2.765625,
+      "logits/rejected": -2.6875,
+      "logps/chosen": -358.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.640625,
+      "rewards/margins": 19.125,
+      "rewards/rejected": -16.5,
+      "step": 390
+    },
+    {
+      "epoch": 1.2779552715654952,
+      "grad_norm": 0.0004182225706778624,
+      "learning_rate": 3.189349112426035e-07,
+      "logits/chosen": -2.6875,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -354.0,
+      "logps/rejected": -288.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.765625,
+      "rewards/margins": 19.75,
+      "rewards/rejected": -17.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.3099041533546325,
+      "grad_norm": 0.0058634982116960045,
+      "learning_rate": 3.130177514792899e-07,
+      "logits/chosen": -2.75,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -332.0,
+      "logps/rejected": -290.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.296875,
+      "rewards/margins": 19.25,
+      "rewards/rejected": -17.0,
+      "step": 410
+    },
+    {
+      "epoch": 1.34185303514377,
+      "grad_norm": 0.0005877666510578203,
+      "learning_rate": 3.071005917159763e-07,
+      "logits/chosen": -2.65625,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -300.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.28125,
+      "rewards/margins": 18.25,
+      "rewards/rejected": -16.0,
+      "step": 420
+    },
+    {
+      "epoch": 1.3738019169329074,
+      "grad_norm": 7.688662094360472e-05,
+      "learning_rate": 3.011834319526627e-07,
+      "logits/chosen": -2.703125,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -336.0,
+      "logps/rejected": -292.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.953125,
+      "rewards/margins": 19.875,
+      "rewards/rejected": -16.875,
+      "step": 430
+    },
+    {
+      "epoch": 1.4057507987220448,
+      "grad_norm": 0.0013188626087899836,
+      "learning_rate": 2.952662721893491e-07,
+      "logits/chosen": -2.671875,
+      "logits/rejected": -2.5,
+      "logps/chosen": -362.0,
+      "logps/rejected": -288.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.65625,
+      "rewards/margins": 19.375,
+      "rewards/rejected": -16.625,
+      "step": 440
+    },
+    {
+      "epoch": 1.4376996805111821,
+      "grad_norm": 0.000560100668346436,
+      "learning_rate": 2.893491124260355e-07,
+      "logits/chosen": -2.734375,
+      "logits/rejected": -2.46875,
+      "logps/chosen": -340.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.859375,
+      "rewards/margins": 18.625,
+      "rewards/rejected": -15.75,
+      "step": 450
+    },
+    {
+      "epoch": 1.4696485623003195,
+      "grad_norm": 0.0004914338037975381,
+      "learning_rate": 2.834319526627219e-07,
+      "logits/chosen": -2.71875,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -298.0,
+      "logps/rejected": -284.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.4375,
+      "rewards/margins": 18.5,
+      "rewards/rejected": -16.125,
+      "step": 460
+    },
+    {
+      "epoch": 1.5015974440894568,
+      "grad_norm": 0.0014282123670870752,
+      "learning_rate": 2.7751479289940824e-07,
+      "logits/chosen": -2.671875,
+      "logits/rejected": -2.5,
+      "logps/chosen": -298.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.75,
+      "rewards/margins": 20.25,
+      "rewards/rejected": -17.5,
+      "step": 470
+    },
+    {
+      "epoch": 1.5335463258785942,
+      "grad_norm": 0.0011868778955687227,
+      "learning_rate": 2.715976331360947e-07,
+      "logits/chosen": -2.734375,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -370.0,
+      "logps/rejected": -288.0,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.59375,
+      "rewards/margins": 19.0,
+      "rewards/rejected": -16.375,
+      "step": 480
+    },
+    {
+      "epoch": 1.5654952076677318,
+      "grad_norm": 0.00017059860211962754,
+      "learning_rate": 2.6568047337278106e-07,
+      "logits/chosen": -2.6875,
+      "logits/rejected": -2.5,
+      "logps/chosen": -362.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.546875,
+      "rewards/margins": 20.375,
+      "rewards/rejected": -17.875,
+      "step": 490
+    },
+    {
+      "epoch": 1.5974440894568689,
+      "grad_norm": 0.000533897211000123,
+      "learning_rate": 2.5976331360946746e-07,
+      "logits/chosen": -2.625,
+      "logits/rejected": -2.46875,
+      "logps/chosen": -410.0,
+      "logps/rejected": -294.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.84375,
+      "rewards/margins": 19.125,
+      "rewards/rejected": -16.375,
+      "step": 500
+    },
+    {
+      "epoch": 1.6293929712460065,
+      "grad_norm": 0.00016451813084725905,
+      "learning_rate": 2.538461538461538e-07,
+      "logits/chosen": -2.59375,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -330.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.65625,
+      "rewards/margins": 20.75,
+      "rewards/rejected": -18.125,
+      "step": 510
+    },
+    {
+      "epoch": 1.6613418530351438,
+      "grad_norm": 0.0022106764918951973,
+      "learning_rate": 2.479289940828402e-07,
+      "logits/chosen": -2.703125,
+      "logits/rejected": -2.421875,
+      "logps/chosen": -294.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.6171875,
+      "rewards/margins": 20.125,
+      "rewards/rejected": -18.5,
+      "step": 520
+    },
+    {
+      "epoch": 1.6932907348242812,
+      "grad_norm": 0.004548328476876588,
+      "learning_rate": 2.420118343195266e-07,
+      "logits/chosen": -2.65625,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -300.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.15625,
+      "rewards/margins": 19.25,
+      "rewards/rejected": -17.0,
+      "step": 530
+    },
+    {
+      "epoch": 1.7252396166134185,
+      "grad_norm": 0.0012387511087695242,
+      "learning_rate": 2.36094674556213e-07,
+      "logits/chosen": -2.71875,
+      "logits/rejected": -2.46875,
+      "logps/chosen": -380.0,
+      "logps/rejected": -302.0,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.609375,
+      "rewards/margins": 20.625,
+      "rewards/rejected": -18.0,
+      "step": 540
+    },
+    {
+      "epoch": 1.7571884984025559,
+      "grad_norm": 0.00011744334330627099,
+      "learning_rate": 2.301775147928994e-07,
+      "logits/chosen": -2.703125,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -328.0,
+      "logps/rejected": -298.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.6875,
+      "rewards/margins": 20.0,
+      "rewards/rejected": -17.375,
+      "step": 550
+    },
+    {
+      "epoch": 1.7891373801916934,
+      "grad_norm": 0.0003087811407451836,
+      "learning_rate": 2.242603550295858e-07,
+      "logits/chosen": -2.765625,
+      "logits/rejected": -2.53125,
+      "logps/chosen": -390.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.59375,
+      "rewards/margins": 20.5,
+      "rewards/rejected": -18.0,
+      "step": 560
+    },
+    {
+      "epoch": 1.8210862619808306,
+      "grad_norm": 0.0004052547360073496,
+      "learning_rate": 2.1834319526627217e-07,
+      "logits/chosen": -2.703125,
+      "logits/rejected": -2.53125,
+      "logps/chosen": -314.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.265625,
+      "rewards/margins": 20.0,
+      "rewards/rejected": -17.75,
+      "step": 570
+    },
+    {
+      "epoch": 1.8530351437699681,
+      "grad_norm": 0.0014702518762848597,
+      "learning_rate": 2.1242603550295858e-07,
+      "logits/chosen": -2.6875,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -342.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.53125,
+      "rewards/margins": 19.875,
+      "rewards/rejected": -17.25,
+      "step": 580
+    },
+    {
+      "epoch": 1.8849840255591053,
+      "grad_norm": 0.0003324653250062881,
+      "learning_rate": 2.0650887573964496e-07,
+      "logits/chosen": -2.71875,
+      "logits/rejected": -2.515625,
+      "logps/chosen": -390.0,
+      "logps/rejected": -298.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.625,
+      "rewards/margins": 19.875,
+      "rewards/rejected": -17.25,
+      "step": 590
+    },
+    {
+      "epoch": 1.9169329073482428,
+      "grad_norm": 0.0010880215884730468,
+      "learning_rate": 2.0059171597633133e-07,
+      "logits/chosen": -2.546875,
+      "logits/rejected": -2.390625,
+      "logps/chosen": -328.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.484375,
+      "rewards/margins": 20.375,
+      "rewards/rejected": -18.0,
+      "step": 600
+    },
+    {
+      "epoch": 1.9488817891373802,
+      "grad_norm": 0.3586647424788816,
+      "learning_rate": 1.9467455621301774e-07,
+      "logits/chosen": -2.5625,
+      "logits/rejected": -2.40625,
+      "logps/chosen": -332.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.25,
+      "rewards/margins": 20.5,
+      "rewards/rejected": -18.25,
+      "step": 610
+    },
+    {
+      "epoch": 1.9808306709265175,
+      "grad_norm": 0.0008306417375702101,
+      "learning_rate": 1.8875739644970412e-07,
+      "logits/chosen": -2.8125,
+      "logits/rejected": -2.5,
+      "logps/chosen": -342.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.7734375,
+      "rewards/margins": 20.625,
+      "rewards/rejected": -18.75,
+      "step": 620
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -2.75,
+      "eval_logits/rejected": -2.53125,
+      "eval_logps/chosen": -304.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 2.103640690620523e-05,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": 2.109375,
+      "eval_rewards/margins": 18.875,
+      "eval_rewards/rejected": -16.75,
+      "eval_runtime": 19.4457,
+      "eval_samples_per_second": 10.285,
+      "eval_steps_per_second": 0.36,
+      "step": 626
     }
   ],
   "logging_steps": 10,