AmberYifan commited on 9 days ago

Commit

4fd9c93

verified ·

1 Parent(s): 9b3f1b6

Training in progress, epoch 3, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df952440a7367ac1dc62a5a66c0d33bacd3731d04cef311071a00eec1773b411
+size 15231238316

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be98ef26beec359e8527851ece41f7b9af3d3ff522389e66136bc80106a0f562
+size 15231238316

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90d24793a14ba663623a7b2cd96cb5008ce53fa6c2a31b42c8294414e8525101
+size 15231238316

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a34e4dbceba0821f47c1fce3fec0a67e4d5c4ad8e819222722fcfaadcaa9fcae
+size 15231238316

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:991ea42e64866dbc477c7dab2a9530e099bfc526fad720f882ced77ff27d5cd3
+size 167957

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8195020e89d5c3c3d78e30a3d89e2ff5b64d96b37288972f0549651f48910dbc
+size 167957

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee5e63b5b596f45953c0497a68c57c014f71297bf64f2bb4c69d4fca3c34b442
+size 167957

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4e2e85ca62392ab31787f50a49ba339e05038e530d5b84c2009159621a09e0d
+size 167957

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45ff119e4300ae9dd162a8628341f40e7b99db7b310de0e7f02ff860315d5fc7
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a43e339b088ad8bd33a37192696c715b616ad8699d8c6a1e30d996943f90d6b
 size 4877660776

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb9a29505f840aa39b58de3592f2773b0a9c3d08a4479c39bed84db020fe33a9
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:441e778b9a96f285fa0aa2f98c580ac56c8326faeb081da26557d0dc980225df
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93af26b57c9fe03565e9016906d402c507d1054e56a25be5ed32562465006667
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:375257f8ebdc4d3bbe0ac965a9c22af835a44763758cddc62a2d6d1ad5f25eef
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afb371bee33f7ceb700812070db37d98ccdfd925fcdfe6a9be6469fb5f0c29c1
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:22e8ee036d2946b0c0eb119b775943d84c3285a7f6bd20c5eba6e78c897490e5
 size 1089994880

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7725b44c69725321786f1e58dccd7ea4d3ae5794ea47bd49c0d4a139aec266d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe7d17fbcfa5bee1bf6cb5aedab3ff5a70436912c200d7301d173be443809d63
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 15.572,
       "eval_steps_per_second": 0.553,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.572,
       "eval_steps_per_second": 0.553,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 18.241699866247686,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -0.37109375,
+      "logits/rejected": -0.376953125,
+      "logps/chosen": -272.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0797,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.7734375,
+      "rewards/margins": 5.46875,
+      "rewards/rejected": -7.25,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 7.402237455250574,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -0.302734375,
+      "logits/rejected": -0.306640625,
+      "logps/chosen": -276.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0779,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.0625,
+      "rewards/margins": 5.28125,
+      "rewards/rejected": -7.34375,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 15.213558693968412,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -0.4296875,
+      "logits/rejected": -0.3125,
+      "logps/chosen": -270.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0986,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.4765625,
+      "rewards/margins": 5.375,
+      "rewards/rejected": -6.875,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 6.558513252601039,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -0.294921875,
+      "logits/rejected": -0.23828125,
+      "logps/chosen": -260.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0463,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.98828125,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -6.96875,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 2.7928900841374116,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -0.3984375,
+      "logits/rejected": -0.3046875,
+      "logps/chosen": -266.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0371,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4140625,
+      "rewards/margins": 6.1875,
+      "rewards/rejected": -7.59375,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 3.284910793509464,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -0.4765625,
+      "logits/rejected": -0.30078125,
+      "logps/chosen": -254.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0587,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.78515625,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -7.34375,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 7.644866358289651,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -0.392578125,
+      "logits/rejected": -0.3125,
+      "logps/chosen": -270.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0464,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.3203125,
+      "rewards/margins": 6.125,
+      "rewards/rejected": -7.4375,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 3.4166784290048615,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -0.4609375,
+      "logits/rejected": -0.2578125,
+      "logps/chosen": -253.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0418,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.80078125,
+      "rewards/margins": 6.375,
+      "rewards/rejected": -7.1875,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 18.486708233609825,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -0.4921875,
+      "logits/rejected": -0.361328125,
+      "logps/chosen": -260.0,
+      "logps/rejected": -342.0,
+      "loss": 0.082,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.5234375,
+      "rewards/margins": 6.34375,
+      "rewards/rejected": -7.84375,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 7.094665874891602,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -0.4609375,
+      "logits/rejected": -0.275390625,
+      "logps/chosen": -264.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0467,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.25,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -7.8125,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 12.579518491613028,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -0.46484375,
+      "logits/rejected": -0.40625,
+      "logps/chosen": -264.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0498,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.625,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -7.625,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 3.8020122383533996,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -0.396484375,
+      "logits/rejected": -0.30078125,
+      "logps/chosen": -272.0,
+      "logps/rejected": -346.0,
+      "loss": 0.053,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.7734375,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -8.3125,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 7.2662422494862255,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -0.47265625,
+      "logits/rejected": -0.361328125,
+      "logps/chosen": -272.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0467,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.96875,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -8.5625,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 9.44464858583,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -0.353515625,
+      "logits/rejected": -0.240234375,
+      "logps/chosen": -268.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0353,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.390625,
+      "rewards/margins": 6.3125,
+      "rewards/rejected": -7.71875,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 6.695861150174956,
+      "learning_rate": 1e-07,
+      "logits/chosen": -0.427734375,
+      "logits/rejected": -0.28125,
+      "logps/chosen": -268.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0467,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.3984375,
+      "rewards/margins": 6.3125,
+      "rewards/rejected": -7.71875,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 5.8132707822864385,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -0.42578125,
+      "logits/rejected": -0.384765625,
+      "logps/chosen": -276.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0304,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.21875,
+      "rewards/margins": 6.375,
+      "rewards/rejected": -8.625,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 31.743459957220768,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -0.34375,
+      "logits/rejected": -0.337890625,
+      "logps/chosen": -282.0,
+      "logps/rejected": -356.0,
+      "loss": 0.0535,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.328125,
+      "rewards/margins": 6.25,
+      "rewards/rejected": -8.625,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 14.397287073427687,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -0.4140625,
+      "logits/rejected": -0.2265625,
+      "logps/chosen": -266.0,
+      "logps/rejected": -344.0,
+      "loss": 0.041,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.15625,
+      "rewards/margins": 6.59375,
+      "rewards/rejected": -7.75,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 7.8843681357511155,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -0.43359375,
+      "logits/rejected": -0.349609375,
+      "logps/chosen": -266.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0386,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.5625,
+      "rewards/margins": 6.5,
+      "rewards/rejected": -8.0625,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 21.116338835976237,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -0.4921875,
+      "logits/rejected": -0.30078125,
+      "logps/chosen": -262.0,
+      "logps/rejected": -344.0,
+      "loss": 0.0537,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.4140625,
+      "rewards/margins": 6.53125,
+      "rewards/rejected": -7.96875,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 8.528280731121223,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -0.4921875,
+      "logits/rejected": -0.44140625,
+      "logps/chosen": -264.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0423,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.40625,
+      "rewards/margins": 6.59375,
+      "rewards/rejected": -8.0,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 23.00258608838155,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -0.435546875,
+      "logits/rejected": -0.36328125,
+      "logps/chosen": -252.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0359,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.875,
+      "rewards/margins": 6.59375,
+      "rewards/rejected": -7.46875,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 10.971091921904996,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -0.439453125,
+      "logits/rejected": -0.23828125,
+      "logps/chosen": -268.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0792,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.0625,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -7.5625,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 23.47882603701124,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -0.44921875,
+      "logits/rejected": -0.369140625,
+      "logps/chosen": -260.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0565,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.1015625,
+      "rewards/margins": 5.84375,
+      "rewards/rejected": -6.9375,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 18.207194355135897,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -0.54296875,
+      "logits/rejected": -0.33984375,
+      "logps/chosen": -262.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0406,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0390625,
+      "rewards/margins": 6.6875,
+      "rewards/rejected": -7.71875,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 3.414112525400886,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -0.353515625,
+      "logits/rejected": -0.322265625,
+      "logps/chosen": -276.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0331,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.671875,
+      "rewards/margins": 6.21875,
+      "rewards/rejected": -7.875,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 3.645069513448636,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -0.41015625,
+      "logits/rejected": -0.341796875,
+      "logps/chosen": -258.0,
+      "logps/rejected": -350.0,
+      "loss": 0.0609,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 7.5,
+      "rewards/rejected": -8.625,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 20.057840037106633,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -0.58203125,
+      "logits/rejected": -0.296875,
+      "logps/chosen": -262.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0551,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.234375,
+      "rewards/margins": 6.75,
+      "rewards/rejected": -8.0,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 5.344958710263874,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -0.361328125,
+      "logits/rejected": -0.228515625,
+      "logps/chosen": -274.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0422,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.9375,
+      "rewards/margins": 6.375,
+      "rewards/rejected": -8.3125,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 25.83356121662788,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -0.44140625,
+      "logits/rejected": -0.33984375,
+      "logps/chosen": -264.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0397,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.265625,
+      "rewards/margins": 6.4375,
+      "rewards/rejected": -7.71875,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 11.37077001510433,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -0.400390625,
+      "logits/rejected": -0.31640625,
+      "logps/chosen": -268.0,
+      "logps/rejected": -346.0,
+      "loss": 0.0539,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.6640625,
+      "rewards/margins": 6.375,
+      "rewards/rejected": -8.0625,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -0.35546875,
+      "eval_logits/rejected": -0.283203125,
+      "eval_logps/chosen": -274.0,
+      "eval_logps/rejected": -350.0,
+      "eval_loss": 0.2567913234233856,
+      "eval_rewards/accuracies": 0.9285714030265808,
+      "eval_rewards/chosen": -1.9375,
+      "eval_rewards/margins": 5.9375,
+      "eval_rewards/rejected": -7.875,
+      "eval_runtime": 14.5298,
+      "eval_samples_per_second": 13.558,
+      "eval_steps_per_second": 0.482,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }