Training in progress, epoch 3, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d9300ca7bbda237b4b9027720607655238a3d48a377a6c6daa70e68edc18fc0
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bb607491a59a08e9e2ab3424250dfa88f2333ad5a57e346b8022d77ef934f84
 size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d003a9e0cc9423ca19378739933d308d6bd9f02908081ec89fc8be3415545d9
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:451420b2328fa85fed956d86f120f1cea42dace6b6c6bb1c38088e012d7daea2
 size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bc2a7e471b555f913d0060f61bae1057b66cb0cbe13f0c368f528b2d20fc947
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:a37f0a357399a6a2645351d1520f075f334bddcec79532c4489a98ec632c3275
 size 14496051368

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cfaf2c7ba3543457cd28a2ae36272aefa0dc2d691f4a897c9a9dcf4f7cdf181
 size 14496051368

 version https://git-lfs.github.com/spec/v1
+oid sha256:430a18fa1c07f080cfbb009f069a628958a11b14c628f504783446648eb42220
 size 14496051368

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a815410149cfeb843e253f868542ca1de9a105f3ba2a7d8bb5c31ec3340576c8
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:713a80d16267af84d56ecd9dd5b590bd6e6ef1f05c2277fb0c250be611c8fd8f
 size 4949453792

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f3a7b7f2ef9ba999858c7f54110f900f85fa04ff6626ddb3f05b13bde238ce4
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7034be151d244a0ffaeb232daaadde627f0248668139e3d0eedbb3386c5f478
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe830365364eb5e3d65009004e6e91647e62ca17da9e02531b2789442d7e40eb
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:06926917ec52d67800ba53cfc11b73488bb848e39177c7f152f15baf8322f859
 size 4546807800

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fd160e69e5766b513d913785299b2ff6d181cae9fd47f741adc100cb17d22e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:640747ca69b57ef58ae079eec14158d13652c8bf30fb7c733fab30d65edaeb50
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 12.793,
       "eval_steps_per_second": 0.448,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.793,
       "eval_steps_per_second": 0.448,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 3.7674705382997487,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.5,
+      "logps/chosen": -268.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0725,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.474609375,
+      "rewards/margins": 4.4375,
+      "rewards/rejected": -3.96875,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 2.711628532479405,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -3.5,
+      "logits/rejected": -3.5,
+      "logps/chosen": -280.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0174,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.107421875,
+      "rewards/margins": 5.125,
+      "rewards/rejected": -5.03125,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 6.9237131222668875,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -274.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0304,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.287109375,
+      "rewards/margins": 5.0625,
+      "rewards/rejected": -4.75,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 14.032379088465959,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -280.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0168,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.30859375,
+      "rewards/margins": 5.25,
+      "rewards/rejected": -4.9375,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 3.7691372037099744,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.40625,
+      "logps/chosen": -280.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0213,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.13671875,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -5.375,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 11.520705813072723,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -272.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0237,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.50390625,
+      "rewards/margins": 5.5625,
+      "rewards/rejected": -5.0625,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 11.168075169911546,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -3.421875,
+      "logits/rejected": -3.375,
+      "logps/chosen": -278.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0248,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.10791015625,
+      "rewards/margins": 5.34375,
+      "rewards/rejected": -5.4375,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 14.410493738827485,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -3.421875,
+      "logits/rejected": -3.375,
+      "logps/chosen": -276.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0269,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.359375,
+      "rewards/margins": 5.5625,
+      "rewards/rejected": -5.1875,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 14.7083036532153,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.515625,
+      "logps/chosen": -270.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0278,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.16796875,
+      "rewards/margins": 5.875,
+      "rewards/rejected": -5.6875,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 5.626342910377171,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -276.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0193,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.59765625,
+      "rewards/margins": 6.21875,
+      "rewards/rejected": -5.625,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 13.550496699505759,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -276.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0171,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.486328125,
+      "rewards/margins": 5.90625,
+      "rewards/rejected": -5.4375,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 14.488022500712189,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.375,
+      "logps/chosen": -280.0,
+      "logps/rejected": -320.0,
+      "loss": 0.014,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1455078125,
+      "rewards/margins": 5.78125,
+      "rewards/rejected": -5.625,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 6.315943736821987,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.375,
+      "logps/chosen": -286.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0148,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.146484375,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -6.15625,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 11.454733824781856,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -3.4375,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -274.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0174,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.314453125,
+      "rewards/margins": 5.90625,
+      "rewards/rejected": -5.59375,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 6.0042969880614905,
+      "learning_rate": 1e-07,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -282.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0302,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02001953125,
+      "rewards/margins": 6.34375,
+      "rewards/rejected": -6.3125,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 10.72173710281155,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -278.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0114,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0026397705078125,
+      "rewards/margins": 6.0625,
+      "rewards/rejected": -6.0625,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 24.493058061439847,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.359375,
+      "logps/chosen": -294.0,
+      "logps/rejected": -324.0,
+      "loss": 0.021,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1005859375,
+      "rewards/margins": 6.15625,
+      "rewards/rejected": -6.0625,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 15.886645515243313,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -3.65625,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -280.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0234,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.07861328125,
+      "rewards/margins": 6.375,
+      "rewards/rejected": -6.46875,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 3.9555619209445485,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -276.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0164,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.396484375,
+      "rewards/margins": 6.15625,
+      "rewards/rejected": -6.5625,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 2.6920925261494197,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -3.578125,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -268.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0187,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1943359375,
+      "rewards/margins": 5.96875,
+      "rewards/rejected": -5.78125,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 28.104820989043308,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -3.546875,
+      "logits/rejected": -3.453125,
+      "logps/chosen": -286.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0338,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.0654296875,
+      "rewards/margins": 6.34375,
+      "rewards/rejected": -6.40625,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 38.852024663847075,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -3.515625,
+      "logits/rejected": -3.53125,
+      "logps/chosen": -278.0,
+      "logps/rejected": -340.0,
+      "loss": 0.016,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.111328125,
+      "rewards/margins": 6.71875,
+      "rewards/rejected": -6.59375,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 11.470307614538621,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -276.0,
+      "logps/rejected": -334.0,
+      "loss": 0.014,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.26953125,
+      "rewards/margins": 6.3125,
+      "rewards/rejected": -6.0625,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 13.021132027417432,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.453125,
+      "logps/chosen": -278.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0154,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.06640625,
+      "rewards/margins": 6.125,
+      "rewards/rejected": -6.1875,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 36.49663859440145,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -3.625,
+      "logits/rejected": -3.5,
+      "logps/chosen": -272.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0161,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.12109375,
+      "rewards/margins": 6.4375,
+      "rewards/rejected": -6.34375,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 29.264122978741245,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.484375,
+      "logps/chosen": -286.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0243,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.04345703125,
+      "rewards/margins": 6.09375,
+      "rewards/rejected": -6.15625,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 2.86898517845962,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -3.484375,
+      "logits/rejected": -3.4375,
+      "logps/chosen": -276.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0141,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.234375,
+      "rewards/margins": 6.34375,
+      "rewards/rejected": -6.09375,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 10.07036748160809,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -3.5625,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -280.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0145,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.267578125,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -6.28125,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 12.66492731535328,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -274.0,
+      "logps/rejected": -328.0,
+      "loss": 0.011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.056884765625,
+      "rewards/margins": 6.3125,
+      "rewards/rejected": -6.25,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 11.775632569946291,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.375,
+      "logps/chosen": -288.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0128,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0284423828125,
+      "rewards/margins": 6.59375,
+      "rewards/rejected": -6.5625,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 22.713447013582453,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -3.515625,
+      "logits/rejected": -3.5,
+      "logps/chosen": -278.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0164,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.4375,
+      "rewards/margins": 6.21875,
+      "rewards/rejected": -6.65625,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -3.5,
+      "eval_logits/rejected": -3.5625,
+      "eval_logps/chosen": -294.0,
+      "eval_logps/rejected": -312.0,
+      "eval_loss": 0.6788671612739563,
+      "eval_rewards/accuracies": 0.6785714030265808,
+      "eval_rewards/chosen": -2.4375,
+      "eval_rewards/margins": 1.5234375,
+      "eval_rewards/rejected": -3.953125,
+      "eval_runtime": 18.8652,
+      "eval_samples_per_second": 10.602,
+      "eval_steps_per_second": 0.371,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }