AmberYifan commited on Dec 16, 2024

Commit

b061dc2

verified ·

1 Parent(s): 7499722

Training in progress, epoch 3, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:310469808a09a4f86b89dfdad2547ce8f7bc85d8d5a674bfeeaf096f4517c334
+size 14483468456

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bea1005f8f5cd3bfcc773bbe34ea662a5964a23349b83e46b6e9421712dfd43
+size 14483468456

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee32b5d1189f0dbf2af264819d67a9d5881bcc0876e45411fc9d84ee036ef5c2
+size 14483468456

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b0716f0b5b8d85ab0456f6a510ba879a7365f1659ddf3249b7de36f458d2c1e
+size 14483468456

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa10e264ee59a33acd575d95ae3f7e5a0509b7bd2a2a510649f82c465f729352
+size 150629

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e306a05fa6029baa82546231b76ac5a9ebf1cce5e554409d6107365bd5806d39
+size 150629

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf215b3fad22fcde9bdf9c491cc8eea4a7bf6b0bf17e9d52800a78c1649f16e7
+size 150629

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f710b9aa5d9cb3f96f3c17df7e0ffeaa399ca8a0db0efc823d1f2139687e67a4
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d3e608b09b6d01de1abb02b1cdbd7974efc79cd34b4b1b8e4cc474d79aee69c
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:eca3b3f802b4e2c4a57eedfb70509258c2809baf1b47d4ca9f71c08d50554441
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5417fffa9dc5f4f8df7f2048af3214d40bbcc1286f17653b2b5073ff41bdc8c6
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd61800d71ab4509ac872cd60d757f9115b3ba96f61e6774bb9b416737542cb5
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a71e94cff5111b7be580b87d7468a7a6269e9c09e6e2a64f028ffbddf0ac185
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:938aeb2b57192138bb70e667bc639fd64d11ea5e3d20ea91aef236c86dfd9e4e
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fd160e69e5766b513d913785299b2ff6d181cae9fd47f741adc100cb17d22e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:640747ca69b57ef58ae079eec14158d13652c8bf30fb7c733fab30d65edaeb50
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 16.25,
       "eval_steps_per_second": 0.569,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.25,
       "eval_steps_per_second": 0.569,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 233.3927856017294,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -3.453125,
+      "logits/rejected": -3.390625,
+      "logps/chosen": -90.0,
+      "logps/rejected": -156.0,
+      "loss": 0.1624,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.060791015625,
+      "rewards/margins": 4.25,
+      "rewards/rejected": -4.21875,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 6.8655748966408305,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.28125,
+      "logps/chosen": -102.0,
+      "logps/rejected": -150.0,
+      "loss": 0.0546,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.51953125,
+      "rewards/margins": 5.3125,
+      "rewards/rejected": -4.8125,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 5.52148734018718,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.125,
+      "logps/chosen": -103.0,
+      "logps/rejected": -152.0,
+      "loss": 0.0275,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.64453125,
+      "rewards/margins": 5.8125,
+      "rewards/rejected": -5.1875,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 5.945489873996584,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -3.53125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -94.0,
+      "logps/rejected": -163.0,
+      "loss": 0.0346,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.3125,
+      "rewards/margins": 6.28125,
+      "rewards/rejected": -5.96875,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 15.641153990271073,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -3.46875,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -95.0,
+      "logps/rejected": -172.0,
+      "loss": 0.0404,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.28125,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -6.28125,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 12.428538162453988,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -107.5,
+      "logps/rejected": -170.0,
+      "loss": 0.037,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.265625,
+      "rewards/margins": 6.625,
+      "rewards/rejected": -6.375,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 4.017973551269618,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -108.0,
+      "logps/rejected": -173.0,
+      "loss": 0.037,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.302734375,
+      "rewards/margins": 7.0,
+      "rewards/rejected": -6.6875,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 86.48671040112693,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -3.28125,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -97.0,
+      "logps/rejected": -173.0,
+      "loss": 0.0335,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.2236328125,
+      "rewards/margins": 7.4375,
+      "rewards/rejected": -7.65625,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 3.430888312255222,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.125,
+      "logps/chosen": -108.0,
+      "logps/rejected": -192.0,
+      "loss": 0.0355,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.9765625,
+      "rewards/margins": 7.53125,
+      "rewards/rejected": -8.5,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 7.379623913134848,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -3.34375,
+      "logits/rejected": -3.25,
+      "logps/chosen": -101.5,
+      "logps/rejected": -163.0,
+      "loss": 0.0452,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0230712890625,
+      "rewards/margins": 6.53125,
+      "rewards/rejected": -6.5,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 16.067536241252174,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -3.40625,
+      "logits/rejected": -3.25,
+      "logps/chosen": -104.0,
+      "logps/rejected": -183.0,
+      "loss": 0.0485,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.265625,
+      "rewards/margins": 7.0625,
+      "rewards/rejected": -7.3125,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 8.775321084313918,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -101.5,
+      "logps/rejected": -198.0,
+      "loss": 0.0573,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 7.1875,
+      "rewards/rejected": -8.3125,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 2.7323617705921777,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.125,
+      "logps/chosen": -101.0,
+      "logps/rejected": -190.0,
+      "loss": 0.0264,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.60546875,
+      "rewards/margins": 8.0,
+      "rewards/rejected": -8.625,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 26.885338666699912,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -3.296875,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -100.0,
+      "logps/rejected": -168.0,
+      "loss": 0.0437,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.12255859375,
+      "rewards/margins": 6.75,
+      "rewards/rejected": -6.875,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 4.85033080386058,
+      "learning_rate": 1e-07,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.265625,
+      "logps/chosen": -97.0,
+      "logps/rejected": -188.0,
+      "loss": 0.0788,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.474609375,
+      "rewards/margins": 7.6875,
+      "rewards/rejected": -8.125,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 205.54438620209856,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -96.0,
+      "logps/rejected": -186.0,
+      "loss": 0.0678,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.177734375,
+      "rewards/margins": 7.3125,
+      "rewards/rejected": -7.5,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 28.433975567152338,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -98.5,
+      "logps/rejected": -188.0,
+      "loss": 0.031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.91796875,
+      "rewards/margins": 7.5,
+      "rewards/rejected": -8.4375,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 4.2386789501934965,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -110.5,
+      "logps/rejected": -175.0,
+      "loss": 0.0499,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.353515625,
+      "rewards/margins": 7.15625,
+      "rewards/rejected": -7.5,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 6.261571908946508,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -3.234375,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -104.5,
+      "logps/rejected": -185.0,
+      "loss": 0.0425,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.7890625,
+      "rewards/margins": 7.3125,
+      "rewards/rejected": -8.125,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 43.7884576040152,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -107.0,
+      "logps/rejected": -193.0,
+      "loss": 0.0592,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.404296875,
+      "rewards/margins": 7.59375,
+      "rewards/rejected": -8.0,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 7.063030707335778,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.25,
+      "logps/chosen": -107.5,
+      "logps/rejected": -219.0,
+      "loss": 0.0132,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.0,
+      "rewards/margins": 8.6875,
+      "rewards/rejected": -9.6875,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 31.69985105836376,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -3.234375,
+      "logits/rejected": -3.125,
+      "logps/chosen": -110.0,
+      "logps/rejected": -194.0,
+      "loss": 0.0767,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.40625,
+      "rewards/margins": 7.375,
+      "rewards/rejected": -8.8125,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 36.344404095239184,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -110.0,
+      "logps/rejected": -196.0,
+      "loss": 0.0383,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.234375,
+      "rewards/margins": 7.71875,
+      "rewards/rejected": -8.9375,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 26.561166415223443,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -3.296875,
+      "logits/rejected": -3.328125,
+      "logps/chosen": -109.5,
+      "logps/rejected": -183.0,
+      "loss": 0.0619,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.28125,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -7.84375,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 51.634391271169434,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -3.34375,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -115.5,
+      "logps/rejected": -175.0,
+      "loss": 0.0302,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.75,
+      "rewards/margins": 7.78125,
+      "rewards/rejected": -8.5625,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 4.862668702951866,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -110.0,
+      "logps/rejected": -192.0,
+      "loss": 0.0318,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.3125,
+      "rewards/margins": 8.125,
+      "rewards/rejected": -9.375,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 5.808427284559429,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -118.5,
+      "logps/rejected": -202.0,
+      "loss": 0.0413,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.6171875,
+      "rewards/margins": 8.25,
+      "rewards/rejected": -9.8125,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 1.47350840913393,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -102.5,
+      "logps/rejected": -202.0,
+      "loss": 0.024,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.3046875,
+      "rewards/margins": 8.4375,
+      "rewards/rejected": -9.75,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 35.85817350730659,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -3.265625,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -116.5,
+      "logps/rejected": -181.0,
+      "loss": 0.0377,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.474609375,
+      "rewards/margins": 7.96875,
+      "rewards/rejected": -8.4375,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 2.972228065765212,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.28125,
+      "logps/chosen": -107.5,
+      "logps/rejected": -200.0,
+      "loss": 0.0497,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 8.0625,
+      "rewards/rejected": -9.1875,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 41.76203114287835,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -3.125,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -96.5,
+      "logps/rejected": -183.0,
+      "loss": 0.0546,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.0234375,
+      "rewards/margins": 7.71875,
+      "rewards/rejected": -8.75,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -3.328125,
+      "eval_logits/rejected": -3.1875,
+      "eval_logps/chosen": -133.0,
+      "eval_logps/rejected": -166.0,
+      "eval_loss": 0.8457812666893005,
+      "eval_rewards/accuracies": 0.6785714030265808,
+      "eval_rewards/chosen": -3.546875,
+      "eval_rewards/margins": 1.8359375,
+      "eval_rewards/rejected": -5.40625,
+      "eval_runtime": 15.4802,
+      "eval_samples_per_second": 12.92,
+      "eval_steps_per_second": 0.452,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }