AmberYifan commited on 6 days ago

Commit

c60270c

verified ·

1 Parent(s): d00351c

Training in progress, epoch 3, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step936/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step936/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d58f56502fa9e70171ed3b928bf80577f262e4d8837728d920ea656226c4bf2
+size 16060527788

last-checkpoint/global_step936/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:081ba3810d0368e3cfabbb2468f5c45373b631689c15927a341d7dfb309b8d5c
+size 16060527788

last-checkpoint/global_step936/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6d85c9161e7c7de80c6c23733496b745c91f510178c9254b1d9e3dda3683ec5
+size 16060527788

last-checkpoint/global_step936/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f91ebf5f2fab6069865612235ec9cbfa54115649d9f2846f035775fae192f8e7
+size 16060527788

last-checkpoint/global_step936/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:324927a5badf182663640aa9e6c21d2337e2567cd7cb97e424b47741ff683f81
+size 150693

last-checkpoint/global_step936/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90019d488b7111be6f39642a19ceb124521fec174a9ce0f2155899235fc5bfbb
+size 150693

last-checkpoint/global_step936/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4bb3e8dc81a3656f5b190469c32a3460b40fb47bc548062b4e0fac6b1e0793d
+size 150693

last-checkpoint/global_step936/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a8f9ac6fdfaab7d6e52c1237f2f71ac212bad46c7a3675209860fd900856645
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step624~~


1	+ global_step936

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbbd032fa9662e528e5b422ba0c466f38e864fd3738692339c79e0e94af61c91
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c88a380b08c00054a9b94f46c5920ed1bb7008ae8ed02c2195d32759115d200
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5130f7d7be6def99210631ab039ac4d1dd8e2bfb3b341bbea09774358a48a87d
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b8875c4bf9c461789bef7e709b319623af135da74a327500e6c9b3cb5d4151a
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:102195ce8a84f213e428d6a9cc1a8f78a76b23711a1c6ebbb34f7ca8d53eead5
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e7e7c52702e8a11da8e28bd39025a7af758d396419a5904ca172468b6c49bc9
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1cdebb604c781670825469e1a2fcdc35d6afdf2695801f942744266e9ad0495
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:87d4607f1f3ca8a42e3cdbcbca3e90fcdf3e64e1d35bd2c1ac94822b58d83168
 size 1168138808

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eba46a04fca9d4584d0e7af07b2d004fba441dbf422bdb9977bfac0706fb41fe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b68e0a486bddf6dff90d73426f2281b66faaad35da219979b7985f12d4a9a424
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 624,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 13.321,
       "eval_steps_per_second": 0.466,
       "step": 624
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.321,
       "eval_steps_per_second": 0.466,
       "step": 624
+    },
+    {
+      "epoch": 2.019230769230769,
+      "grad_norm": 2.9708656343687063,
+      "learning_rate": 1.8171021377672207e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.5,
+      "logps/chosen": -150.0,
+      "logps/rejected": -224.0,
+      "loss": 0.071,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.98828125,
+      "rewards/margins": 5.40625,
+      "rewards/rejected": -6.40625,
+      "step": 630
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 3.1451139864714266,
+      "learning_rate": 1.7577197149643706e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.4609375,
+      "logps/chosen": -121.5,
+      "logps/rejected": -198.0,
+      "loss": 0.0534,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.8203125,
+      "rewards/margins": 4.9375,
+      "rewards/rejected": -5.75,
+      "step": 640
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 7.314670214652841,
+      "learning_rate": 1.6983372921615202e-07,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -134.0,
+      "logps/rejected": -247.0,
+      "loss": 0.0546,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.73046875,
+      "rewards/margins": 5.84375,
+      "rewards/rejected": -6.5625,
+      "step": 650
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 6.986967407965111,
+      "learning_rate": 1.6389548693586697e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -123.5,
+      "logps/rejected": -219.0,
+      "loss": 0.0485,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.9375,
+      "rewards/margins": 5.5625,
+      "rewards/rejected": -6.53125,
+      "step": 660
+    },
+    {
+      "epoch": 2.1474358974358974,
+      "grad_norm": 3.152252590941172,
+      "learning_rate": 1.5795724465558193e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -121.5,
+      "logps/rejected": -264.0,
+      "loss": 0.0391,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.97265625,
+      "rewards/margins": 6.40625,
+      "rewards/rejected": -7.375,
+      "step": 670
+    },
+    {
+      "epoch": 2.1794871794871793,
+      "grad_norm": 5.616933414198294,
+      "learning_rate": 1.520190023752969e-07,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.5078125,
+      "logps/chosen": -136.0,
+      "logps/rejected": -225.0,
+      "loss": 0.0523,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.265625,
+      "rewards/margins": 5.4375,
+      "rewards/rejected": -6.6875,
+      "step": 680
+    },
+    {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 4.462570602831943,
+      "learning_rate": 1.4608076009501184e-07,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -141.0,
+      "logps/rejected": -247.0,
+      "loss": 0.0548,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.9921875,
+      "rewards/margins": 5.90625,
+      "rewards/rejected": -6.90625,
+      "step": 690
+    },
+    {
+      "epoch": 2.2435897435897436,
+      "grad_norm": 6.786342065093859,
+      "learning_rate": 1.4014251781472683e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -115.0,
+      "logps/rejected": -243.0,
+      "loss": 0.0328,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7890625,
+      "rewards/margins": 6.25,
+      "rewards/rejected": -7.03125,
+      "step": 700
+    },
+    {
+      "epoch": 2.2756410256410255,
+      "grad_norm": 10.783463457904992,
+      "learning_rate": 1.342042755344418e-07,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -149.0,
+      "logps/rejected": -266.0,
+      "loss": 0.0556,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.203125,
+      "rewards/margins": 6.125,
+      "rewards/rejected": -7.3125,
+      "step": 710
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 9.0679334215508,
+      "learning_rate": 1.2826603325415677e-07,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -121.0,
+      "logps/rejected": -217.0,
+      "loss": 0.0438,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.80078125,
+      "rewards/margins": 5.84375,
+      "rewards/rejected": -6.65625,
+      "step": 720
+    },
+    {
+      "epoch": 2.33974358974359,
+      "grad_norm": 2.164285473082669,
+      "learning_rate": 1.2232779097387173e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.5,
+      "logps/chosen": -153.0,
+      "logps/rejected": -237.0,
+      "loss": 0.0414,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2421875,
+      "rewards/margins": 6.15625,
+      "rewards/rejected": -7.375,
+      "step": 730
+    },
+    {
+      "epoch": 2.371794871794872,
+      "grad_norm": 8.601824238964523,
+      "learning_rate": 1.163895486935867e-07,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.46875,
+      "logps/chosen": -148.0,
+      "logps/rejected": -238.0,
+      "loss": 0.0358,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.6953125,
+      "rewards/margins": 5.9375,
+      "rewards/rejected": -7.625,
+      "step": 740
+    },
+    {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 11.674320163023708,
+      "learning_rate": 1.1045130641330165e-07,
+      "logits/chosen": -1.5234375,
+      "logits/rejected": -1.5390625,
+      "logps/chosen": -133.0,
+      "logps/rejected": -258.0,
+      "loss": 0.0523,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.9453125,
+      "rewards/margins": 6.4375,
+      "rewards/rejected": -8.375,
+      "step": 750
+    },
+    {
+      "epoch": 2.435897435897436,
+      "grad_norm": 4.6040374115250415,
+      "learning_rate": 1.0451306413301662e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -115.5,
+      "logps/rejected": -258.0,
+      "loss": 0.0425,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.984375,
+      "rewards/margins": 7.40625,
+      "rewards/rejected": -8.375,
+      "step": 760
+    },
+    {
+      "epoch": 2.467948717948718,
+      "grad_norm": 6.059248925740205,
+      "learning_rate": 9.857482185273158e-08,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -137.0,
+      "logps/rejected": -233.0,
+      "loss": 0.037,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.2265625,
+      "rewards/margins": 5.90625,
+      "rewards/rejected": -7.125,
+      "step": 770
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 5.569807408041334,
+      "learning_rate": 9.263657957244655e-08,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -136.0,
+      "logps/rejected": -240.0,
+      "loss": 0.0383,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.46875,
+      "rewards/margins": 6.78125,
+      "rewards/rejected": -8.25,
+      "step": 780
+    },
+    {
+      "epoch": 2.532051282051282,
+      "grad_norm": 9.080566390829592,
+      "learning_rate": 8.669833729216151e-08,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.4375,
+      "logps/chosen": -138.0,
+      "logps/rejected": -233.0,
+      "loss": 0.043,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.125,
+      "rewards/margins": 6.1875,
+      "rewards/rejected": -8.3125,
+      "step": 790
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 4.722752417362213,
+      "learning_rate": 8.076009501187649e-08,
+      "logits/chosen": -1.4609375,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -129.0,
+      "logps/rejected": -244.0,
+      "loss": 0.043,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.78125,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -8.375,
+      "step": 800
+    },
+    {
+      "epoch": 2.5961538461538463,
+      "grad_norm": 8.320380078890436,
+      "learning_rate": 7.482185273159145e-08,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -152.0,
+      "logps/rejected": -234.0,
+      "loss": 0.0311,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.734375,
+      "rewards/margins": 6.25,
+      "rewards/rejected": -7.96875,
+      "step": 810
+    },
+    {
+      "epoch": 2.628205128205128,
+      "grad_norm": 10.713886798327927,
+      "learning_rate": 6.88836104513064e-08,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -151.0,
+      "logps/rejected": -252.0,
+      "loss": 0.0368,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.6875,
+      "rewards/margins": 6.25,
+      "rewards/rejected": -7.9375,
+      "step": 820
+    },
+    {
+      "epoch": 2.66025641025641,
+      "grad_norm": 10.956365394123852,
+      "learning_rate": 6.294536817102138e-08,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.4375,
+      "logps/chosen": -139.0,
+      "logps/rejected": -224.0,
+      "loss": 0.0434,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.7421875,
+      "rewards/margins": 6.15625,
+      "rewards/rejected": -7.875,
+      "step": 830
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 5.167870965947855,
+      "learning_rate": 5.700712589073634e-08,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -155.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0367,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.4140625,
+      "rewards/margins": 7.15625,
+      "rewards/rejected": -8.5625,
+      "step": 840
+    },
+    {
+      "epoch": 2.7243589743589745,
+      "grad_norm": 10.357396384526298,
+      "learning_rate": 5.10688836104513e-08,
+      "logits/chosen": -1.4765625,
+      "logits/rejected": -1.5,
+      "logps/chosen": -144.0,
+      "logps/rejected": -245.0,
+      "loss": 0.0381,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.8125,
+      "rewards/margins": 6.46875,
+      "rewards/rejected": -8.3125,
+      "step": 850
+    },
+    {
+      "epoch": 2.7564102564102564,
+      "grad_norm": 4.157699399133391,
+      "learning_rate": 4.5130641330166267e-08,
+      "logits/chosen": -1.46875,
+      "logits/rejected": -1.421875,
+      "logps/chosen": -126.0,
+      "logps/rejected": -239.0,
+      "loss": 0.0442,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.5859375,
+      "rewards/margins": 6.25,
+      "rewards/rejected": -7.8125,
+      "step": 860
+    },
+    {
+      "epoch": 2.7884615384615383,
+      "grad_norm": 10.34195664309316,
+      "learning_rate": 3.919239904988123e-08,
+      "logits/chosen": -1.5234375,
+      "logits/rejected": -1.5390625,
+      "logps/chosen": -148.0,
+      "logps/rejected": -268.0,
+      "loss": 0.036,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.296875,
+      "rewards/margins": 6.5,
+      "rewards/rejected": -8.8125,
+      "step": 870
+    },
+    {
+      "epoch": 2.8205128205128203,
+      "grad_norm": 13.885196758276543,
+      "learning_rate": 3.32541567695962e-08,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.4609375,
+      "logps/chosen": -139.0,
+      "logps/rejected": -237.0,
+      "loss": 0.0386,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.7890625,
+      "rewards/margins": 6.4375,
+      "rewards/rejected": -8.25,
+      "step": 880
+    },
+    {
+      "epoch": 2.8525641025641026,
+      "grad_norm": 3.298992157382736,
+      "learning_rate": 2.7315914489311164e-08,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -142.0,
+      "logps/rejected": -264.0,
+      "loss": 0.0326,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.0,
+      "rewards/margins": 6.84375,
+      "rewards/rejected": -8.875,
+      "step": 890
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 9.55680354164709,
+      "learning_rate": 2.1377672209026125e-08,
+      "logits/chosen": -1.4609375,
+      "logits/rejected": -1.4453125,
+      "logps/chosen": -124.0,
+      "logps/rejected": -247.0,
+      "loss": 0.0386,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.7734375,
+      "rewards/margins": 7.0,
+      "rewards/rejected": -8.8125,
+      "step": 900
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 8.674386112287156,
+      "learning_rate": 1.5439429928741092e-08,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -118.0,
+      "logps/rejected": -240.0,
+      "loss": 0.0517,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.3984375,
+      "rewards/margins": 7.0625,
+      "rewards/rejected": -8.4375,
+      "step": 910
+    },
+    {
+      "epoch": 2.948717948717949,
+      "grad_norm": 6.427610044394737,
+      "learning_rate": 9.501187648456057e-09,
+      "logits/chosen": -1.5,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -148.0,
+      "logps/rejected": -256.0,
+      "loss": 0.0481,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.84375,
+      "rewards/margins": 6.375,
+      "rewards/rejected": -8.25,
+      "step": 920
+    },
+    {
+      "epoch": 2.980769230769231,
+      "grad_norm": 20.775958318465445,
+      "learning_rate": 3.562945368171021e-09,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.5,
+      "logps/chosen": -141.0,
+      "logps/rejected": -232.0,
+      "loss": 0.0498,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.640625,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -7.625,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.4921875,
+      "eval_logits/rejected": -1.4609375,
+      "eval_logps/chosen": -199.0,
+      "eval_logps/rejected": -222.0,
+      "eval_loss": 0.830273449420929,
+      "eval_rewards/accuracies": 0.625,
+      "eval_rewards/chosen": -4.4375,
+      "eval_rewards/margins": 1.765625,
+      "eval_rewards/rejected": -6.1875,
+      "eval_runtime": 16.7003,
+      "eval_samples_per_second": 11.976,
+      "eval_steps_per_second": 0.419,
+      "step": 936
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }