Training in progress, step 200, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/global_step200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step200/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/global_step200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0c01378f8626fb764b1495c44118898606b1d391b167805b17044f1db6ff1a1
+size 7414895232

last-checkpoint/global_step200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e9950b7c884295d43031c0038a354d2a02f6da24e738b6a5ee500898b0ea02c
+size 7414897472

last-checkpoint/global_step200/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:771b4f36ea5b1328ed87b99b2613cbf24ab04a0c9fd1823de5718e90d396651f
+size 2471673464

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step100~~


1	+ global_step200

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed1516c096229ae80466370a26fe3de858486b117055f47a2e2cab489139a242
 size 2996982344

 version https://git-lfs.github.com/spec/v1
+oid sha256:39b72fde5d7858e6afce8db4b0d0fdeca00d87ecb6c744603b12d525c98ccf36
 size 2996982344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba02109c842441e127a3fad7657cf1bc583c3017b8b805f4eae546c0cb6bd6bf
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:66c5a0df19b9c4c7f9628533d87b5e767121c5b1c20697fb2cfc5c745c752a6a
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8ee95e644e7f1780b1e0be4d9a67f79e7d8f95071be212bc1c77e329b261b6d
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:59aedc175259cd5edebf90ddc9a5fcde025d3ccce2f0eca359a9ff56cba98147
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96a1388548298b291bf715880376a3f7056129f4c4c3e07823de336de496cdc4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e40935651363f2a1063f3f036a3600d22c7ab6431c4f31c42b100e6e12d0544e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7178106774338269,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -77,6 +77,76 @@
       "learning_rate": 8.453333333333334e-06,
       "loss": 0.5187,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -96,7 +166,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.6785962973462528e+17,
   "train_batch_size": 14,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4365186182144458,
   "eval_steps": 500,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.453333333333334e-06,
       "loss": 0.5187,
       "step": 100
+    },
+    {
+      "epoch": 0.7895917451772095,
+      "grad_norm": 0.022063592448830605,
+      "learning_rate": 8.186666666666667e-06,
+      "loss": 0.51,
+      "step": 110
+    },
+    {
+      "epoch": 0.8613728129205922,
+      "grad_norm": 0.021037070080637932,
+      "learning_rate": 7.92e-06,
+      "loss": 0.5043,
+      "step": 120
+    },
+    {
+      "epoch": 0.9331538806639749,
+      "grad_norm": 0.01985151134431362,
+      "learning_rate": 7.653333333333333e-06,
+      "loss": 0.4985,
+      "step": 130
+    },
+    {
+      "epoch": 1.0058322117541498,
+      "grad_norm": 0.04843816161155701,
+      "learning_rate": 7.386666666666667e-06,
+      "loss": 0.5345,
+      "step": 140
+    },
+    {
+      "epoch": 1.0776132794975326,
+      "grad_norm": 0.02092103101313114,
+      "learning_rate": 7.1200000000000004e-06,
+      "loss": 0.4855,
+      "step": 150
+    },
+    {
+      "epoch": 1.1493943472409152,
+      "grad_norm": 0.020286045968532562,
+      "learning_rate": 6.853333333333334e-06,
+      "loss": 0.4794,
+      "step": 160
+    },
+    {
+      "epoch": 1.221175414984298,
+      "grad_norm": 0.020133651793003082,
+      "learning_rate": 6.5866666666666666e-06,
+      "loss": 0.4779,
+      "step": 170
+    },
+    {
+      "epoch": 1.2929564827276807,
+      "grad_norm": 0.020597418770194054,
+      "learning_rate": 6.3200000000000005e-06,
+      "loss": 0.4738,
+      "step": 180
+    },
+    {
+      "epoch": 1.3647375504710633,
+      "grad_norm": 0.020543133839964867,
+      "learning_rate": 6.0533333333333335e-06,
+      "loss": 0.4713,
+      "step": 190
+    },
+    {
+      "epoch": 1.4365186182144458,
+      "grad_norm": 0.0203793253749609,
+      "learning_rate": 5.7866666666666674e-06,
+      "loss": 0.4665,
+      "step": 200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.3571925946925056e+17,
   "train_batch_size": 14,
   "trial_name": null,
   "trial_params": null