Training in progress, step 150000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aca41469954b0cdd00c93c46873cd2afb5a1a523ea77c504489bc7efcf8bf668
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9ecaa40659da5359d9e6f7d069ca323ca4c45fa18fcb4784f875bec7976d461
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9af6be3972f3b3e2c13dce429397ece13973069648d233609e51fd1be73a404a
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c94d64a0ae504309548136437084f536028b5f9b3d523c385c79db34cb72c3bb
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f52d61c93314d406f5efbb593d2fee6f58fe805cd1be44b93e8b9a7a77fd617
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce01b23c0fe6122788b87f39f9d97726d4354152bd24d5ac8cf11369955b4ef3
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9522f343e5b1c37fe7e600f7b39d619e850350d8948dc240940a440582a0eb9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c09454c2cc8aac6faf99c7970cf8bec57b59b683887c6bb291c3a0936d0e7d0d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.261958573126121,
-  "global_step": 140000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2806,11 +2806,211 @@
       "eval_samples_per_second": 1556.477,
       "eval_steps_per_second": 24.785,
       "step": 140000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 4.4728124518702797e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.4949556140637013,
+  "global_step": 150000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1556.477,
       "eval_steps_per_second": 24.785,
       "step": 140000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 0.0002597105316716766,
+      "loss": 0.2921,
+      "step": 140500
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.000259378263551047,
+      "loss": 0.2914,
+      "step": 141000
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.2755984961986542,
+      "eval_runtime": 1.4384,
+      "eval_samples_per_second": 1528.099,
+      "eval_steps_per_second": 24.333,
+      "step": 141000
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0002590448539664501,
+      "loss": 0.2915,
+      "step": 141500
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.00025871030656399966,
+      "loss": 0.2913,
+      "step": 142000
+    },
+    {
+      "epoch": 3.31,
+      "eval_loss": 0.2742982804775238,
+      "eval_runtime": 1.3825,
+      "eval_samples_per_second": 1589.856,
+      "eval_steps_per_second": 25.316,
+      "step": 142000
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 0.00025837462500225255,
+      "loss": 0.2912,
+      "step": 142500
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 0.0002580378129521685,
+      "loss": 0.2909,
+      "step": 143000
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.2741672694683075,
+      "eval_runtime": 1.3884,
+      "eval_samples_per_second": 1583.139,
+      "eval_steps_per_second": 25.209,
+      "step": 143000
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.0002576998740970701,
+      "loss": 0.2907,
+      "step": 143500
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00025736081213260253,
+      "loss": 0.2911,
+      "step": 144000
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.27347105741500854,
+      "eval_runtime": 1.4089,
+      "eval_samples_per_second": 1560.053,
+      "eval_steps_per_second": 24.842,
+      "step": 144000
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 0.0002570206307666931,
+      "loss": 0.2905,
+      "step": 144500
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 0.0002566793337195108,
+      "loss": 0.2904,
+      "step": 145000
+    },
+    {
+      "epoch": 3.38,
+      "eval_loss": 0.27271768450737,
+      "eval_runtime": 1.4129,
+      "eval_samples_per_second": 1555.627,
+      "eval_steps_per_second": 24.771,
+      "step": 145000
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 0.0002563369247234254,
+      "loss": 0.29,
+      "step": 145500
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 0.0002559934075229669,
+      "loss": 0.2903,
+      "step": 146000
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.27478328347206116,
+      "eval_runtime": 1.4292,
+      "eval_samples_per_second": 1537.886,
+      "eval_steps_per_second": 24.489,
+      "step": 146000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 0.0002556487858747843,
+      "loss": 0.2904,
+      "step": 146500
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.00025530306354760464,
+      "loss": 0.2899,
+      "step": 147000
+    },
+    {
+      "epoch": 3.43,
+      "eval_loss": 0.2697647213935852,
+      "eval_runtime": 1.4585,
+      "eval_samples_per_second": 1506.981,
+      "eval_steps_per_second": 23.997,
+      "step": 147000
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.000254956244322192,
+      "loss": 0.2899,
+      "step": 147500
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 0.00025460833199130595,
+      "loss": 0.2896,
+      "step": 148000
+    },
+    {
+      "epoch": 3.45,
+      "eval_loss": 0.27176716923713684,
+      "eval_runtime": 1.4122,
+      "eval_samples_per_second": 1556.39,
+      "eval_steps_per_second": 24.783,
+      "step": 148000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.00025425933035965983,
+      "loss": 0.2895,
+      "step": 148500
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 0.00025390924324387965,
+      "loss": 0.2895,
+      "step": 149000
+    },
+    {
+      "epoch": 3.47,
+      "eval_loss": 0.27247366309165955,
+      "eval_runtime": 1.4208,
+      "eval_samples_per_second": 1547.057,
+      "eval_steps_per_second": 24.635,
+      "step": 149000
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.0002535580744724621,
+      "loss": 0.2892,
+      "step": 149500
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 0.00025320582788573246,
+      "loss": 0.2892,
+      "step": 150000
+    },
+    {
+      "epoch": 3.49,
+      "eval_loss": 0.2716062366962433,
+      "eval_runtime": 1.4082,
+      "eval_samples_per_second": 1560.897,
+      "eval_steps_per_second": 24.855,
+      "step": 150000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 4.79229959064478e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9af6be3972f3b3e2c13dce429397ece13973069648d233609e51fd1be73a404a
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:c94d64a0ae504309548136437084f536028b5f9b3d523c385c79db34cb72c3bb
 size 102501541