Training in progress, step 300000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f9d4a02e518c6040f400dc71e199bb375bfe7d386fc2532b4f6b29080e6ba85
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bf06004ede41634f31f51db43c8e8bd655d6cf31bd715fe6a400fa272f9d936
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce2bfde6677c6364de7dd881d110ad8c08a2d67e11a6db2ce02cc6aaf9d80410
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f18c7c2c86ca13727949f1e8fc13e7631481b4544ee49ec424ae0d909fab662
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab923fbe4c25572b44a728c580cd0d9f3b121bade2ff37e411ad54b9de809e39
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cc022b9e73fe2f5189297efc512c3e18716586fa066a4b492e92e4f957bb73
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39bc196d8aea9810b9698ff8cd04e2aeef8774f706fbd61ae0f0055bbacd0eaf
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7914b9f1e3709b1198ec189eb9bb9105cd6b88dedbcbbdd4128934a703cf33e3
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.756914187189823,
-  "global_step": 290000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5806,11 +5806,211 @@
       "eval_samples_per_second": 1544.544,
       "eval_steps_per_second": 24.595,
       "step": 290000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 9.265112042515059e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.9899112281274025,
+  "global_step": 300000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1544.544,
       "eval_steps_per_second": 24.595,
       "step": 290000
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 0.00012830086996475274,
+      "loss": 0.2677,
+      "step": 290500
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 0.00012782970938506988,
+      "loss": 0.2679,
+      "step": 291000
+    },
+    {
+      "epoch": 6.78,
+      "eval_loss": 0.2502252459526062,
+      "eval_runtime": 1.4522,
+      "eval_samples_per_second": 1513.548,
+      "eval_steps_per_second": 24.101,
+      "step": 291000
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 0.00012735884593533222,
+      "loss": 0.2674,
+      "step": 291500
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 0.0001268882847648268,
+      "loss": 0.2675,
+      "step": 292000
+    },
+    {
+      "epoch": 6.8,
+      "eval_loss": 0.25172051787376404,
+      "eval_runtime": 1.4702,
+      "eval_samples_per_second": 1495.064,
+      "eval_steps_per_second": 23.807,
+      "step": 292000
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 0.00012641803101953535,
+      "loss": 0.2671,
+      "step": 292500
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 0.00012594808984207743,
+      "loss": 0.2672,
+      "step": 293000
+    },
+    {
+      "epoch": 6.83,
+      "eval_loss": 0.2516680657863617,
+      "eval_runtime": 1.4673,
+      "eval_samples_per_second": 1498.034,
+      "eval_steps_per_second": 23.854,
+      "step": 293000
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 0.00012547846637165445,
+      "loss": 0.2672,
+      "step": 293500
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 0.00012500916574399346,
+      "loss": 0.2673,
+      "step": 294000
+    },
+    {
+      "epoch": 6.85,
+      "eval_loss": 0.24834002554416656,
+      "eval_runtime": 1.4335,
+      "eval_samples_per_second": 1533.285,
+      "eval_steps_per_second": 24.415,
+      "step": 294000
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 0.00012454019309129095,
+      "loss": 0.2676,
+      "step": 294500
+    },
+    {
+      "epoch": 6.87,
+      "learning_rate": 0.0001240715535421567,
+      "loss": 0.2671,
+      "step": 295000
+    },
+    {
+      "epoch": 6.87,
+      "eval_loss": 0.24830973148345947,
+      "eval_runtime": 1.4223,
+      "eval_samples_per_second": 1545.387,
+      "eval_steps_per_second": 24.608,
+      "step": 295000
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 0.00012360325222155773,
+      "loss": 0.2669,
+      "step": 295500
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 0.00012313529425076228,
+      "loss": 0.2669,
+      "step": 296000
+    },
+    {
+      "epoch": 6.9,
+      "eval_loss": 0.25227677822113037,
+      "eval_runtime": 1.4524,
+      "eval_samples_per_second": 1513.37,
+      "eval_steps_per_second": 24.098,
+      "step": 296000
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 0.00012266768474728372,
+      "loss": 0.2669,
+      "step": 296500
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 0.00012220042882482468,
+      "loss": 0.2666,
+      "step": 297000
+    },
+    {
+      "epoch": 6.92,
+      "eval_loss": 0.2493974268436432,
+      "eval_runtime": 1.4257,
+      "eval_samples_per_second": 1541.745,
+      "eval_steps_per_second": 24.55,
+      "step": 297000
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 0.00012173353159322102,
+      "loss": 0.2664,
+      "step": 297500
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 0.00012126699815838609,
+      "loss": 0.2664,
+      "step": 298000
+    },
+    {
+      "epoch": 6.94,
+      "eval_loss": 0.24965964257717133,
+      "eval_runtime": 1.4552,
+      "eval_samples_per_second": 1510.413,
+      "eval_steps_per_second": 24.051,
+      "step": 298000
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 0.00012080083362225484,
+      "loss": 0.2664,
+      "step": 298500
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 0.00012033504308272786,
+      "loss": 0.2953,
+      "step": 299000
+    },
+    {
+      "epoch": 6.97,
+      "eval_loss": 0.6473129987716675,
+      "eval_runtime": 1.4394,
+      "eval_samples_per_second": 1527.02,
+      "eval_steps_per_second": 24.316,
+      "step": 299000
+    },
+    {
+      "epoch": 6.98,
+      "learning_rate": 0.00011986963163361598,
+      "loss": 0.6484,
+      "step": 299500
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.0001194046043645841,
+      "loss": 0.6483,
+      "step": 300000
+    },
+    {
+      "epoch": 6.99,
+      "eval_loss": 0.6471491456031799,
+      "eval_runtime": 1.4019,
+      "eval_samples_per_second": 1567.888,
+      "eval_steps_per_second": 24.966,
+      "step": 300000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 9.58459918128956e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce2bfde6677c6364de7dd881d110ad8c08a2d67e11a6db2ce02cc6aaf9d80410
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f18c7c2c86ca13727949f1e8fc13e7631481b4544ee49ec424ae0d909fab662
 size 102501541