Training in progress, step 380000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df6d3d3f9674103740b8f59e2a1f3f36fbba555fa4f14347ef60833e8c7c8d0f
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8f4969533102642963b0b2227bcca65da739e93c9ba93ada329fad00247349b
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e10781209da6498c21422e9093158ac9bd1d4e98d2f25e9bf1fc4805ab12c7d1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:31402a0bcc9e6eb51374c53180861ce7a4f03142fd97638776d46c6dc480c809
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f631839d0a0f079647209a72e733a12f2b0a5a840f484d4d4c8016cacc9ffbe
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7942041c29d1b42261564b880acf9a06c922c5e2ec40da67c47a0bff66b113b4
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:580594f4768ecd1bd92e87dca92e874365a397305161c1f8781b79f1f0b613ba
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c2047b5f47fc3de929bb0738f7fbdd248300ab063f6fd4eddcabc29f5482852
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.620890514690464,
-  "global_step": 370000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7406,11 +7406,211 @@
       "eval_samples_per_second": 1511.147,
       "eval_steps_per_second": 24.063,
       "step": 370000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 1.1821004158729246e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.853887555628043,
+  "global_step": 380000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1511.147,
       "eval_steps_per_second": 24.063,
       "step": 370000
+    },
+    {
+      "epoch": 8.63,
+      "learning_rate": 6.0012253629189544e-05,
+      "loss": 0.2584,
+      "step": 370500
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 5.965048145015944e-05,
+      "loss": 0.2585,
+      "step": 371000
+    },
+    {
+      "epoch": 8.64,
+      "eval_loss": 0.24364076554775238,
+      "eval_runtime": 1.4292,
+      "eval_samples_per_second": 1537.961,
+      "eval_steps_per_second": 24.49,
+      "step": 371000
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 5.928975199818785e-05,
+      "loss": 0.2583,
+      "step": 371500
+    },
+    {
+      "epoch": 8.67,
+      "learning_rate": 5.893006921815428e-05,
+      "loss": 0.2582,
+      "step": 372000
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 0.24061721563339233,
+      "eval_runtime": 1.4626,
+      "eval_samples_per_second": 1502.828,
+      "eval_steps_per_second": 23.93,
+      "step": 372000
+    },
+    {
+      "epoch": 8.68,
+      "learning_rate": 5.857143704349198e-05,
+      "loss": 0.2584,
+      "step": 372500
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 5.8213859396144986e-05,
+      "loss": 0.2583,
+      "step": 373000
+    },
+    {
+      "epoch": 8.69,
+      "eval_loss": 0.24275849759578705,
+      "eval_runtime": 1.4296,
+      "eval_samples_per_second": 1537.531,
+      "eval_steps_per_second": 24.483,
+      "step": 373000
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 5.785734018652507e-05,
+      "loss": 0.2584,
+      "step": 373500
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 5.750188331346927e-05,
+      "loss": 0.2585,
+      "step": 374000
+    },
+    {
+      "epoch": 8.71,
+      "eval_loss": 0.24333250522613525,
+      "eval_runtime": 1.4555,
+      "eval_samples_per_second": 1510.18,
+      "eval_steps_per_second": 24.047,
+      "step": 374000
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 5.714749266419695e-05,
+      "loss": 0.2584,
+      "step": 374500
+    },
+    {
+      "epoch": 8.74,
+      "learning_rate": 5.6794172114267566e-05,
+      "loss": 0.2578,
+      "step": 375000
+    },
+    {
+      "epoch": 8.74,
+      "eval_loss": 0.24110642075538635,
+      "eval_runtime": 1.4471,
+      "eval_samples_per_second": 1518.91,
+      "eval_steps_per_second": 24.186,
+      "step": 375000
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 5.6441925527537914e-05,
+      "loss": 0.2578,
+      "step": 375500
+    },
+    {
+      "epoch": 8.76,
+      "learning_rate": 5.60907567561203e-05,
+      "loss": 0.2582,
+      "step": 376000
+    },
+    {
+      "epoch": 8.76,
+      "eval_loss": 0.242658793926239,
+      "eval_runtime": 1.4703,
+      "eval_samples_per_second": 1494.982,
+      "eval_steps_per_second": 23.805,
+      "step": 376000
+    },
+    {
+      "epoch": 8.77,
+      "learning_rate": 5.574066964034012e-05,
+      "loss": 0.2581,
+      "step": 376500
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 5.539166800869402e-05,
+      "loss": 0.258,
+      "step": 377000
+    },
+    {
+      "epoch": 8.78,
+      "eval_loss": 0.2416759431362152,
+      "eval_runtime": 1.4756,
+      "eval_samples_per_second": 1489.53,
+      "eval_steps_per_second": 23.719,
+      "step": 377000
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 5.5043755677807955e-05,
+      "loss": 0.2578,
+      "step": 377500
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 5.4696936452395344e-05,
+      "loss": 0.2576,
+      "step": 378000
+    },
+    {
+      "epoch": 8.81,
+      "eval_loss": 0.23985832929611206,
+      "eval_runtime": 1.4569,
+      "eval_samples_per_second": 1508.675,
+      "eval_steps_per_second": 24.023,
+      "step": 378000
+    },
+    {
+      "epoch": 8.82,
+      "learning_rate": 5.435121412521576e-05,
+      "loss": 0.2579,
+      "step": 378500
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 5.400659247703307e-05,
+      "loss": 0.2574,
+      "step": 379000
+    },
+    {
+      "epoch": 8.83,
+      "eval_loss": 0.24152863025665283,
+      "eval_runtime": 1.4464,
+      "eval_samples_per_second": 1519.59,
+      "eval_steps_per_second": 24.197,
+      "step": 379000
+    },
+    {
+      "epoch": 8.84,
+      "learning_rate": 5.36630752765745e-05,
+      "loss": 0.2576,
+      "step": 379500
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 5.3320666280489146e-05,
+      "loss": 0.2579,
+      "step": 380000
+    },
+    {
+      "epoch": 8.85,
+      "eval_loss": 0.24166275560855865,
+      "eval_runtime": 1.4454,
+      "eval_samples_per_second": 1520.737,
+      "eval_steps_per_second": 24.216,
+      "step": 380000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 1.2140491297503746e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e10781209da6498c21422e9093158ac9bd1d4e98d2f25e9bf1fc4805ab12c7d1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:31402a0bcc9e6eb51374c53180861ce7a4f03142fd97638776d46c6dc480c809
 size 102501541