Training in progress, step 420000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1baf6720e03a80bba42f160ede8ecbec1168817e98171665a299ded4d992a3a
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb8b7da07a19b89f2cab9e7ae5ecfface2ed5a4207f59160b87fe1ed401ae453
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db26ab4777ecfb64dd27c707c9cfebcf74d431f5c02f5554c247500eee4a57f0
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:5991ca4f8bc9f7681639a0a614f6fc9c7ec3e7b33dfe9e1afc9ff63491198511
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60abe9bac7f0fc7b8ccd2d34e905c6889ebea4f84a53f5f1e4a7b1ee92473794
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddd7f4bf85191d8a4c9627be9d4681a42609a7a71851d99a5960c2f6b9c0253a
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:498c95fdcab578849c69bf4a10f0532f5bf3ba8048fa37c1b416b3afd0ea5f33
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:21fa0c13fc0e3348f6228394f5e318945295debe26ba21ec91b2c06a47593869
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.552878678440784,
-  "global_step": 410000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8206,11 +8206,211 @@
       "eval_samples_per_second": 1491.858,
       "eval_steps_per_second": 23.756,
       "step": 410000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 1.309895021683634e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.785875719378364,
+  "global_step": 420000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1491.858,
       "eval_steps_per_second": 23.756,
       "step": 410000
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 3.4670510086189736e-05,
+      "loss": 0.2551,
+      "step": 410500
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 3.440361659286563e-05,
+      "loss": 0.2547,
+      "step": 411000
+    },
+    {
+      "epoch": 9.58,
+      "eval_loss": 0.23947188258171082,
+      "eval_runtime": 1.4381,
+      "eval_samples_per_second": 1528.365,
+      "eval_steps_per_second": 24.337,
+      "step": 411000
+    },
+    {
+      "epoch": 9.59,
+      "learning_rate": 3.413804192226918e-05,
+      "loss": 0.2547,
+      "step": 411500
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 3.387378897868246e-05,
+      "loss": 0.2544,
+      "step": 412000
+    },
+    {
+      "epoch": 9.6,
+      "eval_loss": 0.23671407997608185,
+      "eval_runtime": 1.4569,
+      "eval_samples_per_second": 1508.674,
+      "eval_steps_per_second": 24.023,
+      "step": 412000
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 3.361086065193336e-05,
+      "loss": 0.2549,
+      "step": 412500
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 3.334925981736389e-05,
+      "loss": 0.2548,
+      "step": 413000
+    },
+    {
+      "epoch": 9.62,
+      "eval_loss": 0.23614807426929474,
+      "eval_runtime": 1.4517,
+      "eval_samples_per_second": 1514.052,
+      "eval_steps_per_second": 24.109,
+      "step": 413000
+    },
+    {
+      "epoch": 9.63,
+      "learning_rate": 3.3088989335798925e-05,
+      "loss": 0.2549,
+      "step": 413500
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 3.283005205351467e-05,
+      "loss": 0.2545,
+      "step": 414000
+    },
+    {
+      "epoch": 9.65,
+      "eval_loss": 0.2389170378446579,
+      "eval_runtime": 1.4416,
+      "eval_samples_per_second": 1524.726,
+      "eval_steps_per_second": 24.279,
+      "step": 414000
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 3.2572450802207845e-05,
+      "loss": 0.2546,
+      "step": 414500
+    },
+    {
+      "epoch": 9.67,
+      "learning_rate": 3.2316188398964344e-05,
+      "loss": 0.2547,
+      "step": 415000
+    },
+    {
+      "epoch": 9.67,
+      "eval_loss": 0.24014273285865784,
+      "eval_runtime": 1.4644,
+      "eval_samples_per_second": 1500.945,
+      "eval_steps_per_second": 23.9,
+      "step": 415000
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 3.206126764622888e-05,
+      "loss": 0.2543,
+      "step": 415500
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 3.180769133177392e-05,
+      "loss": 0.2545,
+      "step": 416000
+    },
+    {
+      "epoch": 9.69,
+      "eval_loss": 0.2388986498117447,
+      "eval_runtime": 1.5029,
+      "eval_samples_per_second": 1462.487,
+      "eval_steps_per_second": 23.288,
+      "step": 416000
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 3.155546222866939e-05,
+      "loss": 0.2543,
+      "step": 416500
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 3.130458309525239e-05,
+      "loss": 0.2543,
+      "step": 417000
+    },
+    {
+      "epoch": 9.72,
+      "eval_loss": 0.2375379502773285,
+      "eval_runtime": 1.4847,
+      "eval_samples_per_second": 1480.402,
+      "eval_steps_per_second": 23.573,
+      "step": 417000
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 3.1055056675096826e-05,
+      "loss": 0.2544,
+      "step": 417500
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 3.0806885696983816e-05,
+      "loss": 0.2543,
+      "step": 418000
+    },
+    {
+      "epoch": 9.74,
+      "eval_loss": 0.23962582647800446,
+      "eval_runtime": 1.4976,
+      "eval_samples_per_second": 1467.703,
+      "eval_steps_per_second": 23.371,
+      "step": 418000
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 3.056007287487128e-05,
+      "loss": 0.2542,
+      "step": 418500
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 3.0314620907864744e-05,
+      "loss": 0.2541,
+      "step": 419000
+    },
+    {
+      "epoch": 9.76,
+      "eval_loss": 0.23849867284297943,
+      "eval_runtime": 1.4273,
+      "eval_samples_per_second": 1539.928,
+      "eval_steps_per_second": 24.521,
+      "step": 419000
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 3.0070532480187637e-05,
+      "loss": 0.2541,
+      "step": 419500
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 2.9827810261151784e-05,
+      "loss": 0.2541,
+      "step": 420000
+    },
+    {
+      "epoch": 9.79,
+      "eval_loss": 0.2357112467288971,
+      "eval_runtime": 1.4438,
+      "eval_samples_per_second": 1522.319,
+      "eval_steps_per_second": 24.241,
+      "step": 420000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 1.341843735561084e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db26ab4777ecfb64dd27c707c9cfebcf74d431f5c02f5554c247500eee4a57f0
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:5991ca4f8bc9f7681639a0a614f6fc9c7ec3e7b33dfe9e1afc9ff63491198511
 size 102501541