Training in progress, step 260000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bcf163d4c24e7cc42f1a074e3cd2b5b764177304bfde57871568392f90420af
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:406ff60c9fbc96f08fa188658defda9ad6b5e381b6cf799e20366bdf81afbd2a
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da2ade6d09e2d53692039b0c86af61bee174f1818f4f81e3d0671d8e99591ab1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e0c29fd1ad93ebeb1e95f532ec268fb56806f7c232e1c94e4622474be46744f
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b23f32e817f69e70978a71b81655fa6e8769bb16cbe73bed041ad33f8df64bb
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:438f3db980ad0547f739432602e1f85cc46b6fbef312b9261fd3b355ceeb97af
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b7fe86b6bf62db9f7989d6e264b9b70447a29a8d4bbea419af77ab1989ca356
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.824926023439502,
-  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5006,11 +5006,211 @@
       "eval_samples_per_second": 1542.185,
       "eval_steps_per_second": 24.557,
       "step": 250000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 7.987165984407966e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.057923064377082,
+  "global_step": 260000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1542.185,
       "eval_steps_per_second": 24.557,
       "step": 250000
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 0.00016649607200138356,
+      "loss": 0.2728,
+      "step": 250500
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.00016601801319007743,
+      "loss": 0.2729,
+      "step": 251000
+    },
+    {
+      "epoch": 5.85,
+      "eval_loss": 0.25545501708984375,
+      "eval_runtime": 1.4675,
+      "eval_samples_per_second": 1497.796,
+      "eval_steps_per_second": 23.85,
+      "step": 251000
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 0.00016553983388754428,
+      "loss": 0.2725,
+      "step": 251500
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 0.00016506153932307636,
+      "loss": 0.2723,
+      "step": 252000
+    },
+    {
+      "epoch": 5.87,
+      "eval_loss": 0.25281623005867004,
+      "eval_runtime": 1.4602,
+      "eval_samples_per_second": 1505.31,
+      "eval_steps_per_second": 23.97,
+      "step": 252000
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 0.00016458313472722638,
+      "loss": 0.2722,
+      "step": 252500
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 0.00016410462533175045,
+      "loss": 0.2722,
+      "step": 253000
+    },
+    {
+      "epoch": 5.89,
+      "eval_loss": 0.2557053565979004,
+      "eval_runtime": 1.4444,
+      "eval_samples_per_second": 1521.717,
+      "eval_steps_per_second": 24.231,
+      "step": 253000
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 0.00016362601636955049,
+      "loss": 0.2719,
+      "step": 253500
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 0.00016314731307461754,
+      "loss": 0.2722,
+      "step": 254000
+    },
+    {
+      "epoch": 5.92,
+      "eval_loss": 0.2575713098049164,
+      "eval_runtime": 1.4237,
+      "eval_samples_per_second": 1543.898,
+      "eval_steps_per_second": 24.584,
+      "step": 254000
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 0.0001626685206819742,
+      "loss": 0.2723,
+      "step": 254500
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0001621896444276172,
+      "loss": 0.2718,
+      "step": 255000
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.25522297620773315,
+      "eval_runtime": 1.5788,
+      "eval_samples_per_second": 1392.174,
+      "eval_steps_per_second": 22.168,
+      "step": 255000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 0.00016171068954846067,
+      "loss": 0.2721,
+      "step": 255500
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 0.00016123166128227835,
+      "loss": 0.2715,
+      "step": 256000
+    },
+    {
+      "epoch": 5.96,
+      "eval_loss": 0.25572481751441956,
+      "eval_runtime": 1.4307,
+      "eval_samples_per_second": 1536.298,
+      "eval_steps_per_second": 24.463,
+      "step": 256000
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 0.0001607525648676467,
+      "loss": 0.2725,
+      "step": 256500
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.0001602734055438873,
+      "loss": 0.2725,
+      "step": 257000
+    },
+    {
+      "epoch": 5.99,
+      "eval_loss": 0.2527320981025696,
+      "eval_runtime": 1.4262,
+      "eval_samples_per_second": 1541.159,
+      "eval_steps_per_second": 24.541,
+      "step": 257000
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.00015979418855100963,
+      "loss": 0.2721,
+      "step": 257500
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 0.00015931491912965417,
+      "loss": 0.2717,
+      "step": 258000
+    },
+    {
+      "epoch": 6.01,
+      "eval_loss": 0.2517436146736145,
+      "eval_runtime": 1.7752,
+      "eval_samples_per_second": 1238.2,
+      "eval_steps_per_second": 19.717,
+      "step": 258000
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.0001588356025210344,
+      "loss": 0.2717,
+      "step": 258500
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 0.00015835624396688,
+      "loss": 0.272,
+      "step": 259000
+    },
+    {
+      "epoch": 6.03,
+      "eval_loss": 0.2557397484779358,
+      "eval_runtime": 1.4282,
+      "eval_samples_per_second": 1538.991,
+      "eval_steps_per_second": 24.506,
+      "step": 259000
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 0.00015787684870937924,
+      "loss": 0.2717,
+      "step": 259500
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.00015739742199112196,
+      "loss": 0.2717,
+      "step": 260000
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 0.25458213686943054,
+      "eval_runtime": 1.4334,
+      "eval_samples_per_second": 1533.386,
+      "eval_steps_per_second": 24.417,
+      "step": 260000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 8.30665062619156e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da2ade6d09e2d53692039b0c86af61bee174f1818f4f81e3d0671d8e99591ab1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e0c29fd1ad93ebeb1e95f532ec268fb56806f7c232e1c94e4622474be46744f
 size 102501541