Training in progress, step 250000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95219d59f6e21a9a0cd580ed60c0915e8162896fe27e6f7170a921f2e0d281bd
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bcf163d4c24e7cc42f1a074e3cd2b5b764177304bfde57871568392f90420af
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58d9a817ebedb7184a71cca1a13709576b2d1a51f03c46a318ad05be242513b5
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:da2ade6d09e2d53692039b0c86af61bee174f1818f4f81e3d0671d8e99591ab1
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8419ed7583455ff96bd8dc55fc07544cbd4508b78a00a26bb6c6297cac401ebd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b91b2dfc358c1cb0a487d1d59c48a632d3a28a8d92f2e4877dc656b73845941
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a310455c0ab00dbcb4f4c26c03e0304d748fbc8c3e547006fb15346d32ac70da
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:438f3db980ad0547f739432602e1f85cc46b6fbef312b9261fd3b355ceeb97af
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.591928982501923,
-  "global_step": 240000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4806,11 +4806,211 @@
       "eval_samples_per_second": 1524.238,
       "eval_steps_per_second": 24.271,
       "step": 240000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 7.667678845633466e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.824926023439502,
+  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1524.238,
       "eval_steps_per_second": 24.271,
       "step": 240000
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 0.00017602390554989563,
+      "loss": 0.274,
+      "step": 240500
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 0.0001755493522675115,
+      "loss": 0.2739,
+      "step": 241000
+    },
+    {
+      "epoch": 5.62,
+      "eval_loss": 0.2584410309791565,
+      "eval_runtime": 1.4562,
+      "eval_samples_per_second": 1509.435,
+      "eval_steps_per_second": 24.036,
+      "step": 241000
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 0.00017507457426070317,
+      "loss": 0.2737,
+      "step": 241500
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 0.00017459957672156704,
+      "loss": 0.2738,
+      "step": 242000
+    },
+    {
+      "epoch": 5.64,
+      "eval_loss": 0.2564358711242676,
+      "eval_runtime": 1.4454,
+      "eval_samples_per_second": 1520.687,
+      "eval_steps_per_second": 24.215,
+      "step": 242000
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 0.00017412436484459998,
+      "loss": 0.2746,
+      "step": 242500
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 0.00017364894382664297,
+      "loss": 0.2737,
+      "step": 243000
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 0.25592368841171265,
+      "eval_runtime": 1.453,
+      "eval_samples_per_second": 1512.695,
+      "eval_steps_per_second": 24.087,
+      "step": 243000
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 0.00017317331886682408,
+      "loss": 0.2735,
+      "step": 243500
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.0001726974951665017,
+      "loss": 0.2732,
+      "step": 244000
+    },
+    {
+      "epoch": 5.69,
+      "eval_loss": 0.25524938106536865,
+      "eval_runtime": 1.4633,
+      "eval_samples_per_second": 1502.063,
+      "eval_steps_per_second": 23.918,
+      "step": 244000
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.0001722214779292076,
+      "loss": 0.2731,
+      "step": 244500
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 0.00017174527236058998,
+      "loss": 0.2733,
+      "step": 245000
+    },
+    {
+      "epoch": 5.71,
+      "eval_loss": 0.25596246123313904,
+      "eval_runtime": 1.4704,
+      "eval_samples_per_second": 1494.824,
+      "eval_steps_per_second": 23.803,
+      "step": 245000
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 0.00017126888366835662,
+      "loss": 0.2737,
+      "step": 245500
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 0.000170792317062218,
+      "loss": 0.2733,
+      "step": 246000
+    },
+    {
+      "epoch": 5.73,
+      "eval_loss": 0.255545437335968,
+      "eval_runtime": 1.4656,
+      "eval_samples_per_second": 1499.768,
+      "eval_steps_per_second": 23.882,
+      "step": 246000
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 0.00017031557775383011,
+      "loss": 0.2729,
+      "step": 246500
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.0001698386709567377,
+      "loss": 0.2732,
+      "step": 247000
+    },
+    {
+      "epoch": 5.76,
+      "eval_loss": 0.2539271414279938,
+      "eval_runtime": 1.4492,
+      "eval_samples_per_second": 1516.729,
+      "eval_steps_per_second": 24.152,
+      "step": 247000
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 0.0001693616018863171,
+      "loss": 0.273,
+      "step": 247500
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 0.00016888437575971913,
+      "loss": 0.2732,
+      "step": 248000
+    },
+    {
+      "epoch": 5.78,
+      "eval_loss": 0.2551625669002533,
+      "eval_runtime": 1.4356,
+      "eval_samples_per_second": 1531.074,
+      "eval_steps_per_second": 24.38,
+      "step": 248000
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 0.00016840699779581238,
+      "loss": 0.2734,
+      "step": 248500
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 0.00016792947321512573,
+      "loss": 0.2729,
+      "step": 249000
+    },
+    {
+      "epoch": 5.8,
+      "eval_loss": 0.25349161028862,
+      "eval_runtime": 1.4447,
+      "eval_samples_per_second": 1521.428,
+      "eval_steps_per_second": 24.227,
+      "step": 249000
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 0.00016745180723979144,
+      "loss": 0.2731,
+      "step": 249500
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.00016697400509348818,
+      "loss": 0.2728,
+      "step": 250000
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.25426918268203735,
+      "eval_runtime": 1.4253,
+      "eval_samples_per_second": 1542.185,
+      "eval_steps_per_second": 24.557,
+      "step": 250000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 7.987165984407966e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58d9a817ebedb7184a71cca1a13709576b2d1a51f03c46a318ad05be242513b5
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:da2ade6d09e2d53692039b0c86af61bee174f1818f4f81e3d0671d8e99591ab1
 size 102501541