Training in progress, step 180000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc237dbddbbf9460161ce6eb75bbbd2e7ecdff21b202e0e7a13cc25fb9c09b56
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:72fccb2bc18a6b159ce0129ed7e56c6ec84f09bd6759b50adbd1ce42f25059da
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cfb247d98c5022356a7b59a271aff04531b844ba1be46c0e78cb0cfe119fbac
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d0c936b0035a44830654c5c990550fb3b911629a82f5429aa175fe0903f7544
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5acce959199fb05e4e1101efd27f7a7ab8e3aea0ddea43b3703666db4d3d6f88
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6620b407ca253e6b33b3a54e07067b9eda93cb36acf8dae1a1425f5a72f25010
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd2861f0d820018c213fdc57cc6eebc5c8df9d5485c4072b9ac9a4ac6f902e69
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a265c146087c7b525f93e19ac9e51ad44bfb6af09ebd3ea4e38ee99de52c725
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9609496959388615,
-  "global_step": 170000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3406,11 +3406,211 @@
       "eval_samples_per_second": 1540.527,
       "eval_steps_per_second": 24.531,
       "step": 170000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 5.43127386819378e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.193946736876442,
+  "global_step": 180000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1540.527,
       "eval_steps_per_second": 24.531,
       "step": 170000
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 0.0002378846657362306,
+      "loss": 0.285,
+      "step": 170500
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.00023749076897000928,
+      "loss": 0.2858,
+      "step": 171000
+    },
+    {
+      "epoch": 3.98,
+      "eval_loss": 0.26628705859184265,
+      "eval_runtime": 1.4334,
+      "eval_samples_per_second": 1533.445,
+      "eval_steps_per_second": 24.418,
+      "step": 171000
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.00023709597009795465,
+      "loss": 0.2847,
+      "step": 171500
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.000236700273437524,
+      "loss": 0.2846,
+      "step": 172000
+    },
+    {
+      "epoch": 4.01,
+      "eval_loss": 0.2714168429374695,
+      "eval_runtime": 1.439,
+      "eval_samples_per_second": 1527.408,
+      "eval_steps_per_second": 24.322,
+      "step": 172000
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 0.0002363036833159925,
+      "loss": 0.2843,
+      "step": 172500
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.00023590620407040633,
+      "loss": 0.2846,
+      "step": 173000
+    },
+    {
+      "epoch": 4.03,
+      "eval_loss": 0.2668880820274353,
+      "eval_runtime": 1.4491,
+      "eval_samples_per_second": 1516.791,
+      "eval_steps_per_second": 24.153,
+      "step": 173000
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.00023550784004753471,
+      "loss": 0.2843,
+      "step": 173500
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 0.0002351085956038229,
+      "loss": 0.2844,
+      "step": 174000
+    },
+    {
+      "epoch": 4.05,
+      "eval_loss": 0.2690703272819519,
+      "eval_runtime": 1.4333,
+      "eval_samples_per_second": 1533.56,
+      "eval_steps_per_second": 24.42,
+      "step": 174000
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 0.00023470847510534407,
+      "loss": 0.2837,
+      "step": 174500
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.00023430748292775188,
+      "loss": 0.2839,
+      "step": 175000
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.2685079574584961,
+      "eval_runtime": 1.4345,
+      "eval_samples_per_second": 1532.24,
+      "eval_steps_per_second": 24.399,
+      "step": 175000
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.0002339056234562326,
+      "loss": 0.2842,
+      "step": 175500
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 0.00023350290108545694,
+      "loss": 0.284,
+      "step": 176000
+    },
+    {
+      "epoch": 4.1,
+      "eval_loss": 0.26691344380378723,
+      "eval_runtime": 1.4222,
+      "eval_samples_per_second": 1545.466,
+      "eval_steps_per_second": 24.609,
+      "step": 176000
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 0.00023309932021953238,
+      "loss": 0.2837,
+      "step": 176500
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 0.00023269488527195446,
+      "loss": 0.2835,
+      "step": 177000
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 0.2659927308559418,
+      "eval_runtime": 1.4298,
+      "eval_samples_per_second": 1537.321,
+      "eval_steps_per_second": 24.48,
+      "step": 177000
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 0.00023228960066555907,
+      "loss": 0.2834,
+      "step": 177500
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 0.00023188347083247365,
+      "loss": 0.2833,
+      "step": 178000
+    },
+    {
+      "epoch": 4.15,
+      "eval_loss": 0.2681402266025543,
+      "eval_runtime": 1.4006,
+      "eval_samples_per_second": 1569.372,
+      "eval_steps_per_second": 24.99,
+      "step": 178000
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 0.00023147650021406905,
+      "loss": 0.2834,
+      "step": 178500
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 0.00023106869326091075,
+      "loss": 0.2833,
+      "step": 179000
+    },
+    {
+      "epoch": 4.17,
+      "eval_loss": 0.2678356468677521,
+      "eval_runtime": 1.4225,
+      "eval_samples_per_second": 1545.199,
+      "eval_steps_per_second": 24.605,
+      "step": 179000
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 0.00023066005443271017,
+      "loss": 0.2838,
+      "step": 179500
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 0.00023025058819827618,
+      "loss": 0.2839,
+      "step": 180000
+    },
+    {
+      "epoch": 4.19,
+      "eval_loss": 0.2670538127422333,
+      "eval_runtime": 1.4128,
+      "eval_samples_per_second": 1555.751,
+      "eval_steps_per_second": 24.773,
+      "step": 180000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 5.750758509977373e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cfb247d98c5022356a7b59a271aff04531b844ba1be46c0e78cb0cfe119fbac
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d0c936b0035a44830654c5c990550fb3b911629a82f5429aa175fe0903f7544
 size 102501541