Training in progress, step 120000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d58137113791019cd3d543973897cce79aa9a3f674e715923996321558c96b13
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:3290fe37a91479d6ab7f5943f720695a90f016b8ef2878f4eacc19dec412ccde
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f59c2ef88b3bc3cd7bdeb23ee182242569e553f7337d36848967067fc05c479
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:2afb485a315cb6d1cbb995c2e4e8a5bda0967bae5d1ca0bd5b33331f6f3244fc
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247f1776d14aa6bf405e1cbe9b3a20de5077a4212ea5f0a4e1ce51dbf43de0f2
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cf719b3415ea1dec9edabeceb77eb2a8f1be572542366e9bda15c1bceda980
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a36392859753540b5ff28a6690e0fb35c1157de322529d1ae210898db91ddda7
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ddf5c33f60196860027b40e8443017b8ed479cc5dfb73f8a076fe07f546fd4
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.562967450313381,
-  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2206,11 +2206,211 @@
       "eval_samples_per_second": 1534.54,
       "eval_steps_per_second": 24.435,
       "step": 110000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 3.5143535325376865e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.7959644912509614,
+  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1534.54,
       "eval_steps_per_second": 24.435,
       "step": 110000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0002774275491977922,
+      "loss": 0.2993,
+      "step": 110500
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0002771699479464853,
+      "loss": 0.2991,
+      "step": 111000
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 0.28305351734161377,
+      "eval_runtime": 1.4425,
+      "eval_samples_per_second": 1523.692,
+      "eval_steps_per_second": 24.263,
+      "step": 111000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00027691101066420104,
+      "loss": 0.2993,
+      "step": 111500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0002766507401826361,
+      "loss": 0.2987,
+      "step": 112000
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.2818717956542969,
+      "eval_runtime": 1.4177,
+      "eval_samples_per_second": 1550.356,
+      "eval_steps_per_second": 24.687,
+      "step": 112000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0002763891393480666,
+      "loss": 0.2989,
+      "step": 112500
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0002761262110213175,
+      "loss": 0.2985,
+      "step": 113000
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.283016562461853,
+      "eval_runtime": 1.4225,
+      "eval_samples_per_second": 1545.128,
+      "eval_steps_per_second": 24.604,
+      "step": 113000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00027586195807773083,
+      "loss": 0.2989,
+      "step": 113500
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.00027559638340713435,
+      "loss": 0.2981,
+      "step": 114000
+    },
+    {
+      "epoch": 2.66,
+      "eval_loss": 0.2824258804321289,
+      "eval_runtime": 1.412,
+      "eval_samples_per_second": 1556.637,
+      "eval_steps_per_second": 24.787,
+      "step": 114000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00027532948991381025,
+      "loss": 0.2976,
+      "step": 114500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00027506128051646287,
+      "loss": 0.2978,
+      "step": 115000
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 0.2790142595767975,
+      "eval_runtime": 1.436,
+      "eval_samples_per_second": 1530.608,
+      "eval_steps_per_second": 24.373,
+      "step": 115000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00027479175814818733,
+      "loss": 0.2982,
+      "step": 115500
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.000274520925756437,
+      "loss": 0.2973,
+      "step": 116000
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.27925553917884827,
+      "eval_runtime": 1.4557,
+      "eval_samples_per_second": 1509.89,
+      "eval_steps_per_second": 24.043,
+      "step": 116000
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00027424878630299157,
+      "loss": 0.2971,
+      "step": 116500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0002739753427639244,
+      "loss": 0.2977,
+      "step": 117000
+    },
+    {
+      "epoch": 2.73,
+      "eval_loss": 0.2807333171367645,
+      "eval_runtime": 1.4375,
+      "eval_samples_per_second": 1529.048,
+      "eval_steps_per_second": 24.348,
+      "step": 117000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0002737005981295704,
+      "loss": 0.2973,
+      "step": 117500
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0002734245554044927,
+      "loss": 0.2969,
+      "step": 118000
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 0.28166475892066956,
+      "eval_runtime": 1.4453,
+      "eval_samples_per_second": 1520.838,
+      "eval_steps_per_second": 24.217,
+      "step": 118000
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0002731472176074504,
+      "loss": 0.2967,
+      "step": 118500
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0002728685877713653,
+      "loss": 0.2967,
+      "step": 119000
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.2808319330215454,
+      "eval_runtime": 1.4174,
+      "eval_samples_per_second": 1550.705,
+      "eval_steps_per_second": 24.693,
+      "step": 119000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.0002725886689432884,
+      "loss": 0.2965,
+      "step": 119500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0002723074641843674,
+      "loss": 0.2965,
+      "step": 120000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.27865585684776306,
+      "eval_runtime": 1.4415,
+      "eval_samples_per_second": 1524.849,
+      "eval_steps_per_second": 24.281,
+      "step": 120000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 3.8338406713121864e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f59c2ef88b3bc3cd7bdeb23ee182242569e553f7337d36848967067fc05c479
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:2afb485a315cb6d1cbb995c2e4e8a5bda0967bae5d1ca0bd5b33331f6f3244fc
 size 102501541