Training in progress, step 230000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a4927510127367e9500a6855c39ccf67e69ae9696103dd6206ca76c8228c9e7
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:133edef03c1d84d7f47c379bb8627e715102779ac7fbfbbc81cf76fdb3857138
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb407692499c91ceb95468636179875a29017b0607fee237df69b7c6f035183b
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef3e57cb5c11d79b27478df38200399f2d7e69d1e9da7282bcbb17ee802e3b1d
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2409314cc97cd170cf372a0918ec1a71b59dc692c1f5814e6639647692d18c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04cad25c1edacc0a2853d5253114151a48b6b991129f2e052e17228b772e940
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a05d01a7b2f868e6f0e645a01ef2a1ba3ad5ea16b1bff8e9cf0cf653b106d64f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a2bb37359d05bc7917d91ab1261ba8c4d8f00648cd8cb2d11c677b6c91ddb27
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.125934900626762,
-  "global_step": 220000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4406,11 +4406,211 @@
       "eval_samples_per_second": 1551.973,
       "eval_steps_per_second": 24.713,
       "step": 220000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 7.028704568084466e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.358931941564342,
+  "global_step": 230000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1551.973,
       "eval_steps_per_second": 24.713,
       "step": 220000
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.00019476251528202922,
+      "loss": 0.2773,
+      "step": 220500
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 0.0001943011739570944,
+      "loss": 0.2763,
+      "step": 221000
+    },
+    {
+      "epoch": 5.15,
+      "eval_loss": 0.26054272055625916,
+      "eval_runtime": 1.4233,
+      "eval_samples_per_second": 1544.255,
+      "eval_steps_per_second": 24.59,
+      "step": 221000
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 0.00019383940284081774,
+      "loss": 0.2766,
+      "step": 221500
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 0.00019337720698305431,
+      "loss": 0.2766,
+      "step": 222000
+    },
+    {
+      "epoch": 5.17,
+      "eval_loss": 0.25992023944854736,
+      "eval_runtime": 1.4053,
+      "eval_samples_per_second": 1564.073,
+      "eval_steps_per_second": 24.906,
+      "step": 222000
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 0.0001929145914383038,
+      "loss": 0.2763,
+      "step": 222500
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.00019245156126565586,
+      "loss": 0.2763,
+      "step": 223000
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 0.2582224905490875,
+      "eval_runtime": 1.4422,
+      "eval_samples_per_second": 1524.087,
+      "eval_steps_per_second": 24.269,
+      "step": 223000
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 0.00019198812152873416,
+      "loss": 0.2762,
+      "step": 223500
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.00019152427729564144,
+      "loss": 0.2764,
+      "step": 224000
+    },
+    {
+      "epoch": 5.22,
+      "eval_loss": 0.26058298349380493,
+      "eval_runtime": 1.4571,
+      "eval_samples_per_second": 1508.477,
+      "eval_steps_per_second": 24.02,
+      "step": 224000
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 0.00019106003363890395,
+      "loss": 0.2761,
+      "step": 224500
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 0.00019059539563541584,
+      "loss": 0.276,
+      "step": 225000
+    },
+    {
+      "epoch": 5.24,
+      "eval_loss": 0.25854378938674927,
+      "eval_runtime": 1.4732,
+      "eval_samples_per_second": 1491.985,
+      "eval_steps_per_second": 23.758,
+      "step": 225000
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.000190130368366384,
+      "loss": 0.2761,
+      "step": 225500
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 0.00018966495691727207,
+      "loss": 0.2758,
+      "step": 226000
+    },
+    {
+      "epoch": 5.27,
+      "eval_loss": 0.26082664728164673,
+      "eval_runtime": 1.3852,
+      "eval_samples_per_second": 1586.815,
+      "eval_steps_per_second": 25.268,
+      "step": 226000
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 0.0001891991663777451,
+      "loss": 0.2759,
+      "step": 226500
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.00018873300184161387,
+      "loss": 0.2761,
+      "step": 227000
+    },
+    {
+      "epoch": 5.29,
+      "eval_loss": 0.2606270909309387,
+      "eval_runtime": 1.4133,
+      "eval_samples_per_second": 1555.208,
+      "eval_steps_per_second": 24.764,
+      "step": 227000
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 0.00018826646840677894,
+      "loss": 0.2764,
+      "step": 227500
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 0.00018779957117517532,
+      "loss": 0.2759,
+      "step": 228000
+    },
+    {
+      "epoch": 5.31,
+      "eval_loss": 0.25820019841194153,
+      "eval_runtime": 1.4725,
+      "eval_samples_per_second": 1492.708,
+      "eval_steps_per_second": 23.769,
+      "step": 228000
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.00018733231525271625,
+      "loss": 0.2754,
+      "step": 228500
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 0.00018686470574923766,
+      "loss": 0.2754,
+      "step": 229000
+    },
+    {
+      "epoch": 5.34,
+      "eval_loss": 0.25702887773513794,
+      "eval_runtime": 1.4623,
+      "eval_samples_per_second": 1503.12,
+      "eval_steps_per_second": 23.935,
+      "step": 229000
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 0.00018639674777844224,
+      "loss": 0.2754,
+      "step": 229500
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 0.00018592844645784327,
+      "loss": 0.2753,
+      "step": 230000
+    },
+    {
+      "epoch": 5.36,
+      "eval_loss": 0.25963670015335083,
+      "eval_runtime": 1.4406,
+      "eval_samples_per_second": 1525.752,
+      "eval_steps_per_second": 24.295,
+      "step": 230000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 7.348191706858966e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb407692499c91ceb95468636179875a29017b0607fee237df69b7c6f035183b
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef3e57cb5c11d79b27478df38200399f2d7e69d1e9da7282bcbb17ee802e3b1d
 size 102501541