Training in progress, epoch 3, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +4 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -2

last-checkpoint/README.md CHANGED Viewed

@@ -555,6 +555,10 @@ You can finetune this model on your own dataset.
 | 1.4957 | 696  | 2.7459        | 1.2780                | 2.7294         |
 | 1.7457 | 812  | 2.8721        | 0.9296                | 2.2870         |
 | 1.9957 | 928  | 2.5066        | 0.6388                | 2.0548         |
 ### Framework Versions

 | 1.4957 | 696  | 2.7459        | 1.2780                | 2.7294         |
 | 1.7457 | 812  | 2.8721        | 0.9296                | 2.2870         |
 | 1.9957 | 928  | 2.5066        | 0.6388                | 2.0548         |
+| 2.2414 | 1044 | 2.3223        | 0.5312                | 1.8876         |
+| 2.4914 | 1160 | 2.1771        | 0.4300                | 1.7922         |
+| 2.7414 | 1276 | 2.2549        | 0.3610                | 1.6473         |
+| 2.9914 | 1392 | 2.2168        | 0.2929                | 1.5590         |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ce17548dc0abcf43ff57926fe223e86ff953c3d04d1b482e8a25b8f6b14c059
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecb04608c64b22d6262681835d6c550177e812632d19e8bed563d46fd84e0e69
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f543b7b25e08dea4691b71c82b05f600955db6b8e954eade9d601f8b183156f1
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3ad09b012913d64a2d27765f2b0342e4a0f1edd69a6c8ffd7a83dcee57b952e
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d13ecf4cf92281b9f41455432b2500dd25c260a5d0ae61639997c1a731a76a0
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:89d0bf755340af85865c74eb993cae626d4eb319120da8fd389f3930be54bbea
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7a1b39f4627d13e5c5634857f196a756ce6ec36192b7bfb79cff9c42c9aa243
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e270a9661cb837eaec0b7e50a864e82bdf74fee38281b90e4447c6c11c7af62d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0043103448275863,
   "eval_steps": 116,
-  "global_step": 932,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -191,6 +191,98 @@
       "eval_qnli-contrastive_samples_per_second": 1370.032,
       "eval_qnli-contrastive_steps_per_second": 85.627,
       "step": 928
     }
   ],
   "logging_steps": 116,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0043103448275863,
   "eval_steps": 116,
+  "global_step": 1398,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_qnli-contrastive_samples_per_second": 1370.032,
       "eval_qnli-contrastive_steps_per_second": 85.627,
       "step": 928
+    },
+    {
+      "epoch": 2.2413793103448274,
+      "grad_norm": 12.477553367614746,
+      "learning_rate": 2.7788810181030676e-06,
+      "loss": 2.3223,
+      "step": 1044
+    },
+    {
+      "epoch": 2.2413793103448274,
+      "eval_nli-pairs_loss": 1.8876054286956787,
+      "eval_nli-pairs_runtime": 1.4105,
+      "eval_nli-pairs_samples_per_second": 1417.897,
+      "eval_nli-pairs_steps_per_second": 88.619,
+      "step": 1044
+    },
+    {
+      "epoch": 2.2413793103448274,
+      "eval_qnli-contrastive_loss": 0.5312397480010986,
+      "eval_qnli-contrastive_runtime": 1.4798,
+      "eval_qnli-contrastive_samples_per_second": 1351.505,
+      "eval_qnli-contrastive_steps_per_second": 84.469,
+      "step": 1044
+    },
+    {
+      "epoch": 2.4913793103448274,
+      "grad_norm": 7.06378173828125,
+      "learning_rate": 2.5617317540023054e-06,
+      "loss": 2.1771,
+      "step": 1160
+    },
+    {
+      "epoch": 2.4913793103448274,
+      "eval_nli-pairs_loss": 1.7922124862670898,
+      "eval_nli-pairs_runtime": 1.392,
+      "eval_nli-pairs_samples_per_second": 1436.768,
+      "eval_nli-pairs_steps_per_second": 89.798,
+      "step": 1160
+    },
+    {
+      "epoch": 2.4913793103448274,
+      "eval_qnli-contrastive_loss": 0.4299691915512085,
+      "eval_qnli-contrastive_runtime": 1.4683,
+      "eval_qnli-contrastive_samples_per_second": 1362.111,
+      "eval_qnli-contrastive_steps_per_second": 85.132,
+      "step": 1160
+    },
+    {
+      "epoch": 2.7413793103448274,
+      "grad_norm": 11.377643585205078,
+      "learning_rate": 2.286460925335848e-06,
+      "loss": 2.2549,
+      "step": 1276
+    },
+    {
+      "epoch": 2.7413793103448274,
+      "eval_nli-pairs_loss": 1.647322177886963,
+      "eval_nli-pairs_runtime": 1.3347,
+      "eval_nli-pairs_samples_per_second": 1498.487,
+      "eval_nli-pairs_steps_per_second": 93.655,
+      "step": 1276
+    },
+    {
+      "epoch": 2.7413793103448274,
+      "eval_qnli-contrastive_loss": 0.36095327138900757,
+      "eval_qnli-contrastive_runtime": 1.5309,
+      "eval_qnli-contrastive_samples_per_second": 1306.387,
+      "eval_qnli-contrastive_steps_per_second": 81.649,
+      "step": 1276
+    },
+    {
+      "epoch": 2.9913793103448274,
+      "grad_norm": 8.12272834777832,
+      "learning_rate": 1.968137471297685e-06,
+      "loss": 2.2168,
+      "step": 1392
+    },
+    {
+      "epoch": 2.9913793103448274,
+      "eval_nli-pairs_loss": 1.5589631795883179,
+      "eval_nli-pairs_runtime": 1.2874,
+      "eval_nli-pairs_samples_per_second": 1553.463,
+      "eval_nli-pairs_steps_per_second": 97.091,
+      "step": 1392
+    },
+    {
+      "epoch": 2.9913793103448274,
+      "eval_qnli-contrastive_loss": 0.2929060459136963,
+      "eval_qnli-contrastive_runtime": 1.4489,
+      "eval_qnli-contrastive_samples_per_second": 1380.312,
+      "eval_qnli-contrastive_steps_per_second": 86.269,
+      "step": 1392
     }
   ],
   "logging_steps": 116,