Training in progress, epoch 2, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +11 -7
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -2

last-checkpoint/README.md CHANGED Viewed

@@ -544,13 +544,17 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch | Step | Training Loss | qnli-contrastive loss | nli-pairs loss |
-|:-----:|:----:|:-------------:|:---------------------:|:--------------:|
-| None  | 0    | -             | 6.0041                | 4.0946         |
-| 0.25  | 116  | 4.9013        | 5.9679                | 4.0430         |
-| 0.5   | 232  | 4.6399        | 5.5328                | 3.8479         |
-| 0.75  | 348  | 4.4683        | 4.2996                | 3.6937         |
-| 1.0   | 464  | 3.8129        | 2.8062                | 3.4773         |
 ### Framework Versions

 </details>
 ### Training Logs
+| Epoch  | Step | Training Loss | qnli-contrastive loss | nli-pairs loss |
+|:------:|:----:|:-------------:|:---------------------:|:--------------:|
+| None   | 0    | -             | 6.0041                | 4.0946         |
+| 0.25   | 116  | 4.9013        | 5.9679                | 4.0430         |
+| 0.5    | 232  | 4.6399        | 5.5328                | 3.8479         |
+| 0.75   | 348  | 4.4683        | 4.2996                | 3.6937         |
+| 1.0    | 464  | 3.8129        | 2.8062                | 3.4773         |
+| 1.2457 | 580  | 3.3971        | 1.8330                | 3.1263         |
+| 1.4957 | 696  | 2.7459        | 1.2780                | 2.7294         |
+| 1.7457 | 812  | 2.8721        | 0.9296                | 2.2870         |
+| 1.9957 | 928  | 2.5066        | 0.6388                | 2.0548         |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1b597b0fc92d0b9e12711e77db2df5632db8e4f99e0202c6efc3f014202be84
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ce17548dc0abcf43ff57926fe223e86ff953c3d04d1b482e8a25b8f6b14c059
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff91915fd0ee36e4ba9d9d6ade05a5ea022b50bbe2d87122a050772b8597fe4a
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:f543b7b25e08dea4691b71c82b05f600955db6b8e954eade9d601f8b183156f1
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a13f8f4ac4f71c8ac2411ec94584dffb535fff26a37d3787d5685cd9e588b3b4
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d13ecf4cf92281b9f41455432b2500dd25c260a5d0ae61639997c1a731a76a0
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43709499a8cea7d53df5052d159d8c3a24f835a2f5af6141080ad335219b234b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7a1b39f4627d13e5c5634857f196a756ce6ec36192b7bfb79cff9c42c9aa243
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0043103448275863,
   "eval_steps": 116,
-  "global_step": 466,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -99,6 +99,98 @@
       "eval_qnli-contrastive_samples_per_second": 1397.948,
       "eval_qnli-contrastive_steps_per_second": 87.372,
       "step": 464
     }
   ],
   "logging_steps": 116,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0043103448275863,
   "eval_steps": 116,
+  "global_step": 932,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_qnli-contrastive_samples_per_second": 1397.948,
       "eval_qnli-contrastive_steps_per_second": 87.372,
       "step": 464
+    },
+    {
+      "epoch": 1.2456896551724137,
+      "grad_norm": 98.47541046142578,
+      "learning_rate": 2.251958224543081e-06,
+      "loss": 3.3971,
+      "step": 580
+    },
+    {
+      "epoch": 1.2456896551724137,
+      "eval_nli-pairs_loss": 3.126293182373047,
+      "eval_nli-pairs_runtime": 1.3419,
+      "eval_nli-pairs_samples_per_second": 1490.389,
+      "eval_nli-pairs_steps_per_second": 93.149,
+      "step": 580
+    },
+    {
+      "epoch": 1.2456896551724137,
+      "eval_qnli-contrastive_loss": 1.8329846858978271,
+      "eval_qnli-contrastive_runtime": 1.5173,
+      "eval_qnli-contrastive_samples_per_second": 1318.109,
+      "eval_qnli-contrastive_steps_per_second": 82.382,
+      "step": 580
+    },
+    {
+      "epoch": 1.4956896551724137,
+      "grad_norm": 16.574974060058594,
+      "learning_rate": 2.706266318537859e-06,
+      "loss": 2.7459,
+      "step": 696
+    },
+    {
+      "epoch": 1.4956896551724137,
+      "eval_nli-pairs_loss": 2.72936749458313,
+      "eval_nli-pairs_runtime": 1.3359,
+      "eval_nli-pairs_samples_per_second": 1497.081,
+      "eval_nli-pairs_steps_per_second": 93.568,
+      "step": 696
+    },
+    {
+      "epoch": 1.4956896551724137,
+      "eval_qnli-contrastive_loss": 1.2779531478881836,
+      "eval_qnli-contrastive_runtime": 1.4644,
+      "eval_qnli-contrastive_samples_per_second": 1365.702,
+      "eval_qnli-contrastive_steps_per_second": 85.356,
+      "step": 696
+    },
+    {
+      "epoch": 1.7456896551724137,
+      "grad_norm": 201.21456909179688,
+      "learning_rate": 2.9950983500630964e-06,
+      "loss": 2.8721,
+      "step": 812
+    },
+    {
+      "epoch": 1.7456896551724137,
+      "eval_nli-pairs_loss": 2.2870194911956787,
+      "eval_nli-pairs_runtime": 1.3503,
+      "eval_nli-pairs_samples_per_second": 1481.188,
+      "eval_nli-pairs_steps_per_second": 92.574,
+      "step": 812
+    },
+    {
+      "epoch": 1.7456896551724137,
+      "eval_qnli-contrastive_loss": 0.9296175837516785,
+      "eval_qnli-contrastive_runtime": 1.4485,
+      "eval_qnli-contrastive_samples_per_second": 1380.738,
+      "eval_qnli-contrastive_steps_per_second": 86.296,
+      "step": 812
+    },
+    {
+      "epoch": 1.9956896551724137,
+      "grad_norm": 12.68950366973877,
+      "learning_rate": 2.9260214825373185e-06,
+      "loss": 2.5066,
+      "step": 928
+    },
+    {
+      "epoch": 1.9956896551724137,
+      "eval_nli-pairs_loss": 2.0547828674316406,
+      "eval_nli-pairs_runtime": 1.2929,
+      "eval_nli-pairs_samples_per_second": 1546.937,
+      "eval_nli-pairs_steps_per_second": 96.684,
+      "step": 928
+    },
+    {
+      "epoch": 1.9956896551724137,
+      "eval_qnli-contrastive_loss": 0.6387521028518677,
+      "eval_qnli-contrastive_runtime": 1.4598,
+      "eval_qnli-contrastive_samples_per_second": 1370.032,
+      "eval_qnli-contrastive_steps_per_second": 85.627,
+      "step": 928
     }
   ],
   "logging_steps": 116,