Training in progress, epoch 2, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +22 -12
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/README.md CHANGED Viewed

@@ -538,18 +538,28 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch  | Step | Training Loss | qnli-contrastive loss | nli-pairs loss |
-|:------:|:----:|:-------------:|:---------------------:|:--------------:|
-| None   | 0    | -             | 20.1737               | 4.0959         |
-| 0.1001 | 734  | 4.796         | -                     | -              |
-| 0.2001 | 1468 | 1.3015        | 0.0358                | 0.9115         |
-| 0.3002 | 2202 | 0.89          | -                     | -              |
-| 0.4002 | 2936 | 0.716         | 0.0168                | 0.5944         |
-| 0.5003 | 3670 | 0.6365        | -                     | -              |
-| 0.6003 | 4404 | 0.5883        | 0.0164                | 0.4975         |
-| 0.7004 | 5138 | 0.5192        | -                     | -              |
-| 0.8004 | 5872 | 0.4961        | 0.0288                | 0.4450         |
-| 0.9005 | 6606 | 0.6035        | -                     | -              |
 ### Framework Versions

 </details>
 ### Training Logs
+| Epoch  | Step  | Training Loss | qnli-contrastive loss | nli-pairs loss |
+|:------:|:-----:|:-------------:|:---------------------:|:--------------:|
+| None   | 0     | -             | 20.1737               | 4.0959         |
+| 0.1001 | 734   | 4.796         | -                     | -              |
+| 0.2001 | 1468  | 1.3015        | 0.0358                | 0.9115         |
+| 0.3002 | 2202  | 0.89          | -                     | -              |
+| 0.4002 | 2936  | 0.716         | 0.0168                | 0.5944         |
+| 0.5003 | 3670  | 0.6365        | -                     | -              |
+| 0.6003 | 4404  | 0.5883        | 0.0164                | 0.4975         |
+| 0.7004 | 5138  | 0.5192        | -                     | -              |
+| 0.8004 | 5872  | 0.4961        | 0.0288                | 0.4450         |
+| 0.9005 | 6606  | 0.6035        | -                     | -              |
+| 1.0005 | 7340  | 0.4733        | 0.0110                | 0.4215         |
+| 1.1006 | 8074  | 0.4002        | -                     | -              |
+| 1.2007 | 8808  | 0.3929        | 0.0454                | 0.3796         |
+| 1.3007 | 9542  | 0.3826        | -                     | -              |
+| 1.4008 | 10276 | 0.3522        | 0.0178                | 0.3714         |
+| 1.5008 | 11010 | 0.3627        | -                     | -              |
+| 1.6009 | 11744 | 0.3553        | 0.0257                | 0.3629         |
+| 1.7009 | 12478 | 0.3406        | -                     | -              |
+| 1.8010 | 13212 | 0.3288        | 0.0289                | 0.3575         |
+| 1.9010 | 13946 | 0.4563        | -                     | -              |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a749be1ff609ad2bded40d5b2fb1132d3d648b50ef1b7246d14619faa8c58f8
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:197eac8569a220596590c77575fe0e465e399356472710a19ab8e45585b2ae6e
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b7a78caf0b7de88dddf8c331c22dc8a0c8a8173693518132a3c2bc00703c2dc
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6b8f13689928c18ece3856866a5eabeea8661d8106e9cb8141da0943dbf28da
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdc73eeb20f0bc899b26bfb3842397bedfaaf0599682feea9dcc50aa3a5f6766
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd3ebef39758a414d139f600ddff7baf9e47748f2ea2a2338f7aed637daeb655
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c524663492ab13642dabc57fe5921f5cabb07eb2dedd76a5d83a640195afeb24
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4125f2e2f1951242b702b885a9e93bcaa6d5f26d6f59d55fecae3d75e9474f60
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 1468,
-  "global_step": 7336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -134,6 +134,156 @@
       "learning_rate": 1.8462745233342613e-05,
       "loss": 0.6035,
       "step": 6606
     }
   ],
   "logging_steps": 734,
@@ -148,7 +298,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 1468,
+  "global_step": 14672,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.8462745233342613e-05,
       "loss": 0.6035,
       "step": 6606
+    },
+    {
+      "epoch": 1.000545256270447,
+      "grad_norm": 3.743481397628784,
+      "learning_rate": 1.699267443860664e-05,
+      "loss": 0.4733,
+      "step": 7340
+    },
+    {
+      "epoch": 1.000545256270447,
+      "eval_nli-pairs_loss": 0.4215342402458191,
+      "eval_nli-pairs_runtime": 3.6783,
+      "eval_nli-pairs_samples_per_second": 1850.875,
+      "eval_nli-pairs_steps_per_second": 57.908,
+      "step": 7340
+    },
+    {
+      "epoch": 1.000545256270447,
+      "eval_qnli-contrastive_loss": 0.01100869383662939,
+      "eval_qnli-contrastive_runtime": 3.639,
+      "eval_qnli-contrastive_samples_per_second": 1501.242,
+      "eval_qnli-contrastive_steps_per_second": 46.991,
+      "step": 7340
+    },
+    {
+      "epoch": 1.1005997818974917,
+      "grad_norm": 0.39953914284706116,
+      "learning_rate": 1.513957108680355e-05,
+      "loss": 0.4002,
+      "step": 8074
+    },
+    {
+      "epoch": 1.2006543075245366,
+      "grad_norm": 2.542104482650757,
+      "learning_rate": 1.3004941249978107e-05,
+      "loss": 0.3929,
+      "step": 8808
+    },
+    {
+      "epoch": 1.2006543075245366,
+      "eval_nli-pairs_loss": 0.37960606813430786,
+      "eval_nli-pairs_runtime": 3.5792,
+      "eval_nli-pairs_samples_per_second": 1902.102,
+      "eval_nli-pairs_steps_per_second": 59.511,
+      "step": 8808
+    },
+    {
+      "epoch": 1.2006543075245366,
+      "eval_qnli-contrastive_loss": 0.04537490755319595,
+      "eval_qnli-contrastive_runtime": 3.371,
+      "eval_qnli-contrastive_samples_per_second": 1620.568,
+      "eval_qnli-contrastive_steps_per_second": 50.726,
+      "step": 8808
+    },
+    {
+      "epoch": 1.3007088331515813,
+      "grad_norm": 2.3156607151031494,
+      "learning_rate": 1.0705711968273469e-05,
+      "loss": 0.3826,
+      "step": 9542
+    },
+    {
+      "epoch": 1.400763358778626,
+      "grad_norm": 3.3540971279144287,
+      "learning_rate": 8.370979573663896e-06,
+      "loss": 0.3522,
+      "step": 10276
+    },
+    {
+      "epoch": 1.400763358778626,
+      "eval_nli-pairs_loss": 0.3714284896850586,
+      "eval_nli-pairs_runtime": 3.5826,
+      "eval_nli-pairs_samples_per_second": 1900.32,
+      "eval_nli-pairs_steps_per_second": 59.455,
+      "step": 10276
+    },
+    {
+      "epoch": 1.400763358778626,
+      "eval_qnli-contrastive_loss": 0.017819516360759735,
+      "eval_qnli-contrastive_runtime": 3.4236,
+      "eval_qnli-contrastive_samples_per_second": 1595.701,
+      "eval_qnli-contrastive_steps_per_second": 49.948,
+      "step": 10276
+    },
+    {
+      "epoch": 1.5008178844056705,
+      "grad_norm": 1.3052864074707031,
+      "learning_rate": 6.125236966193413e-06,
+      "loss": 0.3627,
+      "step": 11010
+    },
+    {
+      "epoch": 1.6008724100327154,
+      "grad_norm": 1.00529944896698,
+      "learning_rate": 4.088586072137575e-06,
+      "loss": 0.3553,
+      "step": 11744
+    },
+    {
+      "epoch": 1.6008724100327154,
+      "eval_nli-pairs_loss": 0.3628700077533722,
+      "eval_nli-pairs_runtime": 3.7016,
+      "eval_nli-pairs_samples_per_second": 1839.184,
+      "eval_nli-pairs_steps_per_second": 57.542,
+      "step": 11744
+    },
+    {
+      "epoch": 1.6008724100327154,
+      "eval_qnli-contrastive_loss": 0.025695964694023132,
+      "eval_qnli-contrastive_runtime": 3.365,
+      "eval_qnli-contrastive_samples_per_second": 1623.495,
+      "eval_qnli-contrastive_steps_per_second": 50.818,
+      "step": 11744
+    },
+    {
+      "epoch": 1.70092693565976,
+      "grad_norm": 6.129855632781982,
+      "learning_rate": 2.375740327678049e-06,
+      "loss": 0.3406,
+      "step": 12478
+    },
+    {
+      "epoch": 1.800981461286805,
+      "grad_norm": 0.2667868733406067,
+      "learning_rate": 1.0819684733779468e-06,
+      "loss": 0.3288,
+      "step": 13212
+    },
+    {
+      "epoch": 1.800981461286805,
+      "eval_nli-pairs_loss": 0.3574618101119995,
+      "eval_nli-pairs_runtime": 3.5437,
+      "eval_nli-pairs_samples_per_second": 1921.132,
+      "eval_nli-pairs_steps_per_second": 60.106,
+      "step": 13212
+    },
+    {
+      "epoch": 1.800981461286805,
+      "eval_qnli-contrastive_loss": 0.028892073780298233,
+      "eval_qnli-contrastive_runtime": 3.3304,
+      "eval_qnli-contrastive_samples_per_second": 1640.352,
+      "eval_qnli-contrastive_steps_per_second": 51.345,
+      "step": 13212
+    },
+    {
+      "epoch": 1.9010359869138496,
+      "grad_norm": 5.174046039581299,
+      "learning_rate": 2.746246447818135e-07,
+      "loss": 0.4563,
+      "step": 13946
     }
   ],
   "logging_steps": 734,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }