Training in progress, epoch 4, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +40 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +474 -2

last-checkpoint/README.md CHANGED Viewed

@@ -971,6 +971,46 @@ You can finetune this model on your own dataset.
 | 2.9266 | 16380 | 1.0227        | -                     | -              | -                      |
 | 2.9516 | 16520 | 0.8159        | -                     | -              | -                      |
 | 2.9766 | 16660 | 0.8426        | -                     | -              | -                      |
 </details>

 | 2.9266 | 16380 | 1.0227        | -                     | -              | -                      |
 | 2.9516 | 16520 | 0.8159        | -                     | -              | -                      |
 | 2.9766 | 16660 | 0.8426        | -                     | -              | -                      |
+| 3.0016 | 16800 | 0.7955        | 1.1895                | 0.9681         | 0.4912                 |
+| 3.0266 | 16940 | 0.856         | -                     | -              | -                      |
+| 3.0516 | 17080 | 1.0754        | -                     | -              | -                      |
+| 3.0766 | 17220 | 0.9151        | -                     | -              | -                      |
+| 3.1017 | 17360 | 1.0051        | -                     | -              | -                      |
+| 3.1267 | 17500 | 1.0075        | 1.0658                | 0.9583         | 0.4853                 |
+| 3.1517 | 17640 | 0.9909        | -                     | -              | -                      |
+| 3.1767 | 17780 | 1.029         | -                     | -              | -                      |
+| 3.2017 | 17920 | 1.0292        | -                     | -              | -                      |
+| 3.2267 | 18060 | 0.8334        | -                     | -              | -                      |
+| 3.2517 | 18200 | 1.0119        | 1.1172                | 0.9485         | 0.4674                 |
+| 3.2768 | 18340 | 0.8582        | -                     | -              | -                      |
+| 3.3018 | 18480 | 1.0397        | -                     | -              | -                      |
+| 3.3268 | 18620 | 1.1988        | -                     | -              | -                      |
+| 3.3518 | 18760 | 0.9432        | -                     | -              | -                      |
+| 3.3768 | 18900 | 1.0573        | 1.0815                | 0.9437         | 0.4679                 |
+| 3.4018 | 19040 | 0.9829        | -                     | -              | -                      |
+| 3.4268 | 19180 | 1.0573        | -                     | -              | -                      |
+| 3.4518 | 19320 | 0.9449        | -                     | -              | -                      |
+| 3.4769 | 19460 | 1.2005        | -                     | -              | -                      |
+| 3.5019 | 19600 | 0.9171        | 1.2315                | 0.9503         | 0.4799                 |
+| 3.5269 | 19740 | 0.9425        | -                     | -              | -                      |
+| 3.5519 | 19880 | 1.1213        | -                     | -              | -                      |
+| 3.5769 | 20020 | 1.1128        | -                     | -              | -                      |
+| 3.6019 | 20160 | 1.331         | -                     | -              | -                      |
+| 3.6269 | 20300 | 1.0495        | 1.1413                | 0.9468         | 0.4434                 |
+| 3.6520 | 20440 | 0.9698        | -                     | -              | -                      |
+| 3.6770 | 20580 | 0.9148        | -                     | -              | -                      |
+| 3.7020 | 20720 | 0.9042        | -                     | -              | -                      |
+| 3.7270 | 20860 | 0.8232        | -                     | -              | -                      |
+| 3.7520 | 21000 | 1.0163        | 1.2883                | 0.9020         | 0.4574                 |
+| 3.7770 | 21140 | 0.9735        | -                     | -              | -                      |
+| 3.8020 | 21280 | 0.8371        | -                     | -              | -                      |
+| 3.8271 | 21420 | 0.6344        | -                     | -              | -                      |
+| 3.8521 | 21560 | 0.87          | -                     | -              | -                      |
+| 3.8771 | 21700 | 0.7404        | 1.0644                | 0.8661         | 0.4353                 |
+| 3.9021 | 21840 | 0.8486        | -                     | -              | -                      |
+| 3.9271 | 21980 | 0.8895        | -                     | -              | -                      |
+| 3.9521 | 22120 | 0.7476        | -                     | -              | -                      |
+| 3.9771 | 22260 | 0.6761        | -                     | -              | -                      |
 </details>

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3f8b7a10f49c7accc4d56fcde5e2b7367572fea9eadda7abc68c4ea6d413109
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:4345ef434b7ce58a400595f316107c458077d152783f92e11230dd06b00da241
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9134258fe357fd6a2a6353e374fe13d69af6b328dba3af917a4e41b35fe24ced
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c61e8dbee68a8b9aa8455be0f0f627f0276bc6305fcf58258493d0000b0b9ad
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce15952460133b21ef920df1fe684611abb9d45ded84989240cf0c78f3eacbe8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:45081b173c6755e63dd0ede1a9b1a21b4183931e9d940410e69655e93a0291cf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd0a193be43dda10c5ceb71b126b0e7c57e19cdb380ddf6d47b36db9131d04db
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6243024eb0239246d61ff58dd2248929ed644805efadd2d460a5d88e0b9fcfa2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 700,
-  "global_step": 16791,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1392,6 +1392,478 @@
       "learning_rate": 1.0994658958057889e-05,
       "loss": 0.8426,
       "step": 16660
     }
   ],
   "logging_steps": 140,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 700,
+  "global_step": 22388,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.0994658958057889e-05,
       "loss": 0.8426,
       "step": 16660
+    },
+    {
+      "epoch": 3.0016080042880113,
+      "grad_norm": 0.6402806043624878,
+      "learning_rate": 1.0014032480000764e-05,
+      "loss": 0.7955,
+      "step": 16800
+    },
+    {
+      "epoch": 3.0016080042880113,
+      "eval_nli-pairs_loss": 0.9680945873260498,
+      "eval_nli-pairs_runtime": 13.331,
+      "eval_nli-pairs_samples_per_second": 112.519,
+      "eval_nli-pairs_steps_per_second": 4.726,
+      "step": 16800
+    },
+    {
+      "epoch": 3.0016080042880113,
+      "eval_scitail-pairs-pos_loss": 0.49118393659591675,
+      "eval_scitail-pairs-pos_runtime": 15.2998,
+      "eval_scitail-pairs-pos_samples_per_second": 85.23,
+      "eval_scitail-pairs-pos_steps_per_second": 3.595,
+      "step": 16800
+    },
+    {
+      "epoch": 3.0016080042880113,
+      "eval_qnli-contrastive_loss": 1.1894794702529907,
+      "eval_qnli-contrastive_runtime": 4.8432,
+      "eval_qnli-contrastive_samples_per_second": 309.715,
+      "eval_qnli-contrastive_steps_per_second": 13.008,
+      "step": 16800
+    },
+    {
+      "epoch": 3.0266214043237447,
+      "grad_norm": 3.155766010284424,
+      "learning_rate": 9.03327071669702e-06,
+      "loss": 0.856,
+      "step": 16940
+    },
+    {
+      "epoch": 3.051634804359478,
+      "grad_norm": 11.008296966552734,
+      "learning_rate": 8.061829059993542e-06,
+      "loss": 1.0754,
+      "step": 17080
+    },
+    {
+      "epoch": 3.076648204395212,
+      "grad_norm": 4.382720947265625,
+      "learning_rate": 7.109073047846788e-06,
+      "loss": 0.9151,
+      "step": 17220
+    },
+    {
+      "epoch": 3.1016616044309453,
+      "grad_norm": 2.755722761154175,
+      "learning_rate": 6.184188072434878e-06,
+      "loss": 1.0051,
+      "step": 17360
+    },
+    {
+      "epoch": 3.1266750044666787,
+      "grad_norm": 2.4547111988067627,
+      "learning_rate": 5.296090825030854e-06,
+      "loss": 1.0075,
+      "step": 17500
+    },
+    {
+      "epoch": 3.1266750044666787,
+      "eval_nli-pairs_loss": 0.9583492875099182,
+      "eval_nli-pairs_runtime": 12.1773,
+      "eval_nli-pairs_samples_per_second": 123.18,
+      "eval_nli-pairs_steps_per_second": 5.174,
+      "step": 17500
+    },
+    {
+      "epoch": 3.1266750044666787,
+      "eval_scitail-pairs-pos_loss": 0.485266774892807,
+      "eval_scitail-pairs-pos_runtime": 14.9222,
+      "eval_scitail-pairs-pos_samples_per_second": 87.387,
+      "eval_scitail-pairs-pos_steps_per_second": 3.686,
+      "step": 17500
+    },
+    {
+      "epoch": 3.1266750044666787,
+      "eval_qnli-contrastive_loss": 1.0658234357833862,
+      "eval_qnli-contrastive_runtime": 4.7681,
+      "eval_qnli-contrastive_samples_per_second": 314.592,
+      "eval_qnli-contrastive_steps_per_second": 13.213,
+      "step": 17500
+    },
+    {
+      "epoch": 3.151688404502412,
+      "grad_norm": 19.061325073242188,
+      "learning_rate": 4.453343331385006e-06,
+      "loss": 0.9909,
+      "step": 17640
+    },
+    {
+      "epoch": 3.1767018045381454,
+      "grad_norm": 17.016021728515625,
+      "learning_rate": 3.6640704063896858e-06,
+      "loss": 1.029,
+      "step": 17780
+    },
+    {
+      "epoch": 3.201715204573879,
+      "grad_norm": 4.147863864898682,
+      "learning_rate": 2.9358813238350816e-06,
+      "loss": 1.0292,
+      "step": 17920
+    },
+    {
+      "epoch": 3.226728604609612,
+      "grad_norm": 27.60422706604004,
+      "learning_rate": 2.275796456427173e-06,
+      "loss": 0.8334,
+      "step": 18060
+    },
+    {
+      "epoch": 3.2517420046453456,
+      "grad_norm": 0.7800289392471313,
+      "learning_rate": 1.6901795933215137e-06,
+      "loss": 1.0119,
+      "step": 18200
+    },
+    {
+      "epoch": 3.2517420046453456,
+      "eval_nli-pairs_loss": 0.9484548568725586,
+      "eval_nli-pairs_runtime": 12.0697,
+      "eval_nli-pairs_samples_per_second": 124.279,
+      "eval_nli-pairs_steps_per_second": 5.22,
+      "step": 18200
+    },
+    {
+      "epoch": 3.2517420046453456,
+      "eval_scitail-pairs-pos_loss": 0.4673975706100464,
+      "eval_scitail-pairs-pos_runtime": 15.0509,
+      "eval_scitail-pairs-pos_samples_per_second": 86.639,
+      "eval_scitail-pairs-pos_steps_per_second": 3.654,
+      "step": 18200
+    },
+    {
+      "epoch": 3.2517420046453456,
+      "eval_qnli-contrastive_loss": 1.1171668767929077,
+      "eval_qnli-contrastive_runtime": 4.7871,
+      "eval_qnli-contrastive_samples_per_second": 313.345,
+      "eval_qnli-contrastive_steps_per_second": 13.16,
+      "step": 18200
+    },
+    {
+      "epoch": 3.2767554046810794,
+      "grad_norm": 16.64696502685547,
+      "learning_rate": 1.1846765876905709e-06,
+      "loss": 0.8582,
+      "step": 18340
+    },
+    {
+      "epoch": 3.3017688047168123,
+      "grad_norm": 16.13783073425293,
+      "learning_rate": 7.668532006209551e-07,
+      "loss": 1.0397,
+      "step": 18480
+    },
+    {
+      "epoch": 3.326782204752546,
+      "grad_norm": 3.76619553565979,
+      "learning_rate": 4.347306328421508e-07,
+      "loss": 1.1988,
+      "step": 18620
+    },
+    {
+      "epoch": 3.3517956047882795,
+      "grad_norm": 10.401665687561035,
+      "learning_rate": 1.948255365952012e-07,
+      "loss": 0.9432,
+      "step": 18760
+    },
+    {
+      "epoch": 3.376809004824013,
+      "grad_norm": 2.400106191635132,
+      "learning_rate": 4.945080454776929e-08,
+      "loss": 1.0573,
+      "step": 18900
+    },
+    {
+      "epoch": 3.376809004824013,
+      "eval_nli-pairs_loss": 0.9437180757522583,
+      "eval_nli-pairs_runtime": 12.0974,
+      "eval_nli-pairs_samples_per_second": 123.993,
+      "eval_nli-pairs_steps_per_second": 5.208,
+      "step": 18900
+    },
+    {
+      "epoch": 3.376809004824013,
+      "eval_scitail-pairs-pos_loss": 0.46788787841796875,
+      "eval_scitail-pairs-pos_runtime": 15.1516,
+      "eval_scitail-pairs-pos_samples_per_second": 86.063,
+      "eval_scitail-pairs-pos_steps_per_second": 3.63,
+      "step": 18900
+    },
+    {
+      "epoch": 3.376809004824013,
+      "eval_qnli-contrastive_loss": 1.081482172012329,
+      "eval_qnli-contrastive_runtime": 4.8096,
+      "eval_qnli-contrastive_samples_per_second": 311.875,
+      "eval_qnli-contrastive_steps_per_second": 13.099,
+      "step": 18900
+    },
+    {
+      "epoch": 3.4018224048597463,
+      "grad_norm": 25.33026695251465,
+      "learning_rate": 7.974879220329356e-12,
+      "loss": 0.9829,
+      "step": 19040
+    },
+    {
+      "epoch": 3.4268358048954797,
+      "grad_norm": 4.218173027038574,
+      "learning_rate": 1.995302628075987e-05,
+      "loss": 1.0573,
+      "step": 19180
+    },
+    {
+      "epoch": 3.451849204931213,
+      "grad_norm": 13.573431015014648,
+      "learning_rate": 1.98101047527748e-05,
+      "loss": 0.9449,
+      "step": 19320
+    },
+    {
+      "epoch": 3.4768626049669464,
+      "grad_norm": 6.658699989318848,
+      "learning_rate": 1.9572605328335534e-05,
+      "loss": 1.2005,
+      "step": 19460
+    },
+    {
+      "epoch": 3.5018760050026803,
+      "grad_norm": 6.075576305389404,
+      "learning_rate": 1.924281770735239e-05,
+      "loss": 0.9171,
+      "step": 19600
+    },
+    {
+      "epoch": 3.5018760050026803,
+      "eval_nli-pairs_loss": 0.9502684473991394,
+      "eval_nli-pairs_runtime": 12.0413,
+      "eval_nli-pairs_samples_per_second": 124.572,
+      "eval_nli-pairs_steps_per_second": 5.232,
+      "step": 19600
+    },
+    {
+      "epoch": 3.5018760050026803,
+      "eval_scitail-pairs-pos_loss": 0.4798508584499359,
+      "eval_scitail-pairs-pos_runtime": 14.9533,
+      "eval_scitail-pairs-pos_samples_per_second": 87.205,
+      "eval_scitail-pairs-pos_steps_per_second": 3.678,
+      "step": 19600
+    },
+    {
+      "epoch": 3.5018760050026803,
+      "eval_qnli-contrastive_loss": 1.2315282821655273,
+      "eval_qnli-contrastive_runtime": 4.7188,
+      "eval_qnli-contrastive_samples_per_second": 317.874,
+      "eval_qnli-contrastive_steps_per_second": 13.351,
+      "step": 19600
+    },
+    {
+      "epoch": 3.526889405038413,
+      "grad_norm": 8.40775203704834,
+      "learning_rate": 1.8823921327788075e-05,
+      "loss": 0.9425,
+      "step": 19740
+    },
+    {
+      "epoch": 3.551902805074147,
+      "grad_norm": 11.214140892028809,
+      "learning_rate": 1.831995471312526e-05,
+      "loss": 1.1213,
+      "step": 19880
+    },
+    {
+      "epoch": 3.5769162051098804,
+      "grad_norm": 10.211651802062988,
+      "learning_rate": 1.7735776537506483e-05,
+      "loss": 1.1128,
+      "step": 20020
+    },
+    {
+      "epoch": 3.6019296051456138,
+      "grad_norm": 44.01512908935547,
+      "learning_rate": 1.707701878391224e-05,
+      "loss": 1.331,
+      "step": 20160
+    },
+    {
+      "epoch": 3.626943005181347,
+      "grad_norm": 13.295893669128418,
+      "learning_rate": 1.6350032446972868e-05,
+      "loss": 1.0495,
+      "step": 20300
+    },
+    {
+      "epoch": 3.626943005181347,
+      "eval_nli-pairs_loss": 0.9468088150024414,
+      "eval_nli-pairs_runtime": 11.9325,
+      "eval_nli-pairs_samples_per_second": 125.707,
+      "eval_nli-pairs_steps_per_second": 5.28,
+      "step": 20300
+    },
+    {
+      "epoch": 3.626943005181347,
+      "eval_scitail-pairs-pos_loss": 0.4434490203857422,
+      "eval_scitail-pairs-pos_runtime": 15.5134,
+      "eval_scitail-pairs-pos_samples_per_second": 84.056,
+      "eval_scitail-pairs-pos_steps_per_second": 3.545,
+      "step": 20300
+    },
+    {
+      "epoch": 3.626943005181347,
+      "eval_qnli-contrastive_loss": 1.141271710395813,
+      "eval_qnli-contrastive_runtime": 4.7207,
+      "eval_qnli-contrastive_samples_per_second": 317.752,
+      "eval_qnli-contrastive_steps_per_second": 13.346,
+      "step": 20300
+    },
+    {
+      "epoch": 3.6519564052170805,
+      "grad_norm": 71.68439483642578,
+      "learning_rate": 1.5561826303886085e-05,
+      "loss": 0.9698,
+      "step": 20440
+    },
+    {
+      "epoch": 3.676969805252814,
+      "grad_norm": 5.957241058349609,
+      "learning_rate": 1.4719999343741618e-05,
+      "loss": 0.9148,
+      "step": 20580
+    },
+    {
+      "epoch": 3.7019832052885473,
+      "grad_norm": 1.4626597166061401,
+      "learning_rate": 1.3839147028686583e-05,
+      "loss": 0.9042,
+      "step": 20720
+    },
+    {
+      "epoch": 3.726996605324281,
+      "grad_norm": 2.4634809494018555,
+      "learning_rate": 1.2915097668067934e-05,
+      "loss": 0.8232,
+      "step": 20860
+    },
+    {
+      "epoch": 3.752010005360014,
+      "grad_norm": 1.5838899612426758,
+      "learning_rate": 1.196294424410312e-05,
+      "loss": 1.0163,
+      "step": 21000
+    },
+    {
+      "epoch": 3.752010005360014,
+      "eval_nli-pairs_loss": 0.9020450115203857,
+      "eval_nli-pairs_runtime": 12.2572,
+      "eval_nli-pairs_samples_per_second": 122.377,
+      "eval_nli-pairs_steps_per_second": 5.14,
+      "step": 21000
+    },
+    {
+      "epoch": 3.752010005360014,
+      "eval_scitail-pairs-pos_loss": 0.4573577046394348,
+      "eval_scitail-pairs-pos_runtime": 15.1478,
+      "eval_scitail-pairs-pos_samples_per_second": 86.085,
+      "eval_scitail-pairs-pos_steps_per_second": 3.631,
+      "step": 21000
+    },
+    {
+      "epoch": 3.752010005360014,
+      "eval_qnli-contrastive_loss": 1.2882591485977173,
+      "eval_qnli-contrastive_runtime": 4.762,
+      "eval_qnli-contrastive_samples_per_second": 314.992,
+      "eval_qnli-contrastive_steps_per_second": 13.23,
+      "step": 21000
+    },
+    {
+      "epoch": 3.777023405395748,
+      "grad_norm": 5.878975868225098,
+      "learning_rate": 1.099186633949893e-05,
+      "loss": 0.9735,
+      "step": 21140
+    },
+    {
+      "epoch": 3.8020368054314813,
+      "grad_norm": 10.22749137878418,
+      "learning_rate": 1.0011225985326909e-05,
+      "loss": 0.8371,
+      "step": 21280
+    },
+    {
+      "epoch": 3.8270502054672146,
+      "grad_norm": 8.895988464355469,
+      "learning_rate": 9.030477402944833e-06,
+      "loss": 0.6344,
+      "step": 21420
+    },
+    {
+      "epoch": 3.852063605502948,
+      "grad_norm": 1.564530372619629,
+      "learning_rate": 8.059075857124063e-06,
+      "loss": 0.87,
+      "step": 21560
+    },
+    {
+      "epoch": 3.8770770055386814,
+      "grad_norm": 3.3526771068573,
+      "learning_rate": 7.106386499117424e-06,
+      "loss": 0.7404,
+      "step": 21700
+    },
+    {
+      "epoch": 3.8770770055386814,
+      "eval_nli-pairs_loss": 0.8661152720451355,
+      "eval_nli-pairs_runtime": 11.9159,
+      "eval_nli-pairs_samples_per_second": 125.883,
+      "eval_nli-pairs_steps_per_second": 5.287,
+      "step": 21700
+    },
+    {
+      "epoch": 3.8770770055386814,
+      "eval_scitail-pairs-pos_loss": 0.4352877140045166,
+      "eval_scitail-pairs-pos_runtime": 14.9412,
+      "eval_scitail-pairs-pos_samples_per_second": 87.275,
+      "eval_scitail-pairs-pos_steps_per_second": 3.681,
+      "step": 21700
+    },
+    {
+      "epoch": 3.8770770055386814,
+      "eval_qnli-contrastive_loss": 1.0643585920333862,
+      "eval_qnli-contrastive_runtime": 4.7458,
+      "eval_qnli-contrastive_samples_per_second": 316.066,
+      "eval_qnli-contrastive_steps_per_second": 13.275,
+      "step": 21700
+    },
+    {
+      "epoch": 3.9020904055744148,
+      "grad_norm": 6.517562389373779,
+      "learning_rate": 6.181594078499504e-06,
+      "loss": 0.8486,
+      "step": 21840
+    },
+    {
+      "epoch": 3.927103805610148,
+      "grad_norm": 4.482045650482178,
+      "learning_rate": 5.293614394235034e-06,
+      "loss": 0.8895,
+      "step": 21980
+    },
+    {
+      "epoch": 3.952117205645882,
+      "grad_norm": 5.165999889373779,
+      "learning_rate": 4.451008338663955e-06,
+      "loss": 0.7476,
+      "step": 22120
+    },
+    {
+      "epoch": 3.977130605681615,
+      "grad_norm": 7.821371078491211,
+      "learning_rate": 3.6618993630932396e-06,
+      "loss": 0.6761,
+      "step": 22260
     }
   ],
   "logging_steps": 140,