Training in progress, epoch 4, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +4 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -2

last-checkpoint/README.md CHANGED Viewed

@@ -559,6 +559,10 @@ You can finetune this model on your own dataset.
 | 2.4914 | 1160 | 2.1771        | 0.4300                | 1.7922         |
 | 2.7414 | 1276 | 2.2549        | 0.3610                | 1.6473         |
 | 2.9914 | 1392 | 2.2168        | 0.2929                | 1.5590         |
 ### Framework Versions

 | 2.4914 | 1160 | 2.1771        | 0.4300                | 1.7922         |
 | 2.7414 | 1276 | 2.2549        | 0.3610                | 1.6473         |
 | 2.9914 | 1392 | 2.2168        | 0.2929                | 1.5590         |
+| 3.2371 | 1508 | 2.0581        | 0.2678                | 1.5177         |
+| 3.4871 | 1624 | 1.9654        | 0.2392                | 1.5037         |
+| 3.7371 | 1740 | 2.1107        | 0.2234                | 1.4557         |
+| 3.9871 | 1856 | 2.0709        | 0.2094                | 1.4287         |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecb04608c64b22d6262681835d6c550177e812632d19e8bed563d46fd84e0e69
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:45eeac36057b0a84a3d410d1974ea4ef60e1f6732308a7c19c7fd4aa6ff3adf0
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3ad09b012913d64a2d27765f2b0342e4a0f1edd69a6c8ffd7a83dcee57b952e
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:5df76c36ed895286d93c7e35de2022f1a4142ca300d68137813a64ef7c2467b2
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89d0bf755340af85865c74eb993cae626d4eb319120da8fd389f3930be54bbea
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ac986d8316aed04b3cf90a12a44166385897956e05972f0500d5a12c28b4e2
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e270a9661cb837eaec0b7e50a864e82bdf74fee38281b90e4447c6c11c7af62d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c4113c75337369f487518d15e4b953b9a64a66968b355fbea0722908652f445
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0043103448275863,
   "eval_steps": 116,
-  "global_step": 1398,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -283,6 +283,98 @@
       "eval_qnli-contrastive_samples_per_second": 1380.312,
       "eval_qnli-contrastive_steps_per_second": 86.269,
       "step": 1392
     }
   ],
   "logging_steps": 116,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.004310344827586,
   "eval_steps": 116,
+  "global_step": 1864,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_qnli-contrastive_samples_per_second": 1380.312,
       "eval_qnli-contrastive_steps_per_second": 86.269,
       "step": 1392
+    },
+    {
+      "epoch": 3.2370689655172415,
+      "grad_norm": 14.837372779846191,
+      "learning_rate": 1.6241871278299807e-06,
+      "loss": 2.0581,
+      "step": 1508
+    },
+    {
+      "epoch": 3.2370689655172415,
+      "eval_nli-pairs_loss": 1.5176913738250732,
+      "eval_nli-pairs_runtime": 1.3641,
+      "eval_nli-pairs_samples_per_second": 1466.194,
+      "eval_nli-pairs_steps_per_second": 91.637,
+      "step": 1508
+    },
+    {
+      "epoch": 3.2370689655172415,
+      "eval_qnli-contrastive_loss": 0.2678474187850952,
+      "eval_qnli-contrastive_runtime": 1.5105,
+      "eval_qnli-contrastive_samples_per_second": 1324.09,
+      "eval_qnli-contrastive_steps_per_second": 82.756,
+      "step": 1508
+    },
+    {
+      "epoch": 3.4870689655172415,
+      "grad_norm": 145.98458862304688,
+      "learning_rate": 1.2734385039668851e-06,
+      "loss": 1.9654,
+      "step": 1624
+    },
+    {
+      "epoch": 3.4870689655172415,
+      "eval_nli-pairs_loss": 1.5036982297897339,
+      "eval_nli-pairs_runtime": 1.3348,
+      "eval_nli-pairs_samples_per_second": 1498.309,
+      "eval_nli-pairs_steps_per_second": 93.644,
+      "step": 1624
+    },
+    {
+      "epoch": 3.4870689655172415,
+      "eval_qnli-contrastive_loss": 0.23919104039669037,
+      "eval_qnli-contrastive_runtime": 1.5129,
+      "eval_qnli-contrastive_samples_per_second": 1321.928,
+      "eval_qnli-contrastive_steps_per_second": 82.621,
+      "step": 1624
+    },
+    {
+      "epoch": 3.737068965517241,
+      "grad_norm": 10.36633586883545,
+      "learning_rate": 9.350923617759733e-07,
+      "loss": 2.1107,
+      "step": 1740
+    },
+    {
+      "epoch": 3.737068965517241,
+      "eval_nli-pairs_loss": 1.4556528329849243,
+      "eval_nli-pairs_runtime": 1.4177,
+      "eval_nli-pairs_samples_per_second": 1410.69,
+      "eval_nli-pairs_steps_per_second": 88.168,
+      "step": 1740
+    },
+    {
+      "epoch": 3.737068965517241,
+      "eval_qnli-contrastive_loss": 0.22335131466388702,
+      "eval_qnli-contrastive_runtime": 1.5405,
+      "eval_qnli-contrastive_samples_per_second": 1298.243,
+      "eval_qnli-contrastive_steps_per_second": 81.14,
+      "step": 1740
+    },
+    {
+      "epoch": 3.987068965517241,
+      "grad_norm": 178.8499755859375,
+      "learning_rate": 6.276705238124942e-07,
+      "loss": 2.0709,
+      "step": 1856
+    },
+    {
+      "epoch": 3.987068965517241,
+      "eval_nli-pairs_loss": 1.4286649227142334,
+      "eval_nli-pairs_runtime": 1.2929,
+      "eval_nli-pairs_samples_per_second": 1546.95,
+      "eval_nli-pairs_steps_per_second": 96.684,
+      "step": 1856
+    },
+    {
+      "epoch": 3.987068965517241,
+      "eval_qnli-contrastive_loss": 0.2093583047389984,
+      "eval_qnli-contrastive_runtime": 1.4454,
+      "eval_qnli-contrastive_samples_per_second": 1383.695,
+      "eval_qnli-contrastive_steps_per_second": 86.481,
+      "step": 1856
     }
   ],
   "logging_steps": 116,