Training in progress, epoch 2

Files changed (7) hide show

logs/events.out.tfevents.1719311480.852b1e905a9a.223.6 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a56ff2e601bbf098efbcd94734bc850a385b1d63aeb575838f7d4a746faa2a7
-size 5428

 version https://git-lfs.github.com/spec/v1
+oid sha256:14b49dd3b1f75c38c2bf40292f9d259aed2122c272ee331937b505e6bb541a6c
+size 5962

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d3cdebd4645b1d3aedb598d74b637f5ed037f958b572ee80608133aee3a9976
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4db5ce53872114bd04603e9f4cf8a2c9fff8b5eba2e6c35fa6175cd08190265
 size 17549312

run-1/checkpoint-1054/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df3533a341bbd3e710d9d7de936a16f763971513d1b160bf88191e12c65b39f3
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4db5ce53872114bd04603e9f4cf8a2c9fff8b5eba2e6c35fa6175cd08190265
 size 17549312

run-1/checkpoint-1054/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9fd389e66c6e57e60204f6358fd64cb18a8d3f2f4fdb1dc1ae97e2e0ddb33a
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1dd136a0ee7ffbf29f6a85dc5e2e539fdd79d2195a573a0abab8048ddf9905f
 size 35123898

run-1/checkpoint-1054/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32816b03f4a51f12a0135d51aa95e2ea9f3d7aef81173538a39d766a38cb4af4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec5be829c4dd6c4d8b768ac32866ba5e4919b044a4f27c321cee266e36d17472
 size 1064

run-1/checkpoint-1054/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.819954128440367,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-1054",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 1054,
@@ -10,34 +10,34 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 17.658132553100586,
-      "learning_rate": 7.63128750557968e-05,
-      "loss": 1.3361,
       "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8107798165137615,
-      "eval_loss": 1.132369041442871,
-      "eval_runtime": 2.6024,
-      "eval_samples_per_second": 335.073,
-      "eval_steps_per_second": 2.69,
       "step": 527
     },
     {
       "epoch": 2.0,
-      "grad_norm": 17.63370704650879,
-      "learning_rate": 3.81564375278984e-05,
-      "loss": 0.7175,
       "step": 1054
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.819954128440367,
-      "eval_loss": 1.094281554222107,
-      "eval_runtime": 2.5939,
-      "eval_samples_per_second": 336.174,
-      "eval_steps_per_second": 2.699,
       "step": 1054
     }
   ],
@@ -62,9 +62,9 @@
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.5918699224275719,
-    "learning_rate": 0.00011446931258369519,
     "num_train_epochs": 3,
-    "temperature": 9
   }
 }

 {
+  "best_metric": 0.8268348623853211,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-527",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 1054,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 20.18393898010254,
+      "learning_rate": 0.0004400348679504635,
+      "loss": 1.3749,
       "step": 527
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8268348623853211,
+      "eval_loss": 1.6724135875701904,
+      "eval_runtime": 2.5582,
+      "eval_samples_per_second": 340.862,
+      "eval_steps_per_second": 2.736,
       "step": 527
     },
     {
       "epoch": 2.0,
+      "grad_norm": 4.33894681930542,
+      "learning_rate": 0.00022001743397523176,
+      "loss": 0.5714,
       "step": 1054
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8222477064220184,
+      "eval_loss": 1.7203704118728638,
+      "eval_runtime": 2.5544,
+      "eval_samples_per_second": 341.369,
+      "eval_steps_per_second": 2.74,
       "step": 1054
     }
   ],
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.22319309854701086,
+    "learning_rate": 0.0006600523019256953,
     "num_train_epochs": 3,
+    "temperature": 16
   }
 }

run-1/checkpoint-1054/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb44a8bec3049f59e3c6aa052eb44c31862f011784d5f05f8553620eb8f64a0
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee9990afd96f204321e9e33fc4071f73d76355111015fd2ec723f4a4e4849ce7
 size 5176