Training in progress, epoch 1

Browse files

Files changed (14) hide show

logs/events.out.tfevents.1719316225.49cbd00d2005.382.0 +2 -2
logs/events.out.tfevents.1719316946.49cbd00d2005.382.1 +3 -0
model.safetensors +1 -1
run-0/checkpoint-2108/model.safetensors +1 -1
run-0/checkpoint-2108/optimizer.pt +1 -1
run-0/checkpoint-2108/scheduler.pt +1 -1
run-0/checkpoint-2108/trainer_state.json +39 -39
run-0/checkpoint-2108/training_args.bin +1 -1
run-1/checkpoint-527/model.safetensors +1 -1
run-1/checkpoint-527/optimizer.pt +1 -1
run-1/checkpoint-527/scheduler.pt +1 -1
run-1/checkpoint-527/trainer_state.json +12 -12
run-1/checkpoint-527/training_args.bin +1 -1
training_args.bin +1 -1

logs/events.out.tfevents.1719316225.49cbd00d2005.382.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f35900daa174a6a5fef76c0a33cef30b6c69a9bdc6be0978c13e94e7dc7999d
-size 6495

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b2e27b4e3928d3380f15f7def860daf62f2d02843b6dba0fcbc506062197843
+size 7383

logs/events.out.tfevents.1719316946.49cbd00d2005.382.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32027f51491766380aa4b56b9780645239e4a1be2cee3a370fbedf1eeff9b8b9
+size 5428

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:088089bcc78f6a495d727bfd4f2722ab86ef44dde434e0dd36c7765a2949601f
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:27cee0faa93c8ebfdb171e60acd1f01bcf52efd270df1bebe4847e474aab2212
 size 17549312

run-0/checkpoint-2108/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3270a719696d1eac1554368a9133f99df33c8a3389f4ea80fa8a91759101b0db
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fbddd20b0b4ede2627f3d04a5320f4552ddffca9eeb9250d451b2033379bc42
 size 17549312

run-0/checkpoint-2108/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65c25cbb73b435a7d4ec1efcc8c69b5e837bd4a7f4f0ad0a5014110a2ee5907a
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:66c061125f90063707894535c74eb3be5cb40e6ea90d6e2aa3bc61133a80551e
 size 35123898

run-0/checkpoint-2108/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34f8a6b9de99155238ee5c3df77c36dc9848f72745e188d461083c5c1c2b2802
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:554ff5e83543bed3776599548ea65cf94cd5336e788b551523284db7e73b3034
 size 1064

run-0/checkpoint-2108/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.801605504587156,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-2108",
   "epoch": 4.0,
   "eval_steps": 500,
@@ -10,73 +10,73 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 12.377176284790039,
-      "learning_rate": 1.5980854192157344e-05,
-      "loss": 3.0218,
       "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7672018348623854,
-      "eval_loss": 2.191861391067505,
-      "eval_runtime": 2.5906,
-      "eval_samples_per_second": 336.603,
-      "eval_steps_per_second": 2.702,
       "step": 527
     },
     {
       "epoch": 2.0,
-      "grad_norm": Infinity,
-      "learning_rate": 1.2796813034327135e-05,
-      "loss": 2.0797,
       "step": 1054
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7809633027522935,
-      "eval_loss": 1.8230279684066772,
-      "eval_runtime": 2.5719,
-      "eval_samples_per_second": 339.043,
-      "eval_steps_per_second": 2.722,
       "step": 1054
     },
     {
       "epoch": 3.0,
-      "grad_norm": 40.96967315673828,
-      "learning_rate": 9.600642195895665e-06,
-      "loss": 1.697,
       "step": 1581
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.786697247706422,
-      "eval_loss": 1.7212010622024536,
-      "eval_runtime": 2.549,
-      "eval_samples_per_second": 342.099,
-      "eval_steps_per_second": 2.746,
       "step": 1581
     },
     {
       "epoch": 4.0,
-      "grad_norm": 35.09682846069336,
-      "learning_rate": 6.4044713574641965e-06,
-      "loss": 1.5166,
       "step": 2108
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.801605504587156,
-      "eval_loss": 1.6234298944473267,
-      "eval_runtime": 2.5722,
-      "eval_samples_per_second": 339.013,
-      "eval_steps_per_second": 2.721,
       "step": 2108
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3162,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -85,7 +85,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
@@ -94,9 +94,9 @@
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.275210688972374,
-    "learning_rate": 1.9177025030588814e-05,
-    "num_train_epochs": 6,
     "temperature": 6
   }
 }

 {
+  "best_metric": 0.8245412844036697,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-2108",
   "epoch": 4.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 15.690781593322754,
+      "learning_rate": 0.0004329892843734803,
+      "loss": 1.29,
       "step": 527
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8176605504587156,
+      "eval_loss": 1.5847134590148926,
+      "eval_runtime": 2.4131,
+      "eval_samples_per_second": 361.36,
+      "eval_steps_per_second": 2.901,
       "step": 527
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.8686888217926025,
+      "learning_rate": 0.0002886595229156535,
+      "loss": 0.5557,
       "step": 1054
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8142201834862385,
+      "eval_loss": 1.6788822412490845,
+      "eval_runtime": 2.4261,
+      "eval_samples_per_second": 359.428,
+      "eval_steps_per_second": 2.885,
       "step": 1054
     },
     {
       "epoch": 3.0,
+      "grad_norm": 6.820591926574707,
+      "learning_rate": 0.00014432976145782676,
+      "loss": 0.3571,
       "step": 1581
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8142201834862385,
+      "eval_loss": 1.6854803562164307,
+      "eval_runtime": 2.4219,
+      "eval_samples_per_second": 360.053,
+      "eval_steps_per_second": 2.89,
       "step": 1581
     },
     {
       "epoch": 4.0,
+      "grad_norm": 5.2299485206604,
+      "learning_rate": 2.7387051510024054e-07,
+      "loss": 0.2568,
       "step": 2108
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8245412844036697,
+      "eval_loss": 1.7129724025726318,
+      "eval_runtime": 2.3655,
+      "eval_samples_per_second": 368.635,
+      "eval_steps_per_second": 2.959,
       "step": 2108
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2108,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.19981548442581198,
+    "learning_rate": 0.000577319045831307,
+    "num_train_epochs": 4,
     "temperature": 6
   }
 }

run-0/checkpoint-2108/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15e7b4feae857373f91378a3d0efc15d0ec396bfba71e74c965086843aa6acf4
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b553ab9101fed6c5a9e75fca4cb81df81514d2d3f8ff94edc0c546949c119f9
 size 5176

run-1/checkpoint-527/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d3cdebd4645b1d3aedb598d74b637f5ed037f958b572ee80608133aee3a9976
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:27cee0faa93c8ebfdb171e60acd1f01bcf52efd270df1bebe4847e474aab2212
 size 17549312

run-1/checkpoint-527/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acf0b6e139990c3307f08d479d701e93926f0f09437c5b321cb9081a954e142e
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a48627b1c935eed466d727794d0522c059daa68f155eb56beaf8d87630343e1
 size 35123898

run-1/checkpoint-527/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb5b0e469d1d3eab700f24f3dfac2d47dd96a3c9a2df7246109443b6077d1bd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:85d97ac1e0817f45ac7080fb40048f460e8564b8fd99fdcde00fe437f7d077f7
 size 1064

run-1/checkpoint-527/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.8268348623853211,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-527",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,18 +10,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 20.18393898010254,
-      "learning_rate": 0.0004400348679504635,
-      "loss": 1.3749,
       "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8268348623853211,
-      "eval_loss": 1.6724135875701904,
-      "eval_runtime": 2.5582,
-      "eval_samples_per_second": 340.862,
-      "eval_steps_per_second": 2.736,
       "step": 527
     }
   ],
@@ -46,9 +46,9 @@
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.22319309854701086,
-    "learning_rate": 0.0006600523019256953,
     "num_train_epochs": 3,
-    "temperature": 16
   }
 }

 {
+  "best_metric": 0.8130733944954128,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-527",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.467271327972412,
+      "learning_rate": 0.0005246601812780973,
+      "loss": 0.349,
       "step": 527
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8130733944954128,
+      "eval_loss": 0.5175108313560486,
+      "eval_runtime": 2.3764,
+      "eval_samples_per_second": 366.943,
+      "eval_steps_per_second": 2.946,
       "step": 527
     }
   ],
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9438943885488221,
+    "learning_rate": 0.0007869902719171459,
     "num_train_epochs": 3,
+    "temperature": 2
   }
 }

run-1/checkpoint-527/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee9990afd96f204321e9e33fc4071f73d76355111015fd2ec723f4a4e4849ce7
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:13747d4a4002463522d34a00fd1d294fed1696984634001cefecc3ef3eb702bf
 size 5176

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b553ab9101fed6c5a9e75fca4cb81df81514d2d3f8ff94edc0c546949c119f9
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:13747d4a4002463522d34a00fd1d294fed1696984634001cefecc3ef3eb702bf
 size 5176