Training in progress, epoch 7

Browse files

Files changed (7) hide show

logs/events.out.tfevents.1719305887.852b1e905a9a.223.0 +2 -2
model.safetensors +1 -1
run-0/checkpoint-3689/model.safetensors +1 -1
run-0/checkpoint-3689/optimizer.pt +1 -1
run-0/checkpoint-3689/scheduler.pt +1 -1
run-0/checkpoint-3689/trainer_state.json +64 -64
run-0/checkpoint-3689/training_args.bin +1 -1

logs/events.out.tfevents.1719305887.852b1e905a9a.223.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03ed1411f7c76a7b2bc184df5eaae3e0a2ab72b812a1dbe77586cbf90b1e70e0
-size 8100

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c91cfc7c3ff26707ffc20d2eeaa9e3f6123a16f616fc80e23516a73b694763d
+size 8634

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e66d9522c7e5449c5f8219463267e60b5ec3f1017664ef4e316e07a78f5f39e
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:86bafd1ad69646e1b2b90542839513ba91c261f65984761709b70377635a061a
 size 17549312

run-0/checkpoint-3689/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83991db9ad957d9888362f3ad8fafd08079dca34ec30e24008afe88a91718605
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:86bafd1ad69646e1b2b90542839513ba91c261f65984761709b70377635a061a
 size 17549312

run-0/checkpoint-3689/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b70650c0d733edee26e192ea55093a367dd7bd68c97bf6e015f1d66345421e75
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:20e32833b5081d17607b86d4c799bf1e407d5f29b31b6061b32da8b4f2a201a4
 size 35123898

run-0/checkpoint-3689/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5888d518e5b70e409cbf0690b5f21045f0c4d9726b78202d04f04c7b65d878fb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:20ce1fb94fc1ee328b774303dfa6718eadb4ebdd7390e9aaab0520aa45bb323b
 size 1064

run-0/checkpoint-3689/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.8291284403669725,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-2635",
   "epoch": 7.0,
   "eval_steps": 500,
   "global_step": 3689,
@@ -10,121 +10,121 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 16.55626678466797,
-      "learning_rate": 5.1383294230414005e-05,
-      "loss": 1.5907,
       "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8061926605504587,
-      "eval_loss": 1.2464169263839722,
-      "eval_runtime": 2.4007,
-      "eval_samples_per_second": 363.232,
-      "eval_steps_per_second": 2.916,
       "step": 527
     },
     {
       "epoch": 2.0,
-      "grad_norm": Infinity,
-      "learning_rate": 4.405675241279466e-05,
-      "loss": 0.9038,
       "step": 1054
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8107798165137615,
-      "eval_loss": 1.1235342025756836,
-      "eval_runtime": 2.3533,
-      "eval_samples_per_second": 370.54,
-      "eval_steps_per_second": 2.975,
       "step": 1054
     },
     {
       "epoch": 3.0,
-      "grad_norm": 48.55740737915039,
-      "learning_rate": 3.67162818084498e-05,
-      "loss": 0.6946,
       "step": 1581
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8176605504587156,
-      "eval_loss": 1.1027159690856934,
-      "eval_runtime": 2.3719,
-      "eval_samples_per_second": 367.637,
-      "eval_steps_per_second": 2.951,
       "step": 1581
     },
     {
       "epoch": 4.0,
-      "grad_norm": 16.267213821411133,
-      "learning_rate": 2.9375811204104943e-05,
-      "loss": 0.595,
       "step": 2108
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8256880733944955,
-      "eval_loss": 1.0700539350509644,
-      "eval_runtime": 2.3638,
-      "eval_samples_per_second": 368.893,
-      "eval_steps_per_second": 2.961,
       "step": 2108
     },
     {
       "epoch": 5.0,
-      "grad_norm": 10.482604026794434,
-      "learning_rate": 2.2035340599760084e-05,
-      "loss": 0.5308,
       "step": 2635
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8291284403669725,
-      "eval_loss": 1.1128482818603516,
-      "eval_runtime": 2.3733,
-      "eval_samples_per_second": 367.419,
-      "eval_steps_per_second": 2.949,
       "step": 2635
     },
     {
       "epoch": 6.0,
-      "grad_norm": 24.14480209350586,
-      "learning_rate": 1.4694869995415228e-05,
-      "loss": 0.4895,
       "step": 3162
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.8291284403669725,
-      "eval_loss": 1.1355042457580566,
-      "eval_runtime": 2.3485,
-      "eval_samples_per_second": 371.294,
-      "eval_steps_per_second": 2.981,
       "step": 3162
     },
     {
       "epoch": 7.0,
-      "grad_norm": 25.623193740844727,
-      "learning_rate": 7.35439939107037e-06,
-      "loss": 0.4606,
       "step": 3689
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8268348623853211,
-      "eval_loss": 1.1558915376663208,
-      "eval_runtime": 2.3654,
-      "eval_samples_per_second": 368.653,
-      "eval_steps_per_second": 2.959,
       "step": 3689
     }
   ],
   "logging_steps": 500,
-  "max_steps": 4216,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -142,9 +142,9 @@
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.5167874928728581,
-    "learning_rate": 5.872376483475886e-05,
-    "num_train_epochs": 8,
-    "temperature": 5
   }
 }

 {
+  "best_metric": 0.7947247706422018,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-3162",
   "epoch": 7.0,
   "eval_steps": 500,
   "global_step": 3689,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 5.95961856842041,
+      "learning_rate": 9.55389368279823e-06,
+      "loss": 1.5369,
       "step": 527
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7339449541284404,
+      "eval_loss": 1.2773902416229248,
+      "eval_runtime": 2.5957,
+      "eval_samples_per_second": 335.939,
+      "eval_steps_per_second": 2.697,
       "step": 527
     },
     {
       "epoch": 2.0,
+      "grad_norm": 15.252978324890137,
+      "learning_rate": 8.492349940265094e-06,
+      "loss": 1.2159,
       "step": 1054
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7786697247706422,
+      "eval_loss": 1.022659182548523,
+      "eval_runtime": 2.5741,
+      "eval_samples_per_second": 338.753,
+      "eval_steps_per_second": 2.719,
       "step": 1054
     },
     {
       "epoch": 3.0,
+      "grad_norm": 18.01114845275879,
+      "learning_rate": 7.430806197731956e-06,
+      "loss": 1.0132,
       "step": 1581
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7844036697247706,
+      "eval_loss": 0.9622328281402588,
+      "eval_runtime": 2.5865,
+      "eval_samples_per_second": 337.137,
+      "eval_steps_per_second": 2.706,
       "step": 1581
     },
     {
       "epoch": 4.0,
+      "grad_norm": 15.912079811096191,
+      "learning_rate": 6.371276769700781e-06,
+      "loss": 0.9206,
       "step": 2108
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7901376146788991,
+      "eval_loss": 0.9278557896614075,
+      "eval_runtime": 2.5808,
+      "eval_samples_per_second": 337.878,
+      "eval_steps_per_second": 2.712,
       "step": 2108
     },
     {
       "epoch": 5.0,
+      "grad_norm": 10.149016380310059,
+      "learning_rate": 5.3097330271676446e-06,
+      "loss": 0.8564,
       "step": 2635
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7901376146788991,
+      "eval_loss": 0.9079629182815552,
+      "eval_runtime": 2.5658,
+      "eval_samples_per_second": 339.852,
+      "eval_steps_per_second": 2.728,
       "step": 2635
     },
     {
       "epoch": 6.0,
+      "grad_norm": 16.081409454345703,
+      "learning_rate": 4.248189284634507e-06,
+      "loss": 0.8139,
       "step": 3162
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7947247706422018,
+      "eval_loss": 0.8956273794174194,
+      "eval_runtime": 2.6131,
+      "eval_samples_per_second": 333.701,
+      "eval_steps_per_second": 2.679,
       "step": 3162
     },
     {
       "epoch": 7.0,
+      "grad_norm": 11.411503791809082,
+      "learning_rate": 3.1866455421013703e-06,
+      "loss": 0.7798,
       "step": 3689
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7924311926605505,
+      "eval_loss": 0.8861347436904907,
+      "eval_runtime": 2.6019,
+      "eval_samples_per_second": 335.138,
+      "eval_steps_per_second": 2.69,
       "step": 3689
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5270,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.27608826195592573,
+    "learning_rate": 1.0615437425331367e-05,
+    "num_train_epochs": 10,
+    "temperature": 2
   }
 }

run-0/checkpoint-3689/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f28149fe21091b257234d7cbe1611ee6ca88e3a7cef675e40e6d90410e6fc1a6
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8b6a60f7b85b38fa45cddf1a417ee51250fe5822237403416bf2406ff2cdb84
 size 5176