Training in progress, epoch 5

Browse files

Files changed (7) hide show

logs/events.out.tfevents.1719310313.852b1e905a9a.223.5 +2 -2
model.safetensors +1 -1
run-0/checkpoint-2635/model.safetensors +1 -1
run-0/checkpoint-2635/optimizer.pt +1 -1
run-0/checkpoint-2635/scheduler.pt +1 -1
run-0/checkpoint-2635/trainer_state.json +47 -47
run-0/checkpoint-2635/training_args.bin +1 -1

logs/events.out.tfevents.1719310313.852b1e905a9a.223.5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13db40c1abd5d76b271df9c5dfc7c0b7fa4901162dc7f425ca1e0dcba973112c
-size 7031

 version https://git-lfs.github.com/spec/v1
+oid sha256:d753cd9c975379dd90b5d356886d24298df7ec6c21398a39b744289b5bd80a24
+size 7565

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3270a719696d1eac1554368a9133f99df33c8a3389f4ea80fa8a91759101b0db
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:97d865cd86bbd82a83507568d3aedd623e054710a155c7e8e3cddf0ba2b7c970
 size 17549312

run-0/checkpoint-2635/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13db367b7bb0be3f189d8bcc949537b56469d1797a9348d1098d94dc6f5f312f
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:97d865cd86bbd82a83507568d3aedd623e054710a155c7e8e3cddf0ba2b7c970
 size 17549312

run-0/checkpoint-2635/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4ded2a64486b4a0b1aef7b1b09417a73aafbd6750e26187cc9f923bee70695a
 size 35123898

 version https://git-lfs.github.com/spec/v1
+oid sha256:411d4a259c8fa9a87289e34fff54a2e6c2e0ef7a6b6849e6c09765df6e8a7231
 size 35123898

run-0/checkpoint-2635/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57b08dca640e3ef73a1c869e607bff887b8aa3125fe523187cd90566b52fb145
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:df84e2defff0a89c50d6ecfe3af72964771176bb02b29e21d7c805a04bf660db
 size 1064

run-0/checkpoint-2635/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.7901376146788991,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-2108",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -10,89 +10,89 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.95961856842041,
-      "learning_rate": 9.55389368279823e-06,
-      "loss": 1.5369,
       "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 1.2773902416229248,
-      "eval_runtime": 2.5957,
-      "eval_samples_per_second": 335.939,
-      "eval_steps_per_second": 2.697,
       "step": 527
     },
     {
       "epoch": 2.0,
-      "grad_norm": 15.252978324890137,
-      "learning_rate": 8.492349940265094e-06,
-      "loss": 1.2159,
       "step": 1054
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7786697247706422,
-      "eval_loss": 1.022659182548523,
-      "eval_runtime": 2.5741,
-      "eval_samples_per_second": 338.753,
-      "eval_steps_per_second": 2.719,
       "step": 1054
     },
     {
       "epoch": 3.0,
-      "grad_norm": 18.01114845275879,
-      "learning_rate": 7.430806197731956e-06,
-      "loss": 1.0132,
       "step": 1581
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7844036697247706,
-      "eval_loss": 0.9622328281402588,
-      "eval_runtime": 2.5865,
-      "eval_samples_per_second": 337.137,
-      "eval_steps_per_second": 2.706,
       "step": 1581
     },
     {
       "epoch": 4.0,
-      "grad_norm": 15.912079811096191,
-      "learning_rate": 6.371276769700781e-06,
-      "loss": 0.9206,
       "step": 2108
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7901376146788991,
-      "eval_loss": 0.9278557896614075,
-      "eval_runtime": 2.5808,
-      "eval_samples_per_second": 337.878,
-      "eval_steps_per_second": 2.712,
       "step": 2108
     },
     {
       "epoch": 5.0,
-      "grad_norm": 10.149016380310059,
-      "learning_rate": 5.3097330271676446e-06,
-      "loss": 0.8564,
       "step": 2635
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7901376146788991,
-      "eval_loss": 0.9079629182815552,
-      "eval_runtime": 2.5658,
-      "eval_samples_per_second": 339.852,
-      "eval_steps_per_second": 2.728,
       "step": 2635
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5270,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -110,9 +110,9 @@
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.27608826195592573,
-    "learning_rate": 1.0615437425331367e-05,
-    "num_train_epochs": 10,
-    "temperature": 2
   }
 }

 {
+  "best_metric": 0.801605504587156,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-0/checkpoint-2108",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 12.377176284790039,
+      "learning_rate": 1.5980854192157344e-05,
+      "loss": 3.0218,
       "step": 527
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7672018348623854,
+      "eval_loss": 2.191861391067505,
+      "eval_runtime": 2.5906,
+      "eval_samples_per_second": 336.603,
+      "eval_steps_per_second": 2.702,
       "step": 527
     },
     {
       "epoch": 2.0,
+      "grad_norm": Infinity,
+      "learning_rate": 1.2796813034327135e-05,
+      "loss": 2.0797,
       "step": 1054
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7809633027522935,
+      "eval_loss": 1.8230279684066772,
+      "eval_runtime": 2.5719,
+      "eval_samples_per_second": 339.043,
+      "eval_steps_per_second": 2.722,
       "step": 1054
     },
     {
       "epoch": 3.0,
+      "grad_norm": 40.96967315673828,
+      "learning_rate": 9.600642195895665e-06,
+      "loss": 1.697,
       "step": 1581
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.786697247706422,
+      "eval_loss": 1.7212010622024536,
+      "eval_runtime": 2.549,
+      "eval_samples_per_second": 342.099,
+      "eval_steps_per_second": 2.746,
       "step": 1581
     },
     {
       "epoch": 4.0,
+      "grad_norm": 35.09682846069336,
+      "learning_rate": 6.4044713574641965e-06,
+      "loss": 1.5166,
       "step": 2108
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.801605504587156,
+      "eval_loss": 1.6234298944473267,
+      "eval_runtime": 2.5722,
+      "eval_samples_per_second": 339.013,
+      "eval_steps_per_second": 2.721,
       "step": 2108
     },
     {
       "epoch": 5.0,
+      "grad_norm": 10.431685447692871,
+      "learning_rate": 3.208300519032727e-06,
+      "loss": 1.4053,
       "step": 2635
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7993119266055045,
+      "eval_loss": 1.5793094635009766,
+      "eval_runtime": 2.5626,
+      "eval_samples_per_second": 340.279,
+      "eval_steps_per_second": 2.732,
       "step": 2635
     }
   ],
   "logging_steps": 500,
+  "max_steps": 3162,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.275210688972374,
+    "learning_rate": 1.9177025030588814e-05,
+    "num_train_epochs": 6,
+    "temperature": 6
   }
 }

run-0/checkpoint-2635/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8b6a60f7b85b38fa45cddf1a417ee51250fe5822237403416bf2406ff2cdb84
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:15e7b4feae857373f91378a3d0efc15d0ec396bfba71e74c965086843aa6acf4
 size 5176