Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8680dced3930b9abcaa16374ccf16e3e11a09f4bff5b13e99058831dbac7136a
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f5cbe7a3b552f05f3563fcd2bc80d6b2d4e9fd013658478fd9a3872e397efe8
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9cacea682da039c7edf44c59f24360dad4d083c610f2f2574a0c14afe12bff0
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:39d39efa613b798fd03aa7aa59e14790c24a560f58a5ce98fbd4c0ad62ebd17c
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fba1ca94b44e4e4a1b4f9b82d10d6019eb9437e3c8e0ac1249502acb8cc9bc1b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa71a0412d6ad7eda1eee97e70ad545f4d60c017a08d85ea9e1f842b586619fa
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05d76a81ce579e0f1f2bb68af30a2e95dfeadbbfe77f982467ddb98b43e349b1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbab736cb879a4bc39da788157b54992b7cc13715d80715f4b4828876ce1b081
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 35.404720629417255,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-2000",
-  "epoch": 0.6428801028608164,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -603,6 +603,155 @@
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -610,7 +759,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 9.23473281024e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 33.57781037471663,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-2500",
+  "epoch": 0.8036001285760206,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 2000
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 9.923101425170898,
+      "learning_rate": 3.6067751577548985e-06,
+      "loss": 0.4361,
+      "step": 2025
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 9.01765251159668,
+      "learning_rate": 3.523746263699768e-06,
+      "loss": 0.3896,
+      "step": 2050
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 11.23643684387207,
+      "learning_rate": 3.4407173696446367e-06,
+      "loss": 0.3453,
+      "step": 2075
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 9.193674087524414,
+      "learning_rate": 3.3576884755895056e-06,
+      "loss": 0.3888,
+      "step": 2100
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 8.438018798828125,
+      "learning_rate": 3.274659581534374e-06,
+      "loss": 0.3798,
+      "step": 2125
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 9.949082374572754,
+      "learning_rate": 3.191630687479243e-06,
+      "loss": 0.3828,
+      "step": 2150
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 12.07507610321045,
+      "learning_rate": 3.1086017934241117e-06,
+      "loss": 0.4027,
+      "step": 2175
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 12.350488662719727,
+      "learning_rate": 3.025572899368981e-06,
+      "loss": 0.3791,
+      "step": 2200
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 12.681595802307129,
+      "learning_rate": 2.9425440053138495e-06,
+      "loss": 0.3863,
+      "step": 2225
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 13.789870262145996,
+      "learning_rate": 2.8595151112587184e-06,
+      "loss": 0.3688,
+      "step": 2250
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 11.885881423950195,
+      "learning_rate": 2.7764862172035872e-06,
+      "loss": 0.3661,
+      "step": 2275
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 10.707484245300293,
+      "learning_rate": 2.6934573231484557e-06,
+      "loss": 0.3731,
+      "step": 2300
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 12.371014595031738,
+      "learning_rate": 2.6104284290933245e-06,
+      "loss": 0.3651,
+      "step": 2325
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 12.415855407714844,
+      "learning_rate": 2.5273995350381934e-06,
+      "loss": 0.3529,
+      "step": 2350
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 12.046368598937988,
+      "learning_rate": 2.4443706409830623e-06,
+      "loss": 0.3565,
+      "step": 2375
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 10.2451810836792,
+      "learning_rate": 2.361341746927931e-06,
+      "loss": 0.3337,
+      "step": 2400
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 7.761926174163818,
+      "learning_rate": 2.2783128528728e-06,
+      "loss": 0.3636,
+      "step": 2425
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 9.736420631408691,
+      "learning_rate": 2.1952839588176684e-06,
+      "loss": 0.346,
+      "step": 2450
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 9.760013580322266,
+      "learning_rate": 2.1122550647625377e-06,
+      "loss": 0.3535,
+      "step": 2475
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 9.893476486206055,
+      "learning_rate": 2.029226170707406e-06,
+      "loss": 0.3758,
+      "step": 2500
+    },
+    {
+      "epoch": 0.8,
+      "eval_cer": 33.57781037471663,
+      "eval_loss": 0.43632233142852783,
+      "eval_runtime": 1812.7817,
+      "eval_samples_per_second": 2.447,
+      "eval_steps_per_second": 0.306,
+      "step": 2500
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 1.15434160128e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null