Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f2356b224b2b3b49bdabac4a3bc65fa8bbafccefee46eb047ebe3a9c43d31ff
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7689f46088a5cec225dadabb3934d0b9761fa87bb74c4aefc8f88894ccf100b
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b033003fcf6e5b455d23265b57c5d28176b7d58184de12ca2ee4a174ea97ca33
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:912ee0a66a6adc271f74f3d1dcf148bd14457316cea493fa2e1cf64d5a6a6309
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9203abee247094b80f8593f8b0ff02ca19083755923e560ee1aad7ddcb2a175
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5e82f96b77a35761cfa17e364b44b3b766596ff201963b0dda148aa2e1b89fb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad91f4a11954d1328db58fecd37f210630b64fe21a413fb880e5b1a7f88816c3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e691e2357f41aae54a4940e81c3678665984cf02110e0bb9f9a240c04290d15
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 55.83411121482864,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-500",
-  "epoch": 0.1607200257152041,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -156,6 +156,155 @@
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 500
     }
   ],
   "logging_steps": 25,
@@ -163,7 +312,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.30868320256e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 41.15215362048273,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-1000",
+  "epoch": 0.3214400514304082,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.461,
       "eval_steps_per_second": 0.308,
       "step": 500
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 13.947765350341797,
+      "learning_rate": 8.588508801062771e-06,
+      "loss": 0.7784,
+      "step": 525
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 11.999704360961914,
+      "learning_rate": 8.50547990700764e-06,
+      "loss": 0.7646,
+      "step": 550
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 12.103652954101562,
+      "learning_rate": 8.422451012952508e-06,
+      "loss": 0.7001,
+      "step": 575
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 13.490057945251465,
+      "learning_rate": 8.339422118897376e-06,
+      "loss": 0.7941,
+      "step": 600
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 13.992444038391113,
+      "learning_rate": 8.256393224842247e-06,
+      "loss": 0.6561,
+      "step": 625
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 14.403618812561035,
+      "learning_rate": 8.173364330787115e-06,
+      "loss": 0.6618,
+      "step": 650
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 12.38306713104248,
+      "learning_rate": 8.090335436731984e-06,
+      "loss": 0.7515,
+      "step": 675
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 13.88232135772705,
+      "learning_rate": 8.007306542676852e-06,
+      "loss": 0.6823,
+      "step": 700
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 14.506720542907715,
+      "learning_rate": 7.92427764862172e-06,
+      "loss": 0.662,
+      "step": 725
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 11.101289749145508,
+      "learning_rate": 7.841248754566589e-06,
+      "loss": 0.6974,
+      "step": 750
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 10.762197494506836,
+      "learning_rate": 7.758219860511459e-06,
+      "loss": 0.6643,
+      "step": 775
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 14.123621940612793,
+      "learning_rate": 7.675190966456327e-06,
+      "loss": 0.6878,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 13.668756484985352,
+      "learning_rate": 7.592162072401196e-06,
+      "loss": 0.6102,
+      "step": 825
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 13.39156723022461,
+      "learning_rate": 7.509133178346065e-06,
+      "loss": 0.6133,
+      "step": 850
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 11.687459945678711,
+      "learning_rate": 7.426104284290934e-06,
+      "loss": 0.6139,
+      "step": 875
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 14.004112243652344,
+      "learning_rate": 7.343075390235803e-06,
+      "loss": 0.6257,
+      "step": 900
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 13.317120552062988,
+      "learning_rate": 7.260046496180671e-06,
+      "loss": 0.6616,
+      "step": 925
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 13.344803810119629,
+      "learning_rate": 7.17701760212554e-06,
+      "loss": 0.6086,
+      "step": 950
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 12.64527416229248,
+      "learning_rate": 7.09398870807041e-06,
+      "loss": 0.5734,
+      "step": 975
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 9.928169250488281,
+      "learning_rate": 7.0109598140152775e-06,
+      "loss": 0.5845,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "eval_cer": 41.15215362048273,
+      "eval_loss": 0.5947259068489075,
+      "eval_runtime": 1807.1895,
+      "eval_samples_per_second": 2.455,
+      "eval_steps_per_second": 0.307,
+      "step": 1000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 4.61736640512e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null