Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f238cd0948b63bcc38c31fc5ffac173dfbf9e4dd7ae0e58b3939dce2014b3334
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a09121d6d3eee2936978fd6c56b1964e1bbfa8c1b2ba09cbdd38897b94a77ae
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae4bdb35e2cfa6ff7cea529359f7d062822060c3b215ebacd7bc00e24a36204f
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:707058d813facf683e36e5998c502da22a8bda798044802fa93b8818e84308e9
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69855359c3b57278083d84101af49ff74c6759028b4bce6d7d9917534de6a5b9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d674cc410420434f566f66b73fcc1d8861fc1ac2b81a6518f434e4af5aa0734f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5af4d52c904e89f604184d696deb9b3da1bca80a50fa03227f0b0b8aea3e335
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7613bb05f834433908984d2661d965a40a71dcb872e212158c34c801216b6c4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 32.49766635551407,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-3500",
-  "epoch": 1.1250401800064287,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1050,6 +1050,155 @@
       "eval_samples_per_second": 2.4,
       "eval_steps_per_second": 0.3,
       "step": 3500
     }
   ],
   "logging_steps": 25,
@@ -1057,7 +1206,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 1.616078241792e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 31.99093212428324,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-4000",
+  "epoch": 1.2857602057216329,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.4,
       "eval_steps_per_second": 0.3,
       "step": 3500
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 9.02902603149414,
+      "learning_rate": 4.405423064358053e-06,
+      "loss": 0.2382,
+      "step": 3525
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 8.05671215057373,
+      "learning_rate": 4.364586736360667e-06,
+      "loss": 0.222,
+      "step": 3550
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 10.546473503112793,
+      "learning_rate": 4.32375040836328e-06,
+      "loss": 0.2131,
+      "step": 3575
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 8.884702682495117,
+      "learning_rate": 4.282914080365894e-06,
+      "loss": 0.1886,
+      "step": 3600
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 7.569803237915039,
+      "learning_rate": 4.242077752368508e-06,
+      "loss": 0.222,
+      "step": 3625
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 6.256328105926514,
+      "learning_rate": 4.201241424371121e-06,
+      "loss": 0.2083,
+      "step": 3650
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 6.724915027618408,
+      "learning_rate": 4.1604050963737345e-06,
+      "loss": 0.2452,
+      "step": 3675
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 11.219491004943848,
+      "learning_rate": 4.119568768376348e-06,
+      "loss": 0.2217,
+      "step": 3700
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 6.6789469718933105,
+      "learning_rate": 4.078732440378961e-06,
+      "loss": 0.1958,
+      "step": 3725
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 7.929986476898193,
+      "learning_rate": 4.037896112381575e-06,
+      "loss": 0.1863,
+      "step": 3750
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 8.032015800476074,
+      "learning_rate": 3.997059784384189e-06,
+      "loss": 0.2153,
+      "step": 3775
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 8.176934242248535,
+      "learning_rate": 3.956223456386802e-06,
+      "loss": 0.1971,
+      "step": 3800
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 10.322613716125488,
+      "learning_rate": 3.9153871283894155e-06,
+      "loss": 0.1991,
+      "step": 3825
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 7.837410926818848,
+      "learning_rate": 3.874550800392029e-06,
+      "loss": 0.2043,
+      "step": 3850
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 12.684860229492188,
+      "learning_rate": 3.833714472394642e-06,
+      "loss": 0.2008,
+      "step": 3875
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 7.476794242858887,
+      "learning_rate": 3.7928781443972564e-06,
+      "loss": 0.2199,
+      "step": 3900
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 4.45359992980957,
+      "learning_rate": 3.7520418163998693e-06,
+      "loss": 0.196,
+      "step": 3925
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 9.373842239379883,
+      "learning_rate": 3.7112054884024835e-06,
+      "loss": 0.1939,
+      "step": 3950
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 6.383950233459473,
+      "learning_rate": 3.670369160405097e-06,
+      "loss": 0.2066,
+      "step": 3975
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 5.862789154052734,
+      "learning_rate": 3.6295328324077102e-06,
+      "loss": 0.1806,
+      "step": 4000
+    },
+    {
+      "epoch": 1.29,
+      "eval_cer": 31.99093212428324,
+      "eval_loss": 0.4084797203540802,
+      "eval_runtime": 1898.761,
+      "eval_samples_per_second": 2.336,
+      "eval_steps_per_second": 0.292,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 1.846946562048e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null