Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a80df9d35d56a8267e8b6930d4a1feab990c862ad5d372dc1cf99f1ebb71fa00
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:8680dced3930b9abcaa16374ccf16e3e11a09f4bff5b13e99058831dbac7136a
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f42218cd4fb87045f6ae4434d85dd0960590211fc91c131590301dacdaf970c3
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9cacea682da039c7edf44c59f24360dad4d083c610f2f2574a0c14afe12bff0
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74b353ceab33af34d958a5853dd8446e5dbd5378fd20d13cb24ab0b94e04b08b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fba1ca94b44e4e4a1b4f9b82d10d6019eb9437e3c8e0ac1249502acb8cc9bc1b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4020325e91a2750bc47a21538450c88651353213bb907e48726111419ca26f3d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:05d76a81ce579e0f1f2bb68af30a2e95dfeadbbfe77f982467ddb98b43e349b1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 37.618349113215096,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-1500",
-  "epoch": 0.4821600771456123,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -454,6 +454,155 @@
       "eval_samples_per_second": 2.465,
       "eval_steps_per_second": 0.308,
       "step": 1500
     }
   ],
   "logging_steps": 25,
@@ -461,7 +610,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 6.92604960768e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 35.404720629417255,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-2000",
+  "epoch": 0.6428801028608164,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.465,
       "eval_steps_per_second": 0.308,
       "step": 1500
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 9.844304084777832,
+      "learning_rate": 5.267353038857523e-06,
+      "loss": 0.5035,
+      "step": 1525
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 11.165616035461426,
+      "learning_rate": 5.184324144802392e-06,
+      "loss": 0.449,
+      "step": 1550
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 10.43535327911377,
+      "learning_rate": 5.10129525074726e-06,
+      "loss": 0.4471,
+      "step": 1575
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 9.737510681152344,
+      "learning_rate": 5.0182663566921295e-06,
+      "loss": 0.4779,
+      "step": 1600
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 10.221022605895996,
+      "learning_rate": 4.935237462636998e-06,
+      "loss": 0.4266,
+      "step": 1625
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 7.031712532043457,
+      "learning_rate": 4.852208568581867e-06,
+      "loss": 0.4355,
+      "step": 1650
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 10.13843822479248,
+      "learning_rate": 4.769179674526736e-06,
+      "loss": 0.4506,
+      "step": 1675
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 14.100777626037598,
+      "learning_rate": 4.686150780471604e-06,
+      "loss": 0.4484,
+      "step": 1700
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 11.218331336975098,
+      "learning_rate": 4.603121886416473e-06,
+      "loss": 0.4637,
+      "step": 1725
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 9.891203880310059,
+      "learning_rate": 4.520092992361343e-06,
+      "loss": 0.4142,
+      "step": 1750
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 9.585916519165039,
+      "learning_rate": 4.437064098306211e-06,
+      "loss": 0.4202,
+      "step": 1775
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 10.81905460357666,
+      "learning_rate": 4.35403520425108e-06,
+      "loss": 0.4459,
+      "step": 1800
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 13.257423400878906,
+      "learning_rate": 4.271006310195949e-06,
+      "loss": 0.448,
+      "step": 1825
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 9.057276725769043,
+      "learning_rate": 4.187977416140817e-06,
+      "loss": 0.4043,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 11.002601623535156,
+      "learning_rate": 4.104948522085686e-06,
+      "loss": 0.4011,
+      "step": 1875
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 15.421494483947754,
+      "learning_rate": 4.021919628030555e-06,
+      "loss": 0.4208,
+      "step": 1900
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 12.186066627502441,
+      "learning_rate": 3.938890733975424e-06,
+      "loss": 0.389,
+      "step": 1925
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 8.680899620056152,
+      "learning_rate": 3.855861839920293e-06,
+      "loss": 0.4189,
+      "step": 1950
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 10.597740173339844,
+      "learning_rate": 3.7728329458651612e-06,
+      "loss": 0.3654,
+      "step": 1975
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 10.675308227539062,
+      "learning_rate": 3.6898040518100305e-06,
+      "loss": 0.3512,
+      "step": 2000
+    },
+    {
+      "epoch": 0.64,
+      "eval_cer": 35.404720629417255,
+      "eval_loss": 0.4709227383136749,
+      "eval_runtime": 1802.3985,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 0.308,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 9.23473281024e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null