Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f5cbe7a3b552f05f3563fcd2bc80d6b2d4e9fd013658478fd9a3872e397efe8
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:68ace8ab88257180b9b19d22e73ca0eb174cc49a049bf9f0dc62b1f503f9cd9b
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39d39efa613b798fd03aa7aa59e14790c24a560f58a5ce98fbd4c0ad62ebd17c
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:42cc5fef3c93f4a98b9dfbcd0c0efabf56eedbaaf47f80fba7d0576a93b71cc5
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa71a0412d6ad7eda1eee97e70ad545f4d60c017a08d85ea9e1f842b586619fa
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b8a110cf16dd72953b8a32748d8e93690bcfcb44bf5ed86567dd5f09eef99b0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbab736cb879a4bc39da788157b54992b7cc13715d80715f4b4828876ce1b081
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f19acef04f74a67b72c346e1de3ca6a81246cd09521ad3137e76cebdd2afa40
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 33.57781037471663,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-2500",
-  "epoch": 0.8036001285760206,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -752,6 +752,155 @@
       "eval_samples_per_second": 2.447,
       "eval_steps_per_second": 0.306,
       "step": 2500
     }
   ],
   "logging_steps": 25,
@@ -759,7 +908,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.15434160128e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 32.611014801973596,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-3000",
+  "epoch": 0.9643201542912246,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.447,
       "eval_steps_per_second": 0.306,
       "step": 2500
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 11.384421348571777,
+      "learning_rate": 1.946197276652275e-06,
+      "loss": 0.3466,
+      "step": 2525
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 9.347311973571777,
+      "learning_rate": 1.863168382597144e-06,
+      "loss": 0.3558,
+      "step": 2550
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 9.740177154541016,
+      "learning_rate": 1.7801394885420128e-06,
+      "loss": 0.4067,
+      "step": 2575
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 10.038185119628906,
+      "learning_rate": 1.6971105944868814e-06,
+      "loss": 0.3431,
+      "step": 2600
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 8.289875984191895,
+      "learning_rate": 1.6140817004317505e-06,
+      "loss": 0.3821,
+      "step": 2625
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 11.42772388458252,
+      "learning_rate": 1.5310528063766192e-06,
+      "loss": 0.3611,
+      "step": 2650
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 8.776933670043945,
+      "learning_rate": 1.4480239123214878e-06,
+      "loss": 0.3241,
+      "step": 2675
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 14.44870376586914,
+      "learning_rate": 1.364995018266357e-06,
+      "loss": 0.3659,
+      "step": 2700
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 7.697235584259033,
+      "learning_rate": 1.2819661242112256e-06,
+      "loss": 0.317,
+      "step": 2725
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 9.33436107635498,
+      "learning_rate": 1.1989372301560944e-06,
+      "loss": 0.3243,
+      "step": 2750
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 7.878904819488525,
+      "learning_rate": 1.115908336100963e-06,
+      "loss": 0.2832,
+      "step": 2775
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 8.996261596679688,
+      "learning_rate": 1.032879442045832e-06,
+      "loss": 0.3585,
+      "step": 2800
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 10.357467651367188,
+      "learning_rate": 9.498505479907008e-07,
+      "loss": 0.3256,
+      "step": 2825
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 10.002203941345215,
+      "learning_rate": 8.668216539355696e-07,
+      "loss": 0.3459,
+      "step": 2850
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 10.587177276611328,
+      "learning_rate": 7.837927598804385e-07,
+      "loss": 0.3161,
+      "step": 2875
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 7.054004192352295,
+      "learning_rate": 7.007638658253073e-07,
+      "loss": 0.3362,
+      "step": 2900
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 10.065168380737305,
+      "learning_rate": 6.177349717701761e-07,
+      "loss": 0.3107,
+      "step": 2925
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 9.83284854888916,
+      "learning_rate": 5.347060777150448e-07,
+      "loss": 0.3301,
+      "step": 2950
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 11.811662673950195,
+      "learning_rate": 4.5167718365991366e-07,
+      "loss": 0.3792,
+      "step": 2975
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 11.07596206665039,
+      "learning_rate": 3.686482896047825e-07,
+      "loss": 0.3191,
+      "step": 3000
+    },
+    {
+      "epoch": 0.96,
+      "eval_cer": 32.611014801973596,
+      "eval_loss": 0.4216199815273285,
+      "eval_runtime": 1822.6334,
+      "eval_samples_per_second": 2.434,
+      "eval_steps_per_second": 0.305,
+      "step": 3000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 1.385209921536e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null