Training in progress, step 5500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f4b613c5f7354d671c93710070491406b34c5e5610b419a025fa57a760b0e36
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5bd30929a6dd034a66c5d64682b9b3cdc6f1915335f3bc1d67c8a2e7afa275
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55beb8afdf524f8623448ab9f2a94a2ee20efa6b3a4716501fffcf426568abda
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:0673f09c0825fa04b428f3263c1ec340a98a30b0050d9b657d3760f11d8c4051
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bb0e31972f31d6642dca556b6b92918a2f9af2dc789b1fb9a0b60e78133c947
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eff99030c3d6f5750daa7c2be6d4f88cb3d11423c32100f3c68edcfd52a81b3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5133b98c27975e2a75b74abd29527bed732dd00cbe36bc9a3146c616bc88352
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8beec2a3ed2d46be0542aeb907aa0e1e4613601adbf391ce67dcb87b78a7321a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 30.38405120682758,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-5000",
-  "epoch": 1.6072002571520412,
   "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1497,6 +1497,155 @@
       "eval_samples_per_second": 2.388,
       "eval_steps_per_second": 0.299,
       "step": 5000
     }
   ],
   "logging_steps": 25,
@@ -1504,7 +1653,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 2.30868320256e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 30.15735431390852,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-5500",
+  "epoch": 1.7679202828672453,
   "eval_steps": 500,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.388,
       "eval_steps_per_second": 0.299,
       "step": 5000
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 5.629392147064209,
+      "learning_rate": 1.9552433845148645e-06,
+      "loss": 0.1515,
+      "step": 5025
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 5.018975734710693,
+      "learning_rate": 1.914407056517478e-06,
+      "loss": 0.157,
+      "step": 5050
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 6.182131767272949,
+      "learning_rate": 1.8735707285200916e-06,
+      "loss": 0.13,
+      "step": 5075
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 9.000260353088379,
+      "learning_rate": 1.8327344005227052e-06,
+      "loss": 0.1726,
+      "step": 5100
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 6.853832244873047,
+      "learning_rate": 1.7918980725253188e-06,
+      "loss": 0.1451,
+      "step": 5125
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 5.68117618560791,
+      "learning_rate": 1.7510617445279321e-06,
+      "loss": 0.1518,
+      "step": 5150
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 4.632532119750977,
+      "learning_rate": 1.7102254165305457e-06,
+      "loss": 0.144,
+      "step": 5175
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 8.772269248962402,
+      "learning_rate": 1.6693890885331592e-06,
+      "loss": 0.1525,
+      "step": 5200
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 8.809287071228027,
+      "learning_rate": 1.6285527605357728e-06,
+      "loss": 0.132,
+      "step": 5225
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 7.337480545043945,
+      "learning_rate": 1.5877164325383862e-06,
+      "loss": 0.1549,
+      "step": 5250
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 5.269392013549805,
+      "learning_rate": 1.5468801045409997e-06,
+      "loss": 0.1524,
+      "step": 5275
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 7.877448558807373,
+      "learning_rate": 1.5060437765436133e-06,
+      "loss": 0.1421,
+      "step": 5300
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 6.454422950744629,
+      "learning_rate": 1.4652074485462266e-06,
+      "loss": 0.1377,
+      "step": 5325
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 7.873298645019531,
+      "learning_rate": 1.4243711205488402e-06,
+      "loss": 0.1446,
+      "step": 5350
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 6.6517486572265625,
+      "learning_rate": 1.383534792551454e-06,
+      "loss": 0.1482,
+      "step": 5375
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 9.937956809997559,
+      "learning_rate": 1.3426984645540676e-06,
+      "loss": 0.1306,
+      "step": 5400
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 4.228558540344238,
+      "learning_rate": 1.301862136556681e-06,
+      "loss": 0.1229,
+      "step": 5425
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 4.710421085357666,
+      "learning_rate": 1.2610258085592945e-06,
+      "loss": 0.1374,
+      "step": 5450
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 4.934779644012451,
+      "learning_rate": 1.220189480561908e-06,
+      "loss": 0.1321,
+      "step": 5475
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 9.244394302368164,
+      "learning_rate": 1.1793531525645214e-06,
+      "loss": 0.1343,
+      "step": 5500
+    },
+    {
+      "epoch": 1.77,
+      "eval_cer": 30.15735431390852,
+      "eval_loss": 0.3783666491508484,
+      "eval_runtime": 1871.1459,
+      "eval_samples_per_second": 2.371,
+      "eval_steps_per_second": 0.297,
+      "step": 5500
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 2.539551522816e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null