Training in progress, step 30800, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b633a636ea01455d95405d2e7b2e68f22243db2a95c2ae32b4cbef581ddbdd59
 size 1262135480

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f03d9c4dc9c893251efad1bc77811226da4c4437220f84146189aacc8379d6a
 size 1262135480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:769c9a68ca83d6a5f45ce1b0ac12927d2eeea29b91278cdd3d6c171f5494dfc8
 size 2490815798

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2e73cccc71ac85f330e4ec678e7034ca077c18833bc67911a068fb1452dd155
 size 2490815798

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ae6e534def4a67be8922488d0e357ecaf484f188a6c773ca4a58237b636f659
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:84e13a4f3a8f7d56afd0f5f975612b4b8f9aa823d2e1d66e0bd153a61bf80520
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8f18eb855b7b39022ee052bd24985576b865c272695e8bedc0f3c7cee91e9b4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ec9c887ded84c0bb967a2d484366bc8237e2095772e8fe2c5537450af655bae
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.624151967435548,
   "eval_steps": 400,
-  "global_step": 30400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1223,6 +1223,22 @@
       "eval_steps_per_second": 0.8,
       "eval_wer": 0.03728239100292713,
       "step": 30400
     }
   ],
   "logging_steps": 400,
@@ -1230,7 +1246,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 21,
   "save_steps": 400,
-  "total_flos": 9.273468143459728e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.895522388059703,
   "eval_steps": 400,
+  "global_step": 30800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.8,
       "eval_wer": 0.03728239100292713,
       "step": 30400
+    },
+    {
+      "epoch": 20.9,
+      "grad_norm": 0.5151128172874451,
+      "learning_rate": 1.5170420962763511e-06,
+      "loss": 0.0409,
+      "step": 30800
+    },
+    {
+      "epoch": 20.9,
+      "eval_loss": 0.02457941137254238,
+      "eval_runtime": 218.4572,
+      "eval_samples_per_second": 6.404,
+      "eval_steps_per_second": 0.801,
+      "eval_wer": 0.03666615313511015,
+      "step": 30800
     }
   ],
   "logging_steps": 400,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 21,
   "save_steps": 400,
+  "total_flos": 9.394928547856309e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null