Training in progress, step 30300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29bf1bd1a29eb5633b481260ad7599097eaa5d7c51a43d3732ee4e625e08fcea
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:8547a7322e157d670ed2412e949d1f0885f06c8cbaac3795431c83b2400ad687
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8044684f43b677272561ea3d1bcd96015c8188001b76c77879238a204297d09
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e3f3da746f6d92e513538b782722aacd2930f02af3056fdc6b1b9211ad4f969
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e73302063cce900d8c19d9ee33a5ebc45e0e1fff2192c0fc7fb1a987eeacedd
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c32888919c52e486af2fe0eedfc4a55ab9ac5c7ea916faaf672fa4ba60c176a
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb57aa75f1c95997314f28233ee0e0924d6206251b056b5e55ea31aff2195d0
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:79dfeac7ede56e3f252c95778498b8d970c65dd0948b9c809c0a7dce43089bf1
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed7796dc0dfe9ec23d4d64125b7d9eadefb157806b1e2efe4f7c35f3e825e361
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:428cbf0e904ad9abe549f3777087cb24ea80512aa0df465c9f11ee3c360e92cf
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.671016628078299,
   "eval_steps": 100,
-  "global_step": 30100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4823,6 +4823,38 @@
       "eval_samples_per_second": 25.556,
       "eval_steps_per_second": 3.195,
       "step": 30100
     }
   ],
   "logging_steps": 100,
@@ -4830,7 +4862,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.298248713256518e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.75520942959377,
   "eval_steps": 100,
+  "global_step": 30300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.556,
       "eval_steps_per_second": 3.195,
       "step": 30100
+    },
+    {
+      "epoch": 12.71,
+      "grad_norm": 8.163016319274902,
+      "learning_rate": 2.9022614840989398e-05,
+      "loss": 1.2078,
+      "step": 30200
+    },
+    {
+      "epoch": 12.71,
+      "eval_cer": 0.41148908920261235,
+      "eval_loss": 2.2178566455841064,
+      "eval_runtime": 392.2715,
+      "eval_samples_per_second": 24.162,
+      "eval_steps_per_second": 3.021,
+      "step": 30200
+    },
+    {
+      "epoch": 12.76,
+      "grad_norm": 7.318975448608398,
+      "learning_rate": 2.895194346289753e-05,
+      "loss": 1.0775,
+      "step": 30300
+    },
+    {
+      "epoch": 12.76,
+      "eval_cer": 0.4067913847718118,
+      "eval_loss": 2.1497671604156494,
+      "eval_runtime": 374.4081,
+      "eval_samples_per_second": 25.315,
+      "eval_steps_per_second": 3.165,
+      "step": 30300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.3198106925315916e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null