Training in progress, step 15100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:754b1828cc167e6cab0ffbfc255be209fdb52e699fa01a76ef98fb551e01e46f
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd61a41f4cf03f5858195ca5fe96d3c3669fe49f638ea09912e26a01aa52e086
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a389819ab49bc7ca78cb2be2fa01aa4870f6a6faba478c25fd1690a6389bc966
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:0916989ad40b3bfe12c6ac9e11f6329dbeaad0ddceacffcd280cb2def46715a8
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:414a7a1b420818e98a3d84f5bcf74aa2f7777a0ef52dcbde83df3ffb6cdca039
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2a98ae89a09009e626d84ebaa74d059e720c000f959a2a59e925259dd1b538d
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9c0687a4091703f6184c454999271ab1b078907b3d7227b3900790c9d656ca3
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c18a3a2fcaa038440f8b838aa2256d7e37374c67a3328231524132648f3eb179
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c25ac89a1303cae92d19e5e1836924b87fa1d1a947021780db194d57b5ef2f4
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a29cec3c1ed3d0958d8f6b240320ad40e3ee07494f39436857c7553488102e86
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.272363712902547,
   "eval_steps": 100,
-  "global_step": 14900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2391,6 +2391,38 @@
       "eval_samples_per_second": 26.387,
       "eval_steps_per_second": 3.299,
       "step": 14900
     }
   ],
   "logging_steps": 100,
@@ -2398,7 +2430,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.63280482609936e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.356556514418017,
   "eval_steps": 100,
+  "global_step": 15100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.387,
       "eval_steps_per_second": 3.299,
       "step": 14900
+    },
+    {
+      "epoch": 6.31,
+      "grad_norm": 4.323084354400635,
+      "learning_rate": 3.976042402826856e-05,
+      "loss": 1.4552,
+      "step": 15000
+    },
+    {
+      "epoch": 6.31,
+      "eval_cer": 0.459111395721716,
+      "eval_loss": 2.0859220027923584,
+      "eval_runtime": 380.4099,
+      "eval_samples_per_second": 24.915,
+      "eval_steps_per_second": 3.115,
+      "step": 15000
+    },
+    {
+      "epoch": 6.36,
+      "grad_norm": 3.9104325771331787,
+      "learning_rate": 3.968975265017668e-05,
+      "loss": 2.836,
+      "step": 15100
+    },
+    {
+      "epoch": 6.36,
+      "eval_cer": 0.47354180516991906,
+      "eval_loss": 1.5567090511322021,
+      "eval_runtime": 368.3958,
+      "eval_samples_per_second": 25.728,
+      "eval_steps_per_second": 3.217,
+      "step": 15100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.6546343911883774e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null