Training in progress, step 30100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c65a4983271581f7832e9fd374dbc6b246da39cee2dfc60b53fa1d44b5bb1aa8
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:29bf1bd1a29eb5633b481260ad7599097eaa5d7c51a43d3732ee4e625e08fcea
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e48477b3833582447d116b3875b936c6fbc79f219715a7548f995e773a3beb9
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8044684f43b677272561ea3d1bcd96015c8188001b76c77879238a204297d09
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2393a4407e77990cc384c3df22dabed19ea02921b1539d0c2226cdd68e80dbfc
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e73302063cce900d8c19d9ee33a5ebc45e0e1fff2192c0fc7fb1a987eeacedd
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a75caa93515fbe3b2dde54a5881684cb3634e004fc9e181a959f7cb2a3a1cf4
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdb57aa75f1c95997314f28233ee0e0924d6206251b056b5e55ea31aff2195d0
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:140f760da868d14f720ef947f1dcef91d11508bf77dfffd336552f0c1d799f8d
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed7796dc0dfe9ec23d4d64125b7d9eadefb157806b1e2efe4f7c35f3e825e361
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.58682382656283,
   "eval_steps": 100,
-  "global_step": 29900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4791,6 +4791,38 @@
       "eval_samples_per_second": 25.747,
       "eval_steps_per_second": 3.219,
       "step": 29900
     }
   ],
   "logging_steps": 100,
@@ -4798,7 +4830,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.276539803799841e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.671016628078299,
   "eval_steps": 100,
+  "global_step": 30100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.747,
       "eval_steps_per_second": 3.219,
       "step": 29900
+    },
+    {
+      "epoch": 12.63,
+      "grad_norm": 5.468438148498535,
+      "learning_rate": 2.916395759717315e-05,
+      "loss": 1.3109,
+      "step": 30000
+    },
+    {
+      "epoch": 12.63,
+      "eval_cer": 0.4083043291228345,
+      "eval_loss": 2.8631815910339355,
+      "eval_runtime": 397.7294,
+      "eval_samples_per_second": 23.83,
+      "eval_steps_per_second": 2.979,
+      "step": 30000
+    },
+    {
+      "epoch": 12.67,
+      "grad_norm": 3.4033985137939453,
+      "learning_rate": 2.9093286219081274e-05,
+      "loss": 1.0724,
+      "step": 30100
+    },
+    {
+      "epoch": 12.67,
+      "eval_cer": 0.4132855578585116,
+      "eval_loss": 2.082000732421875,
+      "eval_runtime": 370.8747,
+      "eval_samples_per_second": 25.556,
+      "eval_steps_per_second": 3.195,
+      "step": 30100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.298248713256518e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null