Training in progress, step 27300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8e542af8d76367f68d7013ad25645c5c0bb83d400a9c28ba347486b7e1af191
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:e15296cc7fc7c22faf537cf2d8c8189212cd4050aec0cc26ecd5ca6b2b31430c
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76ef8497c6e127aeccc2e106755bbf32a546fa8428fa8775d2e9e8d8e5652691
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:efb178d8b8052b34bfc9ce5171bddbd008d7445958fd6793e6c78c28460f94e3
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e7d171ad28335cab6bd4c1150438a645740b385e44943066cf6cf9cdad1d0a8
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:616fbff97ed13f412ac2118b023cc68e97d2cdaa667165e80291c9b722839e9c
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b0fd6f9494bd763f598141a559ed76c4d8dfcfafe1cb83a86b361df0b818dea
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e1fa851642b5df9872122f6cd49ffbd3855aa0c135f0547c13649b70bce71d4
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:945cfe3d07d63b571472084df19a5a6f95aade9bf666b3cf8938678e9d425fd2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1556b06bd9834de95519bce0dfbc04d14a4931ce96de22038d246f85d978575d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.408124605346243,
   "eval_steps": 100,
-  "global_step": 27100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4343,6 +4343,38 @@
       "eval_samples_per_second": 25.753,
       "eval_steps_per_second": 3.22,
       "step": 27100
     }
   ],
   "logging_steps": 100,
@@ -4350,7 +4382,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.96989846970687e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.492317406861714,
   "eval_steps": 100,
+  "global_step": 27300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.753,
       "eval_steps_per_second": 3.22,
       "step": 27100
+    },
+    {
+      "epoch": 11.45,
+      "grad_norm": 1.9599921703338623,
+      "learning_rate": 3.1141342756183745e-05,
+      "loss": 1.1358,
+      "step": 27200
+    },
+    {
+      "epoch": 11.45,
+      "eval_cer": 0.4173404442532556,
+      "eval_loss": 1.598440170288086,
+      "eval_runtime": 388.8994,
+      "eval_samples_per_second": 24.371,
+      "eval_steps_per_second": 3.047,
+      "step": 27200
+    },
+    {
+      "epoch": 11.49,
+      "grad_norm": 1.7773711681365967,
+      "learning_rate": 3.107067137809187e-05,
+      "loss": 1.1567,
+      "step": 27300
+    },
+    {
+      "epoch": 11.49,
+      "eval_cer": 0.4288060693754644,
+      "eval_loss": 3.0100185871124268,
+      "eval_runtime": 392.5508,
+      "eval_samples_per_second": 24.145,
+      "eval_steps_per_second": 3.019,
+      "step": 27300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.992071149315134e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null