Training in progress, step 33100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43cf24c50a2fb90dff7e6f39ca95373b4b3a194b6e7b5ea3450b567d1cf2acd4
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:80dede518c72c0bba9c223e7cfed76911fa6394ec26c0650d7e326e1c552fcec
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4045e3043dff6c75ceb1ceaf8651a36ad38e032419f1934e6b35b395ed37e495
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:8698a6f801a918beb15989fb2bf3a1edbdc2ca6625d90e61434980880b6dbe95
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:830da9de182f0cddc597083bf4f5e081033ce68dba8352d3fc4bd7b82acf4629
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:e88f56416695277fa9c9a9d86e755d054a221cbf389be803e09487f20a0bdc4c
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66bf72c9582e89b0605330cab03a1ed6574afa16c96e8aa002547f90558e0a41
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:7801270dd1e1084f5e8f44290a74a4794810996f2cc1dc68247d892f66491210
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fea4ba0cc40f8b6ca722c0ae8b27293a5270b2e8eb60bc080bc213006fdf44bc
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:09f7576dd710ccdafe6cc17194e31546db69ecc2b7cc2efcd8719730dbf27b3b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 13.849715849294885,
   "eval_steps": 100,
-  "global_step": 32900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5271,6 +5271,38 @@
       "eval_samples_per_second": 25.413,
       "eval_steps_per_second": 3.177,
       "step": 32900
     }
   ],
   "logging_steps": 100,
@@ -5278,7 +5310,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.6049959871612964e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 13.933908650810356,
   "eval_steps": 100,
+  "global_step": 33100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.413,
       "eval_steps_per_second": 3.177,
       "step": 32900
+    },
+    {
+      "epoch": 13.89,
+      "grad_norm": 73.3850326538086,
+      "learning_rate": 2.7043816254416965e-05,
+      "loss": 1.0211,
+      "step": 33000
+    },
+    {
+      "epoch": 13.89,
+      "eval_cer": 0.405021802041375,
+      "eval_loss": 2.4291627407073975,
+      "eval_runtime": 390.776,
+      "eval_samples_per_second": 24.254,
+      "eval_steps_per_second": 3.032,
+      "step": 33000
+    },
+    {
+      "epoch": 13.93,
+      "grad_norm": 2.177152395248413,
+      "learning_rate": 2.697314487632509e-05,
+      "loss": 1.2605,
+      "step": 33100
+    },
+    {
+      "epoch": 13.93,
+      "eval_cer": 0.40312512220875213,
+      "eval_loss": 2.450680732727051,
+      "eval_runtime": 369.1148,
+      "eval_samples_per_second": 25.678,
+      "eval_steps_per_second": 3.21,
+      "step": 33100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.627266703487163e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null