Training in progress, step 12900, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c6e9580fb798101735047d737cee85a6bb1061fad515187b2725aaa63bfedfc
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:57c6b54d077cb667a4cfbe738582da2ecd39159286c41485b7c6efd53cb7bc1a
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e97e01dc64ab5637bb404489fce4bc374a9d40ac15f27ef1b88fa4b9f545c28
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:45da60abe68c6f65c5ae53251ba8b983302267f69d34edaa7bf0ebf95d54ac3a
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23b5eb8171ce3b32f1473da5c445fd724fddce4624bb8f3de388a3614ee04629
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a67ddb96ec88d7be4083d93ecc9ee80924bab46ac10dc058c48085c087713d8
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d6c38bb1634ce2d5111d8f0da0ee0f0eeb90e7348bc821241c2773d71d06af6
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b3ac36e7fbd4b3c080b9441c4f2b70acea99b1b8d1002061ebda98ec5266a7e
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5e2d9a4da1dca4e718c671213c3210706697de61ee8df6908344ec05bce806c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c402405be7dbbda177a1e84950f8dcd4bc4f3baf7fe67d401f484f341b04e122
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.346242896232372,
   "eval_steps": 100,
-  "global_step": 12700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2039,6 +2039,38 @@
       "eval_samples_per_second": 26.205,
       "eval_steps_per_second": 3.276,
       "step": 12700
     }
   ],
   "logging_steps": 100,
@@ -2046,7 +2078,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.3921302086472671e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.430435697747843,
   "eval_steps": 100,
+  "global_step": 12900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.205,
       "eval_steps_per_second": 3.276,
       "step": 12700
+    },
+    {
+      "epoch": 5.39,
+      "grad_norm": 1.902030348777771,
+      "learning_rate": 4.131448763250883e-05,
+      "loss": 2.1405,
+      "step": 12800
+    },
+    {
+      "epoch": 5.39,
+      "eval_cer": 0.4769636502287748,
+      "eval_loss": 2.750805139541626,
+      "eval_runtime": 383.778,
+      "eval_samples_per_second": 24.697,
+      "eval_steps_per_second": 3.088,
+      "step": 12800
+    },
+    {
+      "epoch": 5.43,
+      "grad_norm": 5.2548041343688965,
+      "learning_rate": 4.124381625441696e-05,
+      "loss": 1.967,
+      "step": 12900
+    },
+    {
+      "epoch": 5.43,
+      "eval_cer": 0.4813216143287318,
+      "eval_loss": 2.39349627494812,
+      "eval_runtime": 366.8876,
+      "eval_samples_per_second": 25.834,
+      "eval_steps_per_second": 3.23,
+      "step": 12900
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.4138922393346692e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null