Training in progress, step 12700, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e66cbff19b835e3a4efcd7383600618ff3c16476f0e6cd4eea579eddd1014bc
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c6e9580fb798101735047d737cee85a6bb1061fad515187b2725aaa63bfedfc
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc5198d3d1c6fadab280de2b6cc23fa58362393be6da3bf2b3a8b16408384ea7
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e97e01dc64ab5637bb404489fce4bc374a9d40ac15f27ef1b88fa4b9f545c28
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55d601ccae8eead4998f520c0fb37f262fdc4af9674f4598e11e05776a91d57d
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:23b5eb8171ce3b32f1473da5c445fd724fddce4624bb8f3de388a3614ee04629
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0247765af733f816c82cb6abb0bd3fc92237d543333cca727d37eb273ded1c69
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d6c38bb1634ce2d5111d8f0da0ee0f0eeb90e7348bc821241c2773d71d06af6
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f487427df0aa8bfe421a7abbb408985bddad611dfcbca3d7c23ae5d19832455
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5e2d9a4da1dca4e718c671213c3210706697de61ee8df6908344ec05bce806c
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.262050094716901,
   "eval_steps": 100,
-  "global_step": 12500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2007,6 +2007,38 @@
       "eval_samples_per_second": 24.817,
       "eval_steps_per_second": 3.103,
       "step": 12500
     }
   ],
   "logging_steps": 100,
@@ -2014,7 +2046,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.3698617507925189e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.346242896232372,
   "eval_steps": 100,
+  "global_step": 12700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.817,
       "eval_steps_per_second": 3.103,
       "step": 12500
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 9.076600074768066,
+      "learning_rate": 4.1455830388692577e-05,
+      "loss": 2.0271,
+      "step": 12600
+    },
+    {
+      "epoch": 5.3,
+      "eval_cer": 0.48266591060185365,
+      "eval_loss": 2.858898639678955,
+      "eval_runtime": 405.4609,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 2.923,
+      "step": 12600
+    },
+    {
+      "epoch": 5.35,
+      "grad_norm": 1.6710706949234009,
+      "learning_rate": 4.138515901060071e-05,
+      "loss": 1.7331,
+      "step": 12700
+    },
+    {
+      "epoch": 5.35,
+      "eval_cer": 0.501048551093035,
+      "eval_loss": 2.9208521842956543,
+      "eval_runtime": 361.6906,
+      "eval_samples_per_second": 26.205,
+      "eval_steps_per_second": 3.276,
+      "step": 12700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.3921302086472671e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null