Training in progress, step 19200, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b96997d86855d69f2ad5126d93fcaa54d3bb37195a13dc04ebef709b51c988a
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:f044f8baed15a299bbbeca19e6da1b66abd02e56213b73dd0cd66de71200f6d7
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dcc8a135a59102ea5c9d0c77b48315f089af1d4a5eded0462368e4cf5d7d152
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b0931f5bdd0a0ad3c0b44f18bac8516747577559b5999e424f7825b4b498e1d
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3771dca6c0b151af7b4eb4d18b275f53f8d0c4b7179fb5a0fd76724d6b7cf4c1
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:7eea6c010049ede732e35337dc92f9c4a9f201fd86647564100ea8b70da22657
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0328bf636a13aba797b6ceefa1ee4d2a305b1300590ae78b037aaff65884a506
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2a35b249b98686868e501117a28d1ffb6fed2a0d74e305b00d878f548181e83
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c89953ed9353ba4a200c5e4beeaf9f9e987021f05c25ac9cfcda9cf4c598560
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:49b241842c803d56347030233a5319efc06cd25ba775995df97e083f47b84391
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.99831614396969,
   "eval_steps": 100,
-  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3047,6 +3047,38 @@
       "eval_samples_per_second": 26.063,
       "eval_steps_per_second": 3.259,
       "step": 19000
     }
   ],
   "logging_steps": 100,
@@ -3054,7 +3086,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.0812889749495287e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.082508945485161,
   "eval_steps": 100,
+  "global_step": 19200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.063,
       "eval_steps_per_second": 3.259,
       "step": 19000
+    },
+    {
+      "epoch": 8.04,
+      "grad_norm": 3.4124321937561035,
+      "learning_rate": 3.686360424028269e-05,
+      "loss": 1.2656,
+      "step": 19100
+    },
+    {
+      "epoch": 8.04,
+      "eval_cer": 0.4476115521489187,
+      "eval_loss": 2.0440304279327393,
+      "eval_runtime": 381.9207,
+      "eval_samples_per_second": 24.817,
+      "eval_steps_per_second": 3.103,
+      "step": 19100
+    },
+    {
+      "epoch": 8.08,
+      "grad_norm": 4.451693058013916,
+      "learning_rate": 3.679293286219082e-05,
+      "loss": 1.2961,
+      "step": 19200
+    },
+    {
+      "epoch": 8.08,
+      "eval_cer": 0.44471520472410153,
+      "eval_loss": 1.5803910493850708,
+      "eval_runtime": 361.691,
+      "eval_samples_per_second": 26.205,
+      "eval_steps_per_second": 3.276,
+      "step": 19200
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.1042862694965802e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null