Training in progress, step 12500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +67 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:990f79ce5d5fce5b54c543410da49311c8727e5393eaf8de5beb75ddea62f025
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e66cbff19b835e3a4efcd7383600618ff3c16476f0e6cd4eea579eddd1014bc
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:348350ce5be165c3b33d0652bff5953348b5181192242ec398df2e8b058bc2bb
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc5198d3d1c6fadab280de2b6cc23fa58362393be6da3bf2b3a8b16408384ea7
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fda19efc8188b89a824ef6b745bab7a4b2df0fcc62fc3ee12571612ab5443e8
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:55d601ccae8eead4998f520c0fb37f262fdc4af9674f4598e11e05776a91d57d
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac3b1bd46b3911f03359a3982a0c03f865d3787800599fe7d28e536bbc352b08
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:0247765af733f816c82cb6abb0bd3fc92237d543333cca727d37eb273ded1c69
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fca80c682586ea565475c8cb2e3f5097ebcafda0408dbe21093035fc5d9ba92
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f487427df0aa8bfe421a7abbb408985bddad611dfcbca3d7c23ae5d19832455
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.093664491685961,
   "eval_steps": 100,
-  "global_step": 12100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1943,6 +1943,70 @@
       "eval_samples_per_second": 25.772,
       "eval_steps_per_second": 3.222,
       "step": 12100
     }
   ],
   "logging_steps": 100,
@@ -1950,7 +2014,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.3265676741232484e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.262050094716901,
   "eval_steps": 100,
+  "global_step": 12500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.772,
       "eval_steps_per_second": 3.222,
       "step": 12100
+    },
+    {
+      "epoch": 5.14,
+      "grad_norm": 3.436452865600586,
+      "learning_rate": 4.173851590106007e-05,
+      "loss": 1.4205,
+      "step": 12200
+    },
+    {
+      "epoch": 5.14,
+      "eval_cer": 0.48146582065621213,
+      "eval_loss": 2.3205745220184326,
+      "eval_runtime": 384.4394,
+      "eval_samples_per_second": 24.654,
+      "eval_steps_per_second": 3.082,
+      "step": 12200
+    },
+    {
+      "epoch": 5.18,
+      "grad_norm": 1.96918523311615,
+      "learning_rate": 4.16678445229682e-05,
+      "loss": 1.3964,
+      "step": 12300
+    },
+    {
+      "epoch": 5.18,
+      "eval_cer": 0.4692033944702984,
+      "eval_loss": 2.9126245975494385,
+      "eval_runtime": 358.8304,
+      "eval_samples_per_second": 26.414,
+      "eval_steps_per_second": 3.302,
+      "step": 12300
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 6.869575500488281,
+      "learning_rate": 4.159717314487633e-05,
+      "loss": 2.0721,
+      "step": 12400
+    },
+    {
+      "epoch": 5.22,
+      "eval_cer": 0.4858066755308748,
+      "eval_loss": 3.2426090240478516,
+      "eval_runtime": 377.7703,
+      "eval_samples_per_second": 25.089,
+      "eval_steps_per_second": 3.137,
+      "step": 12400
+    },
+    {
+      "epoch": 5.26,
+      "grad_norm": 2.511401414871216,
+      "learning_rate": 4.1526501766784455e-05,
+      "loss": 1.747,
+      "step": 12500
+    },
+    {
+      "epoch": 5.26,
+      "eval_cer": 0.5091607680575652,
+      "eval_loss": 3.057870864868164,
+      "eval_runtime": 381.9144,
+      "eval_samples_per_second": 24.817,
+      "eval_steps_per_second": 3.103,
+      "step": 12500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.3698617507925189e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null