Training in progress, step 10500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +67 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0152ae7665e14b7649e1603869eac2627c4b46968a4140b59e840be45c462043
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcf5defa12c4ad41768400f0e89f96d1327b2145e3d75459f574578b69dcb6cc
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2ca09b9d6895bf99912a3b620ebf15f2699cd4d85234bae948db7af35d3805b
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc23937287860621ac669594158d01024ad6c4348b6e7634487d58cbff59e02d
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64f7c21bc62e1590ba7d33964a61cd28c89e814d09700786d96a59dfd2d2f37a
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:20cdaee32636e4c7671e7b7305bf0afc014c7bf1db11c1dc264cd4d2b45e1530
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ac36883a60e8fdddb046d3d099aec879515eeb495fb66554d35da33f561e776
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e871decdaedd2ec0c4362d0e1ac2c22c91aeb0a484fed63f8055a64f9a662a
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c00379d1a32b555abafe33a1610f228542dd2b56a05a75c6d377908358a81a67
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1593679e1b8de5f2d731b1b6aaef936886d9f364698ba0468455350ed39fffa6
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.251736476531256,
   "eval_steps": 100,
-  "global_step": 10100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1623,6 +1623,70 @@
       "eval_samples_per_second": 27.086,
       "eval_steps_per_second": 3.387,
       "step": 10100
     }
   ],
   "logging_steps": 100,
@@ -1630,7 +1694,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.1062718286020878e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.420122079562198,
   "eval_steps": 100,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.086,
       "eval_steps_per_second": 3.387,
       "step": 10100
+    },
+    {
+      "epoch": 4.29,
+      "grad_norm": 3.947378635406494,
+      "learning_rate": 4.315194346289753e-05,
+      "loss": 1.4527,
+      "step": 10200
+    },
+    {
+      "epoch": 4.29,
+      "eval_cer": 0.49508965234054203,
+      "eval_loss": 3.2406046390533447,
+      "eval_runtime": 377.1597,
+      "eval_samples_per_second": 25.13,
+      "eval_steps_per_second": 3.142,
+      "step": 10200
+    },
+    {
+      "epoch": 4.34,
+      "grad_norm": 7.427024841308594,
+      "learning_rate": 4.308127208480566e-05,
+      "loss": 1.4446,
+      "step": 10300
+    },
+    {
+      "epoch": 4.34,
+      "eval_cer": 0.48428639865472606,
+      "eval_loss": 2.7247695922851562,
+      "eval_runtime": 356.4628,
+      "eval_samples_per_second": 26.589,
+      "eval_steps_per_second": 3.324,
+      "step": 10300
+    },
+    {
+      "epoch": 4.38,
+      "grad_norm": 3.1798312664031982,
+      "learning_rate": 4.3010600706713785e-05,
+      "loss": 2.4877,
+      "step": 10400
+    },
+    {
+      "epoch": 4.38,
+      "eval_cer": 0.48304475773336986,
+      "eval_loss": 2.2158772945404053,
+      "eval_runtime": 376.4543,
+      "eval_samples_per_second": 25.177,
+      "eval_steps_per_second": 3.148,
+      "step": 10400
+    },
+    {
+      "epoch": 4.42,
+      "grad_norm": 2.0509414672851562,
+      "learning_rate": 4.293992932862191e-05,
+      "loss": 1.9214,
+      "step": 10500
+    },
+    {
+      "epoch": 4.42,
+      "eval_cer": 0.4835262602166517,
+      "eval_loss": 1.906830906867981,
+      "eval_runtime": 357.384,
+      "eval_samples_per_second": 26.52,
+      "eval_steps_per_second": 3.316,
+      "step": 10500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.1500317525115727e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null