Training in progress, step 48500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1224fff0fd037aa14796a69b165995604c17ed87b445e25c006cd69e9b552d67
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:1672c0a76833a5b5822154c7fa186402def49a98de876f28ea3494cad8f8888d
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1145bdd2c2468c43b77a6185bc82e494de1f8a3c4cf0ba296fdef749783fa409
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:36beb4b37fe86763115810c74e72bd6beb673e075cd6a49cc0bce66f1564a42e
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2de1effdfae800e08200d6d6606f7de34095179fc4045eadea03d4d6c7d9fd10
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fa6ee9fb6e8b8ff058d8531424821cbaa6688b19e17750aa45dece30fa41780
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d2803d972252df3ae1062a374992bcf7069240c26b2f467f5507d6c88b0e69c
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1366c26f46b0efee6d4bad587c69654e431d12bbbd1ef637f411a48b4d281d1
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b97e57d1bf31d08433b6e91c583a12e2591e8c3381bc5ab3dd2b0d64c5a237e
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e98968c8be08f3c058353eaf3e9c13f6c3ef943aba36fc721f7302bf66d7b2a7
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.332561565986108,
   "eval_steps": 100,
-  "global_step": 48300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7735,6 +7735,38 @@
       "eval_samples_per_second": 24.608,
       "eval_steps_per_second": 3.077,
       "step": 48300
     }
   ],
   "logging_steps": 100,
@@ -7742,7 +7774,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.292837083424306e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.41675436750158,
   "eval_steps": 100,
+  "global_step": 48500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.608,
       "eval_steps_per_second": 3.077,
       "step": 48300
+    },
+    {
+      "epoch": 20.37,
+      "grad_norm": 6.375877857208252,
+      "learning_rate": 1.6164664310954065e-05,
+      "loss": 0.4005,
+      "step": 48400
+    },
+    {
+      "epoch": 20.37,
+      "eval_cer": 0.3466133510617496,
+      "eval_loss": 3.129476547241211,
+      "eval_runtime": 408.2033,
+      "eval_samples_per_second": 23.219,
+      "eval_steps_per_second": 2.903,
+      "step": 48400
+    },
+    {
+      "epoch": 20.42,
+      "grad_norm": 8.823423385620117,
+      "learning_rate": 1.6093992932862193e-05,
+      "loss": 0.3974,
+      "step": 48500
+    },
+    {
+      "epoch": 20.42,
+      "eval_cer": 0.3472977200735208,
+      "eval_loss": 2.675215482711792,
+      "eval_runtime": 389.4912,
+      "eval_samples_per_second": 24.334,
+      "eval_steps_per_second": 3.042,
+      "step": 48500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.314599801292227e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null