Training in progress, step 48300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6167439d581cc395bf3088fe8ac6b11c26e4181fe551f128881e89bc4e1ce539
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:1224fff0fd037aa14796a69b165995604c17ed87b445e25c006cd69e9b552d67
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4938e0f36333fadd4855c1934e42518090173b0a19d22feeaf6a23dda164827e
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:1145bdd2c2468c43b77a6185bc82e494de1f8a3c4cf0ba296fdef749783fa409
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acfb4a34f27a6fb3c38894c96bbfd9bc1fd023b61822cee208fc0fb86da0a1c2
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:2de1effdfae800e08200d6d6606f7de34095179fc4045eadea03d4d6c7d9fd10
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dc98f239aaa8533c601f91ade3675472665d4acfce4d9364d5c7b75e44eee84
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d2803d972252df3ae1062a374992bcf7069240c26b2f467f5507d6c88b0e69c
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e4cd969c054daa76cafad7a5bcd9e1236149af3f397933e1dd3fba11510e9d1
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b97e57d1bf31d08433b6e91c583a12e2591e8c3381bc5ab3dd2b0d64c5a237e
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.248368764470637,
   "eval_steps": 100,
-  "global_step": 48100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7703,6 +7703,38 @@
       "eval_samples_per_second": 24.403,
       "eval_steps_per_second": 3.051,
       "step": 48100
     }
   ],
   "logging_steps": 100,
@@ -7710,7 +7742,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.270910176053505e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.332561565986108,
   "eval_steps": 100,
+  "global_step": 48300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.403,
       "eval_steps_per_second": 3.051,
       "step": 48100
+    },
+    {
+      "epoch": 20.29,
+      "grad_norm": 2.476924180984497,
+      "learning_rate": 1.630600706713781e-05,
+      "loss": 0.4173,
+      "step": 48200
+    },
+    {
+      "epoch": 20.29,
+      "eval_cer": 0.3475372492276407,
+      "eval_loss": 2.8535077571868896,
+      "eval_runtime": 407.6688,
+      "eval_samples_per_second": 23.249,
+      "eval_steps_per_second": 2.907,
+      "step": 48200
+    },
+    {
+      "epoch": 20.33,
+      "grad_norm": 2.1427981853485107,
+      "learning_rate": 1.623533568904594e-05,
+      "loss": 0.4149,
+      "step": 48300
+    },
+    {
+      "epoch": 20.33,
+      "eval_cer": 0.3440518556176919,
+      "eval_loss": 2.9584333896636963,
+      "eval_runtime": 385.1561,
+      "eval_samples_per_second": 24.608,
+      "eval_steps_per_second": 3.077,
+      "step": 48300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.292837083424306e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null