Training in progress, step 14300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c687e1d18d37b98cc3685c02de3ed0c4572f0e8600102167b26d1c1780a6edaf
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:5944066b223cfd00c404cf3a6499df6bf1156481f8e46db2244f54b83303cf94
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a83bc02a2443eeb53634fea4453c212f298686f5c1891b5c5cb4209798e8aaa5
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:91b270efdfcaabe2c52fc6c456f6d62179665c124b6a42e9797a2f9dffe4b1c0
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e964c133b070afbed08f3ca32ca2670faf41bdc59e39b051dcf0fc33af0121a
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:702b99df31af42d1120ccb356b372e5108301018183cd956500f1cbd4ca79c15
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5416a7b3a6d3cb418f6138347bcbabc33a0662041a00f66de497a1c8ca331973
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ecbc500923ed650d6f32ad8c69af7efe7dabee68519bf7ac279027b01c64989
+size 14631

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54e7a079f92a1bd85f80ccfb5ee98154d535f91421f908722bb451cef9b9d8b4
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:417d56dc8d90d6f81699627cbe27ea28c719a2a1f4ac895f35d5afcaf9387b09
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.935592506840665,
   "eval_steps": 100,
-  "global_step": 14100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2263,6 +2263,38 @@
       "eval_samples_per_second": 24.699,
       "eval_steps_per_second": 3.088,
       "step": 14100
     }
   ],
   "logging_steps": 100,
@@ -2270,7 +2302,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.5450260168151686e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.019785308356136,
   "eval_steps": 100,
+  "global_step": 14300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.699,
       "eval_steps_per_second": 3.088,
       "step": 14100
+    },
+    {
+      "epoch": 5.98,
+      "grad_norm": 2.196765184402466,
+      "learning_rate": 4.032579505300353e-05,
+      "loss": 2.0249,
+      "step": 14200
+    },
+    {
+      "epoch": 5.98,
+      "eval_cer": 0.4723050525986469,
+      "eval_loss": 1.9896740913391113,
+      "eval_runtime": 382.0154,
+      "eval_samples_per_second": 24.811,
+      "eval_steps_per_second": 3.102,
+      "step": 14200
+    },
+    {
+      "epoch": 6.02,
+      "grad_norm": 2.4070873260498047,
+      "learning_rate": 4.025512367491166e-05,
+      "loss": 2.6354,
+      "step": 14300
+    },
+    {
+      "epoch": 6.02,
+      "eval_cer": 0.46424660748504165,
+      "eval_loss": 1.524404525756836,
+      "eval_runtime": 361.2522,
+      "eval_samples_per_second": 26.237,
+      "eval_steps_per_second": 3.28,
+      "step": 14300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.5667869779936743e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null