Training in progress, step 26900, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eff3cdcb7d4b7ed611afcd9ebd6643d02bc2e1b35c4bb74c08c50cf9a5f561a7
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:378dc527ac459832013c97617137877ef2787d8ad0a5019604ca85aa956d8e7e
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3b6b9e0933269179cf5434f263f8f9d9d7b6fff1b073c6931905cc4b53994b5
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4c23db54888854e9599d18a9d3bb2ca8aba5577e50d015aa3e0495e88b82be4
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad304c52a9c03014020a10f709aaf27545830076ddab93a26c7de57de9dde158
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b0e4523778043b99de59919488370129ad827e481ce7777fc2e2ed0192be8c4
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:840a7138cc3ba7fbc10190e1e4c329f4c41a56a5385a8c0310bf23bf7b9dc752
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ab6c67f572fa86813b890e9a102c067c20a3ae8213e83df8a69f01dcfe18650
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac896d0e921c51d399d94984f4a87a03619430db29ebc79fed180feeab8b5af
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:920901db8d07342ad0b34f21db24e241a543d399c53204a75752af51c73d0ca9
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.239739002315302,
   "eval_steps": 100,
-  "global_step": 26700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4279,6 +4279,38 @@
       "eval_samples_per_second": 25.739,
       "eval_steps_per_second": 3.218,
       "step": 26700
     }
   ],
   "logging_steps": 100,
@@ -4286,7 +4318,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.9261113218403457e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.323931803830773,
   "eval_steps": 100,
+  "global_step": 26900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.739,
       "eval_steps_per_second": 3.218,
       "step": 26700
+    },
+    {
+      "epoch": 11.28,
+      "grad_norm": 1.7043545246124268,
+      "learning_rate": 3.142402826855124e-05,
+      "loss": 1.1348,
+      "step": 26800
+    },
+    {
+      "epoch": 11.28,
+      "eval_cer": 0.41776573071057055,
+      "eval_loss": 2.2900288105010986,
+      "eval_runtime": 394.8533,
+      "eval_samples_per_second": 24.004,
+      "eval_steps_per_second": 3.001,
+      "step": 26800
+    },
+    {
+      "epoch": 11.32,
+      "grad_norm": 1.8619517087936401,
+      "learning_rate": 3.135335689045937e-05,
+      "loss": 1.1366,
+      "step": 26900
+    },
+    {
+      "epoch": 11.32,
+      "eval_cer": 0.42347532360877554,
+      "eval_loss": 1.863010287284851,
+      "eval_runtime": 370.2336,
+      "eval_samples_per_second": 25.6,
+      "eval_steps_per_second": 3.201,
+      "step": 26900
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.9479302465142643e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null