Training in progress, step 800, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:653ef63911d6161b88b3f9f32df8efdb866ecf55d97fc3febdbed2c5450a3c6e
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:87323aa246e5525c967b36e0a7119ff06b3213e7668c1f5846d8420c500de1a2
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e64cd2b2c62bdc327ea06a22049bd82a06e5ae8faac9465953e7b68978aad26
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:d68b084be2ded48e2587a63e4b50b52268b9c95e406eb01dbcf32f79501fadf3
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67fcec210fd34c6bf199fbb322d43b9953bbb316718492511d8d57134ad24c1a
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eebd57b0d4504fb08b3859d2e5922af006f7b80e276d54f3a75630a03f57cc0
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3be477733fd09e276311bb65c01459e6a102c492ba2de21b23224cea823214d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:573e592efc8bd12844dd0aa8efeae01c2194994d68d8419691db30231224e469
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2039042aec5b0843d31e4b45065f8954fece58ce2d7d372ebe3c6462b2a5b07c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cf4161a8d89b4d12d1aa80ad587062e7bdf9b94508fc5ae11c0dc8e85a1cabf
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2525784045464113,
   "eval_steps": 100,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -103,6 +103,38 @@
       "eval_samples_per_second": 27.426,
       "eval_steps_per_second": 3.429,
       "step": 600
     }
   ],
   "logging_steps": 100,
@@ -110,7 +142,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 6.597028028856881e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3367712060618817,
   "eval_steps": 100,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.426,
       "eval_steps_per_second": 3.429,
       "step": 600
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 4.292990207672119,
+      "learning_rate": 4.986289752650177e-05,
+      "loss": 4.1075,
+      "step": 700
+    },
+    {
+      "epoch": 0.29,
+      "eval_cer": 0.6181098705564898,
+      "eval_loss": 3.3849761486053467,
+      "eval_runtime": 353.3198,
+      "eval_samples_per_second": 26.826,
+      "eval_steps_per_second": 3.354,
+      "step": 700
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 4.32611083984375,
+      "learning_rate": 4.97922261484099e-05,
+      "loss": 2.6907,
+      "step": 800
+    },
+    {
+      "epoch": 0.34,
+      "eval_cer": 0.6191510891243988,
+      "eval_loss": 2.5412750244140625,
+      "eval_runtime": 343.4967,
+      "eval_samples_per_second": 27.593,
+      "eval_steps_per_second": 3.45,
+      "step": 800
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 8.803126663244048e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null