Training in progress, step 49700, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f4e034f2e43c0fca95585a1c74b8ba288002aeef4e94f7f869a1f6d24f8b7d8
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1cbd3e55b0179026181d720a477011010ff856f7a126f268ef27f3561d2d134
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a4f8cab60168f6324315199235ff245062dddd3799c0d85af85527ecee3fe8a
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e3666578dccf6f10399ae741f901f6bff10f04f1d3e32956185152c183581c5
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94ac800ef4ed1b5dbe2e129011c90053617c45f04b68159ae45c8bd542d485ca
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:22dc109d90b5af6d6ac2a29d4413cf79d645981920f0b93701c9be3341fda743
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a109c2513b60d30766caef58a6a250c617ed41bd13414a63f31b8ac63646d1d0
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:02990edbfb0b0fa25d6956ac586de6c5fa7a3f14caf505d91e0c9bba2fc45bab
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f46b18b91d6715a6101674870a673d34999d2c470954bab9b6ef70b9b1b09992
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4bde301d33ddb7b9f708b0f2b4df433fe10f623f71b5b1ed245e09a9c0210de
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.837718375078932,
   "eval_steps": 100,
-  "global_step": 49500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7927,6 +7927,38 @@
       "eval_samples_per_second": 24.429,
       "eval_steps_per_second": 3.054,
       "step": 49500
     }
   ],
   "logging_steps": 100,
@@ -7934,7 +7966,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.423486958333301e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.921911176594403,
   "eval_steps": 100,
+  "global_step": 49700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.429,
       "eval_steps_per_second": 3.054,
       "step": 49500
+    },
+    {
+      "epoch": 20.88,
+      "grad_norm": 2.1260199546813965,
+      "learning_rate": 1.5316607773851592e-05,
+      "loss": 0.4222,
+      "step": 49600
+    },
+    {
+      "epoch": 20.88,
+      "eval_cer": 0.3436339016855031,
+      "eval_loss": 2.4059560298919678,
+      "eval_runtime": 412.8035,
+      "eval_samples_per_second": 22.96,
+      "eval_steps_per_second": 2.871,
+      "step": 49600
+    },
+    {
+      "epoch": 20.92,
+      "grad_norm": 1.9174062013626099,
+      "learning_rate": 1.5245936395759718e-05,
+      "loss": 0.4093,
+      "step": 49700
+    },
+    {
+      "epoch": 20.92,
+      "eval_cer": 0.3437194478119745,
+      "eval_loss": 2.5948760509490967,
+      "eval_runtime": 390.0559,
+      "eval_samples_per_second": 24.299,
+      "eval_steps_per_second": 3.038,
+      "step": 49700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.4456441634239906e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null