Training in progress, step 13100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57c6b54d077cb667a4cfbe738582da2ecd39159286c41485b7c6efd53cb7bc1a
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:15272146b88a824069cf989c514d7a86851658753712d4906dff19411477f5a3
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45da60abe68c6f65c5ae53251ba8b983302267f69d34edaa7bf0ebf95d54ac3a
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:28dee3eb1b5dbc17cd7055dd49b59c3229cd41008819761a6fe2d0873e23dc31
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a67ddb96ec88d7be4083d93ecc9ee80924bab46ac10dc058c48085c087713d8
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:1686978d9f8b694b0c18e4cc3de858b2d92028154846e1a833d9c377f88ed652
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b3ac36e7fbd4b3c080b9441c4f2b70acea99b1b8d1002061ebda98ec5266a7e
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:90f78bc01501a673d4e6bb87f06a245f60bff276cc0939cfea2b3049bc720ada
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c402405be7dbbda177a1e84950f8dcd4bc4f3baf7fe67d401f484f341b04e122
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:945f2872409982395f4d4eaed58eeb0f905ab3c39b6e7047ea7eac693a1e3901
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.430435697747843,
   "eval_steps": 100,
-  "global_step": 12900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2071,6 +2071,38 @@
       "eval_samples_per_second": 25.834,
       "eval_steps_per_second": 3.23,
       "step": 12900
     }
   ],
   "logging_steps": 100,
@@ -2078,7 +2110,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.4138922393346692e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.514628499263313,
   "eval_steps": 100,
+  "global_step": 13100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.834,
       "eval_steps_per_second": 3.23,
       "step": 12900
+    },
+    {
+      "epoch": 5.47,
+      "grad_norm": 3.4912497997283936,
+      "learning_rate": 4.1173144876325096e-05,
+      "loss": 2.5075,
+      "step": 13000
+    },
+    {
+      "epoch": 5.47,
+      "eval_cer": 0.48205731101638577,
+      "eval_loss": 2.9853949546813965,
+      "eval_runtime": 382.1207,
+      "eval_samples_per_second": 24.804,
+      "eval_steps_per_second": 3.101,
+      "step": 13000
+    },
+    {
+      "epoch": 5.51,
+      "grad_norm": 3.671482801437378,
+      "learning_rate": 4.110247349823322e-05,
+      "loss": 2.3712,
+      "step": 13100
+    },
+    {
+      "epoch": 5.51,
+      "eval_cer": 0.47388154550076256,
+      "eval_loss": 2.6945626735687256,
+      "eval_runtime": 374.115,
+      "eval_samples_per_second": 25.334,
+      "eval_steps_per_second": 3.167,
+      "step": 13100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.4359858237396415e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null