Training in progress, step 49500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74a357b98e4ee095ed45472c47587cbff53b11bba8ee52364cf747aec2edad57
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f4e034f2e43c0fca95585a1c74b8ba288002aeef4e94f7f869a1f6d24f8b7d8
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1045be07891224de41ffc49353bbd9c71f37abedb35e78847a85b94a93414d1f
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a4f8cab60168f6324315199235ff245062dddd3799c0d85af85527ecee3fe8a
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab63e00126966b51e82c6cfc37d4154dc70a54f57af4954047f6d1bfa10482e3
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:94ac800ef4ed1b5dbe2e129011c90053617c45f04b68159ae45c8bd542d485ca
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3413234ec77271dbb44be6798264935b5bc29bd7a383e5efca859e1b414dc0d
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a109c2513b60d30766caef58a6a250c617ed41bd13414a63f31b8ac63646d1d0
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:776174e0cdc8de84863dc2bc871e616ade46ecb971d9ed338d192083a8322ec2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f46b18b91d6715a6101674870a673d34999d2c470954bab9b6ef70b9b1b09992
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.75352557356346,
   "eval_steps": 100,
-  "global_step": 49300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7895,6 +7895,38 @@
       "eval_samples_per_second": 24.101,
       "eval_steps_per_second": 3.013,
       "step": 49300
     }
   ],
   "logging_steps": 100,
@@ -7902,7 +7934,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.4016158411070066e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.837718375078932,
   "eval_steps": 100,
+  "global_step": 49500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.101,
       "eval_steps_per_second": 3.013,
       "step": 49300
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 3.681830406188965,
+      "learning_rate": 1.5457950530035336e-05,
+      "loss": 0.4141,
+      "step": 49400
+    },
+    {
+      "epoch": 20.8,
+      "eval_cer": 0.3429764185991944,
+      "eval_loss": 3.280654191970825,
+      "eval_runtime": 408.0304,
+      "eval_samples_per_second": 23.229,
+      "eval_steps_per_second": 2.904,
+      "step": 49400
+    },
+    {
+      "epoch": 20.84,
+      "grad_norm": 3.107179641723633,
+      "learning_rate": 1.5387279151943464e-05,
+      "loss": 0.4127,
+      "step": 49500
+    },
+    {
+      "epoch": 20.84,
+      "eval_cer": 0.34173233350279614,
+      "eval_loss": 2.8979499340057373,
+      "eval_runtime": 387.9855,
+      "eval_samples_per_second": 24.429,
+      "eval_steps_per_second": 3.054,
+      "step": 49500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.423486958333301e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null