Training in progress, step 13300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15272146b88a824069cf989c514d7a86851658753712d4906dff19411477f5a3
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b64bc0a1397bc980ff597684a085c93f8dd2fe2b7b54d58711479664a09d54c3
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28dee3eb1b5dbc17cd7055dd49b59c3229cd41008819761a6fe2d0873e23dc31
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd1ceb3845f2cb7eceaae674378edb7dd24738c83638a474995504a3ff2267a2
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1686978d9f8b694b0c18e4cc3de858b2d92028154846e1a833d9c377f88ed652
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a32194dd689a72f849b21ab9782143a146208cc1d25018113d6d979749680f1
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90f78bc01501a673d4e6bb87f06a245f60bff276cc0939cfea2b3049bc720ada
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:9853e2c9f15d5d445435ee3d094c763606e84907256808b6d8c015e81b32d039
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:945f2872409982395f4d4eaed58eeb0f905ab3c39b6e7047ea7eac693a1e3901
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1558a03e21b124dc4cf9c782c9fd3ddda4c5e0f9d6236b7ad5d4b4ead1dac474
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.514628499263313,
   "eval_steps": 100,
-  "global_step": 13100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2103,6 +2103,38 @@
       "eval_samples_per_second": 25.334,
       "eval_steps_per_second": 3.167,
       "step": 13100
     }
   ],
   "logging_steps": 100,
@@ -2110,7 +2142,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.4359858237396415e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.598821300778783,
   "eval_steps": 100,
+  "global_step": 13300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.334,
       "eval_steps_per_second": 3.167,
       "step": 13100
+    },
+    {
+      "epoch": 5.56,
+      "grad_norm": 3.400202512741089,
+      "learning_rate": 4.1031802120141345e-05,
+      "loss": 2.035,
+      "step": 13200
+    },
+    {
+      "epoch": 5.56,
+      "eval_cer": 0.4721559579210825,
+      "eval_loss": 2.723193645477295,
+      "eval_runtime": 442.6463,
+      "eval_samples_per_second": 21.412,
+      "eval_steps_per_second": 2.677,
+      "step": 13200
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 28.22166633605957,
+      "learning_rate": 4.0961130742049467e-05,
+      "loss": 2.583,
+      "step": 13300
+    },
+    {
+      "epoch": 5.6,
+      "eval_cer": 0.4679446443236479,
+      "eval_loss": 2.848484516143799,
+      "eval_runtime": 385.7533,
+      "eval_samples_per_second": 24.57,
+      "eval_steps_per_second": 3.072,
+      "step": 13300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.4577321342657543e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null