Training in progress, step 5200, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41875e86984f9c499bbd46447c4b07ffb7cbdf07789f652a89a6868d23bab35f
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:526f37a1fd8614e33d688ca0c95a0b4bdb2270b3c6287907514481f46e211e72
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf6fc30af65fb1bb2b342a3d768a007f7604ee05fb1696eb8530da85555ef0b5
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ce64a952a4cce525f3a0cb0ed6d5e65ba07369000da2ff59f3ff55e450ce479
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc85d1a0b008548cc1a644ec52e7a922d0f2f1c680c67a89f68ab5e2f58767a5
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:c379ec78bc415dd3c67bb2c638a8e23762a3c06fee68b3ab33b1391af723912b
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a56c4b251eaaa521dd5897d38bb3df55dc9d33c44687cea24d832bf76a4766d
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:268b899628f3fbd3f8e86b05216b622b8e7edbffdb48136b8a16736e8c90ff48
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57ebf369faef4240020a647139b481dc6228228676411a7d695726a9d3bf18a5
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:784d3c121c9f359553146d9fe14f9140da42065b084f4fa423f15dfc626b4e3b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.1048200378867605,
   "eval_steps": 100,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -807,6 +807,38 @@
       "eval_samples_per_second": 26.983,
       "eval_steps_per_second": 3.374,
       "step": 5000
     }
   ],
   "logging_steps": 100,
@@ -814,7 +846,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.4841600382755045e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1890128394022312,
   "eval_steps": 100,
+  "global_step": 5200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.983,
       "eval_steps_per_second": 3.374,
       "step": 5000
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 5.002595901489258,
+      "learning_rate": 4.67547703180212e-05,
+      "loss": 2.0594,
+      "step": 5100
+    },
+    {
+      "epoch": 2.15,
+      "eval_cer": 0.5161682179030933,
+      "eval_loss": 2.4667067527770996,
+      "eval_runtime": 377.3711,
+      "eval_samples_per_second": 25.116,
+      "eval_steps_per_second": 3.14,
+      "step": 5100
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 3.2300162315368652,
+      "learning_rate": 4.668409893992933e-05,
+      "loss": 1.8512,
+      "step": 5200
+    },
+    {
+      "epoch": 2.19,
+      "eval_cer": 0.5493185639982793,
+      "eval_loss": 1.743632435798645,
+      "eval_runtime": 361.1881,
+      "eval_samples_per_second": 26.241,
+      "eval_steps_per_second": 3.281,
+      "step": 5200
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.703634893009586e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null