Training in progress, step 8500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cb9185b5a4178ca9b95ea9a03e81f42aab94937d5536d0aee20a7d50113c74e
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b51ed093e6c15bc18f94991971206e757e14980a9c5a628c37f62695938205d
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f20f2e893a5805f94e67a072ca607e87d6bd1f6bf961c5d10cf2c83fc0eca10
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:d240111503baf208b3258d8cba674443ef0ea2639039331de2ec6efe7692b794
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:483b010e40619bd56631da53658bb649fe7d4dd6c1a8c3d654abffab621a3b4b
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:66b55bdbc49a9bb2c273056a2b2153ade12b910b7c8f359f9751f5d74fa18c9c
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb949cb9ef5d042fa95175eb1cd636c4986ae56e852d369f16efd31f056bea0
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:19c12ed0af5993f0a876a6b88522655ebb04b9cbe7b4cb312f3eaf595675e1bf
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f59710310815d68188af9ff723493a6950c9e2340e3b280d58445c624870566
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b67e153873510a6ad6dd38628964444102a91c7ee710a17268ca1406a3ff007
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.4940012628920227,
   "eval_steps": 100,
-  "global_step": 8300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1335,6 +1335,38 @@
       "eval_samples_per_second": 26.546,
       "eval_steps_per_second": 3.319,
       "step": 8300
     }
   ],
   "logging_steps": 100,
@@ -1342,7 +1374,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 9.10041827788282e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.5781940644074934,
   "eval_steps": 100,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.546,
       "eval_steps_per_second": 3.319,
       "step": 8300
+    },
+    {
+      "epoch": 3.54,
+      "grad_norm": 1.3938627243041992,
+      "learning_rate": 4.442332155477032e-05,
+      "loss": 2.1757,
+      "step": 8400
+    },
+    {
+      "epoch": 3.54,
+      "eval_cer": 0.5164395213327597,
+      "eval_loss": 1.6015843152999878,
+      "eval_runtime": 375.0822,
+      "eval_samples_per_second": 25.269,
+      "eval_steps_per_second": 3.159,
+      "step": 8400
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 7.331507682800293,
+      "learning_rate": 4.4352650176678445e-05,
+      "loss": 2.3463,
+      "step": 8500
+    },
+    {
+      "epoch": 3.58,
+      "eval_cer": 0.4924132806695084,
+      "eval_loss": 3.185905933380127,
+      "eval_runtime": 357.5938,
+      "eval_samples_per_second": 26.505,
+      "eval_steps_per_second": 3.314,
+      "step": 8500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 9.318809128668452e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null