Training in progress, step 41000, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75f6409a44328ccff19c64caff488439da9273da3c101449fa3123336a4468ea
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3f31e821b74dd2aecadf4a49ced761482cb24335fa070340f440dfac62ebd15
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dcbe4d068720daaaee2a8da1dbc2bbe9c056e9518e3461c7459f79006631080
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff6ee0aff95bbd15a39f1188865d0051383c510dd4594f6c062ec608c68dc92c
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33d5708694aaf8845bf750d7154f0271164aa685b76c098f6dd40029eeb5662f
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:440e01e057f577e2f701487c44c7f69aaeaa1240bf4c1499312f3532285ec4eb
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72f3d277caa97e791c619eba8f2b402ab01caedcd3e1225af2b74b9180ced546
-size 14631

 version https://git-lfs.github.com/spec/v1
+oid sha256:68b009d8e28cf1d32b3e47f2da155cb0f031794cbe7f69274b2edda21d846b19
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34c4ef4e4f4492564f8cc89617cc7f93e8c2f6998eb6eef00126c81220e404a6
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ddc5f7d6b9326460646ca0179f41d1dca732c5948fbb1407ab5e2beb6ca76c2
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 17.175331509155967,
   "eval_steps": 100,
-  "global_step": 40800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6535,6 +6535,38 @@
       "eval_samples_per_second": 24.92,
       "eval_steps_per_second": 3.116,
       "step": 40800
     }
   ],
   "logging_steps": 100,
@@ -6542,7 +6574,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 4.4722373414464927e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.259524310671438,
   "eval_steps": 100,
+  "global_step": 41000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.92,
       "eval_steps_per_second": 3.116,
       "step": 40800
+    },
+    {
+      "epoch": 17.22,
+      "grad_norm": 7.374648094177246,
+      "learning_rate": 2.146219081272085e-05,
+      "loss": 0.6245,
+      "step": 40900
+    },
+    {
+      "epoch": 17.22,
+      "eval_cer": 0.36244916115912557,
+      "eval_loss": 2.089902400970459,
+      "eval_runtime": 399.0568,
+      "eval_samples_per_second": 23.751,
+      "eval_steps_per_second": 2.97,
+      "step": 40900
+    },
+    {
+      "epoch": 17.26,
+      "grad_norm": 27.956933975219727,
+      "learning_rate": 2.1391519434628975e-05,
+      "loss": 0.6492,
+      "step": 41000
+    },
+    {
+      "epoch": 17.26,
+      "eval_cer": 0.36416741621367954,
+      "eval_loss": 2.015270948410034,
+      "eval_runtime": 376.6268,
+      "eval_samples_per_second": 25.165,
+      "eval_steps_per_second": 3.146,
+      "step": 41000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 4.49389546173303e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null