Training in progress, step 22900, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f673b59dec39b6208eaf91ca45400990b1ab1106cb32adb89e40289b3692b7e
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:5de2a0b6f5605c28e3b76e90893140030beb717b3d1a72803f0f6f8bf22f20d3
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19267df07b64ec62c5070fedddb73269d34ceb079fafa1cc02aa086792ab3300
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fdeca2e925e60f963cb2238d682deedab54a56146007d4419812a3113ddc204
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc7974ef7e39b635024ed4786978103eb9d236e553fc1a70a6679023daa9296c
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d10bfe6adc048388b735955f524b88e59f21f6f4b5176cd8a3a681534d740d
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8052a894386dd37f759deaab2c0d19acd6e44b9e9130c47c71e3f213d13e6053
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:024df13920a7bfc09c9ab0f4046389f896972fb4c1a844e4c41f17872fd80aa2
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d49d336b26493b459dab233dfc32ed3bf79ed6ce889dcb67006a60f916875b97
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a23d9aa0c3e1803c2e7edca514f5bf1ca5e6413b4e99acf0ac462c28ded1f82
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.555882972005893,
   "eval_steps": 100,
-  "global_step": 22700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3639,6 +3639,38 @@
       "eval_samples_per_second": 26.255,
       "eval_steps_per_second": 3.283,
       "step": 22700
     }
   ],
   "logging_steps": 100,
@@ -3646,7 +3678,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.487348846779533e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.640075773521364,
   "eval_steps": 100,
+  "global_step": 22900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.255,
       "eval_steps_per_second": 3.283,
       "step": 22700
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 4.784325122833252,
+      "learning_rate": 3.4250176678445236e-05,
+      "loss": 1.2519,
+      "step": 22800
+    },
+    {
+      "epoch": 9.6,
+      "eval_cer": 0.4394284541081694,
+      "eval_loss": 2.026627540588379,
+      "eval_runtime": 383.883,
+      "eval_samples_per_second": 24.69,
+      "eval_steps_per_second": 3.087,
+      "step": 22800
+    },
+    {
+      "epoch": 9.64,
+      "grad_norm": 34.55485534667969,
+      "learning_rate": 3.417950530035336e-05,
+      "loss": 1.2678,
+      "step": 22900
+    },
+    {
+      "epoch": 9.64,
+      "eval_cer": 0.45279075906300104,
+      "eval_loss": 1.6792824268341064,
+      "eval_runtime": 362.9993,
+      "eval_samples_per_second": 26.11,
+      "eval_steps_per_second": 3.264,
+      "step": 22900
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.5097235719710438e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null