Training in progress, step 34100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4186f3650dd2c32b5c95649922f0c731bb934e125494ff655895c62239c4ca2
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5d7ca71a18539b0e5311a0dea1f79620c8829516c4f0301b70e40c93b6dd15f
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff80ab491126fed19c95d290404bfe1af60734b253ff71a62d4b455264686070
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:787f866570435da5097c03fd63a23ac3505a4326fb04f45fe6573d825061c9af
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7977c1dc90467f2c33a0b7b407c78f8d85c3fac6707f046993eb9f84bc014848
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:0528877f155f8458ae5e6d76793f9931e86cb37a8bd5f1b42f20b0c8c8a75e5b
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf8717eba5f8c781613f5361807f6b34d91ead5957ce05c9b325c92b9b4e28f0
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:5796092c4b36ff1ae184d4548d62d205ae43e0e05d09ee1112cfb91312a8abf2
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc335cf92591df6c603a8f2a60377fa97b6288d754e2350836d0114c03b2d445
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce014af992705354a44ccf452350ccb3c435d9250a9da5c22acfca9b67b0358b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.270679856872237,
   "eval_steps": 100,
-  "global_step": 33900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5431,6 +5431,38 @@
       "eval_samples_per_second": 25.369,
       "eval_steps_per_second": 3.172,
       "step": 33900
     }
   ],
   "logging_steps": 100,
@@ -5438,7 +5470,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.715219759674186e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.354872658387707,
   "eval_steps": 100,
+  "global_step": 34100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.369,
       "eval_steps_per_second": 3.172,
       "step": 33900
+    },
+    {
+      "epoch": 14.31,
+      "grad_norm": 6.195644855499268,
+      "learning_rate": 2.6337102473498232e-05,
+      "loss": 0.9263,
+      "step": 34000
+    },
+    {
+      "epoch": 14.31,
+      "eval_cer": 0.39136375190645656,
+      "eval_loss": 2.636327028274536,
+      "eval_runtime": 397.3915,
+      "eval_samples_per_second": 23.851,
+      "eval_steps_per_second": 2.982,
+      "step": 34000
+    },
+    {
+      "epoch": 14.35,
+      "grad_norm": 8.33462905883789,
+      "learning_rate": 2.6266431095406364e-05,
+      "loss": 1.2049,
+      "step": 34100
+    },
+    {
+      "epoch": 14.35,
+      "eval_cer": 0.38994857455711546,
+      "eval_loss": 1.6413642168045044,
+      "eval_runtime": 373.2342,
+      "eval_samples_per_second": 25.394,
+      "eval_steps_per_second": 3.175,
+      "step": 34100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.7367891051512955e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null