Training in progress, step 600, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d560c592defc59db71fd1f258216fb9592038915fa8276cf7f58ac806225cb4
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:653ef63911d6161b88b3f9f32df8efdb866ecf55d97fc3febdbed2c5450a3c6e
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8403037ca76855de814e44e294a36c871d07b6ce7eb262004265b47b68c23e7b
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e64cd2b2c62bdc327ea06a22049bd82a06e5ae8faac9465953e7b68978aad26
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6857b9d85e05e6482fdfa6f15b895b4892978c2e062e96357cd370bc50bbe430
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:67fcec210fd34c6bf199fbb322d43b9953bbb316718492511d8d57134ad24c1a
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63dfeb92128b97ff4e9751e56ee84873463786fe077e2b5c6477027ff804530b
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3be477733fd09e276311bb65c01459e6a102c492ba2de21b23224cea823214d
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9951f9ad49c35aaa5c7497a99df980cb2ba3cc1a085952af21354635556e2f7
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:2039042aec5b0843d31e4b45065f8954fece58ce2d7d372ebe3c6462b2a5b07c
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.16838560303094086,
   "eval_steps": 100,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -71,6 +71,38 @@
       "eval_samples_per_second": 27.769,
       "eval_steps_per_second": 3.472,
       "step": 400
     }
   ],
   "logging_steps": 100,
@@ -78,7 +110,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 4.435557986072007e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2525784045464113,
   "eval_steps": 100,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.769,
       "eval_steps_per_second": 3.472,
       "step": 400
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 4.236645698547363,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 4.2363,
+      "step": 500
+    },
+    {
+      "epoch": 0.21,
+      "eval_cer": 0.624139650385202,
+      "eval_loss": 2.457566261291504,
+      "eval_runtime": 356.3471,
+      "eval_samples_per_second": 26.598,
+      "eval_steps_per_second": 3.325,
+      "step": 500
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 13.769584655761719,
+      "learning_rate": 4.9932862190812725e-05,
+      "loss": 2.6933,
+      "step": 600
+    },
+    {
+      "epoch": 0.25,
+      "eval_cer": 0.6483369833013961,
+      "eval_loss": 3.4720070362091064,
+      "eval_runtime": 345.5879,
+      "eval_samples_per_second": 27.426,
+      "eval_steps_per_second": 3.429,
+      "step": 600
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 6.597028028856881e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null