Training in progress, step 21400, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64d2e194abb4d33bd2df007c3f2dfe7c3090b6d911c750db68f03541f777960a
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd295564c886cab31b38fdc522144c8184d26012f8017f463f8b19068b69ce54
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a956ba41ba48f1e1424ba9b1b15a3ff3f56d507463416d550ee26a3eaf57770b
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:10129ed8317e1eb717c2b209ed001fa2e165c880f232b8ab7fc6026685e36a65
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc981ba432a5dc7f3000d740be2b6cd1bdf1ec48f451e86e92d2708e7dd2aa39
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d5ca3cb0ab23b9c64be740c79b07d64816cd7d9490aeeae08ccc4a3f3b37ddc
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb8ac8461488f7d31ff771b67510406fd1847a4a10da6092663344858ebfa7ed
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a20e1a39d049694d044e652201b8a810f3562871d67cc396aaad5e0bbc2f803
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62c80163459f707d7a13e0f4c1cac2205e273df5ba9942f544868dc9dce2b481
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:48225e4ec8a66fcccd258aec5acd97fada08046f07bbc5a0c629141f0b9c9d7d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.924436960639865,
   "eval_steps": 100,
-  "global_step": 21200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3399,6 +3399,38 @@
       "eval_samples_per_second": 25.994,
       "eval_steps_per_second": 3.25,
       "step": 21200
     }
   ],
   "logging_steps": 100,
@@ -3406,7 +3438,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.3225360192155995e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.008629762155335,
   "eval_steps": 100,
+  "global_step": 21400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.994,
       "eval_steps_per_second": 3.25,
       "step": 21200
+    },
+    {
+      "epoch": 8.97,
+      "grad_norm": 3.520254135131836,
+      "learning_rate": 3.53095406360424e-05,
+      "loss": 1.2819,
+      "step": 21300
+    },
+    {
+      "epoch": 8.97,
+      "eval_cer": 0.44700784091353485,
+      "eval_loss": 1.840844988822937,
+      "eval_runtime": 393.1165,
+      "eval_samples_per_second": 24.11,
+      "eval_steps_per_second": 3.014,
+      "step": 21300
+    },
+    {
+      "epoch": 9.01,
+      "grad_norm": 1.5368082523345947,
+      "learning_rate": 3.523886925795053e-05,
+      "loss": 1.2587,
+      "step": 21400
+    },
+    {
+      "epoch": 9.01,
+      "eval_cer": 0.43732890774705724,
+      "eval_loss": 2.2236878871917725,
+      "eval_runtime": 363.5106,
+      "eval_samples_per_second": 26.074,
+      "eval_steps_per_second": 3.26,
+      "step": 21400
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.3455923104904626e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null