Training in progress, step 55500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f38a0345160eafc7a2bff16ecb3b832e4bed866ef2900dd0baf0b2f9d5d0eb0
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3be30c038fe83e2c45066c8865edcd4f97638d7c9497d22507519438f766b9e
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c019cff8f9be930c3fc0d37425de55b6c57a313e24c2bb3dc34b7f2486efdfbe
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc37f0c081dea232ed47687524d26d35478631d3af4618df338fc236e166a184
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7e4a457495ababe0eb08547a34b3470fd36b5930b98f33eb20ef364970e0c83
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:5479170340108cb57e7920fc9709a1e6e98ddda8596cfda43bc01b7188a5ccc2
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f106411af63d8226ffb8f49ed683b71c1bcf027a8df03274802b22a6f8fda8f
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:70e547d0244ac6c17f72a2e2c794d7af278410f2b12b34a7dbb487ec9d9fcdcb
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5aa0f94c39f4406774a86e68d3997d19d329feb34dcd618fc1dc95189d45b9f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a30e334ce630adfe0f015710ad2e5f2148b3a474ea9fa476144c76c38fe45245
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 23.279309619027572,
   "eval_steps": 100,
-  "global_step": 55300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8855,6 +8855,38 @@
       "eval_samples_per_second": 24.017,
       "eval_steps_per_second": 3.003,
       "step": 55300
     }
   ],
   "logging_steps": 100,
@@ -8862,7 +8894,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 6.060174194718131e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 23.363502420543043,
   "eval_steps": 100,
+  "global_step": 55500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.017,
       "eval_steps_per_second": 3.003,
       "step": 55300
+    },
+    {
+      "epoch": 23.32,
+      "grad_norm": 2.5659921169281006,
+      "learning_rate": 1.1218374558303888e-05,
+      "loss": 0.2612,
+      "step": 55400
+    },
+    {
+      "epoch": 23.32,
+      "eval_cer": 0.3338303155918814,
+      "eval_loss": 2.4699885845184326,
+      "eval_runtime": 423.6808,
+      "eval_samples_per_second": 22.371,
+      "eval_steps_per_second": 2.797,
+      "step": 55400
+    },
+    {
+      "epoch": 23.36,
+      "grad_norm": 1.429592490196228,
+      "learning_rate": 1.1147703180212014e-05,
+      "loss": 0.2702,
+      "step": 55500
+    },
+    {
+      "epoch": 23.36,
+      "eval_cer": 0.33553879394626723,
+      "eval_loss": 2.7780275344848633,
+      "eval_runtime": 398.5381,
+      "eval_samples_per_second": 23.782,
+      "eval_steps_per_second": 2.973,
+      "step": 55500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 6.081637645988172e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null