Training in progress, step 11300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38845a6d475e55c7af4738fbf1bef5e6aa4428194cc36187595ff717d29e376d
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:0801e65f2be99dc1c8c31a8b42fd4c773ebf79cbd409c888bed299500fb67698
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c448e3473a9bd6e3fca35633f4e7f2cc43de8978501fbe48005531b52a96c915
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:1758303ea0e620428277da4b68b42acf7e0c018a4d0c417e71df888e1c059b80
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:213bf4cf344741084305edd2d79cb275a078f419b2ad9b4078e43ce7d3755617
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:41a61360fb256b330826da64337ef28050520c40ede2f24419acab91e8992eb7
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ae07eed3236de31c3edf8dbd34e2911ff4cc229408ebfe09f2600715ceec861
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d18a65e292716178d42dc52ada61554f9c6e571740a31ef9797ed2e10748246
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a72c943223bc50a40d5a42f6ea92f61ddf405e907f0a3013f6482c87c32b94b0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:20def0d25234f52b30d8748f635736a2d8d0a986bdde02ca7864e7641a877f56
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.672700484108609,
   "eval_steps": 100,
-  "global_step": 11100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1783,6 +1783,38 @@
       "eval_samples_per_second": 26.837,
       "eval_steps_per_second": 3.355,
       "step": 11100
     }
   ],
   "logging_steps": 100,
@@ -1790,7 +1822,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.2150748438607638e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.756893285624079,
   "eval_steps": 100,
+  "global_step": 11300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.837,
       "eval_steps_per_second": 3.355,
       "step": 11100
+    },
+    {
+      "epoch": 4.71,
+      "grad_norm": 5.623499393463135,
+      "learning_rate": 4.24452296819788e-05,
+      "loss": 2.6473,
+      "step": 11200
+    },
+    {
+      "epoch": 4.71,
+      "eval_cer": 0.5010998787689179,
+      "eval_loss": 2.048527240753174,
+      "eval_runtime": 372.3781,
+      "eval_samples_per_second": 25.453,
+      "eval_steps_per_second": 3.182,
+      "step": 11200
+    },
+    {
+      "epoch": 4.76,
+      "grad_norm": 4.054663181304932,
+      "learning_rate": 4.237455830388693e-05,
+      "loss": 1.4888,
+      "step": 11300
+    },
+    {
+      "epoch": 4.76,
+      "eval_cer": 0.48732939658206564,
+      "eval_loss": 2.4912757873535156,
+      "eval_runtime": 353.9893,
+      "eval_samples_per_second": 26.775,
+      "eval_steps_per_second": 3.348,
+      "step": 11300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.2373877715197002e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null