Training in progress, step 11500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0801e65f2be99dc1c8c31a8b42fd4c773ebf79cbd409c888bed299500fb67698
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b584231ffb94f091ca5b180feeefb07882a963d45f72c94630e8cac5fca0e3d3
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1758303ea0e620428277da4b68b42acf7e0c018a4d0c417e71df888e1c059b80
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e61f0b12121b7f0c47ad42e38859555c79382d0759ba8c9f5a3f104bde0f8a5
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41a61360fb256b330826da64337ef28050520c40ede2f24419acab91e8992eb7
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:357c2098f0867985c60e1e38c32c9f89ff84cf66d05ef0c4edea8dac7da4617c
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d18a65e292716178d42dc52ada61554f9c6e571740a31ef9797ed2e10748246
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:47182995a8ebb9d76f8a3fc5f5dc83e49f842e0b52d89c8721a4037b63289456
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20def0d25234f52b30d8748f635736a2d8d0a986bdde02ca7864e7641a877f56
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fc2d2274e5132a8354a7158de2274a04f9a3f95d5f286132bba35524da29764
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.756893285624079,
   "eval_steps": 100,
-  "global_step": 11300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1815,6 +1815,38 @@
       "eval_samples_per_second": 26.775,
       "eval_steps_per_second": 3.348,
       "step": 11300
     }
   ],
   "logging_steps": 100,
@@ -1822,7 +1854,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.2373877715197002e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.84108608713955,
   "eval_steps": 100,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.775,
       "eval_steps_per_second": 3.348,
       "step": 11300
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.9226583242416382,
+      "learning_rate": 4.230388692579505e-05,
+      "loss": 1.4556,
+      "step": 11400
+    },
+    {
+      "epoch": 4.8,
+      "eval_cer": 0.4807105705682218,
+      "eval_loss": 1.4841840267181396,
+      "eval_runtime": 376.2491,
+      "eval_samples_per_second": 25.191,
+      "eval_steps_per_second": 3.15,
+      "step": 11400
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 6.85697603225708,
+      "learning_rate": 4.223321554770318e-05,
+      "loss": 1.4391,
+      "step": 11500
+    },
+    {
+      "epoch": 4.84,
+      "eval_cer": 0.48008730593250165,
+      "eval_loss": 3.111499547958374,
+      "eval_runtime": 358.9952,
+      "eval_samples_per_second": 26.401,
+      "eval_steps_per_second": 3.301,
+      "step": 11500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.2594986525589176e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null