Training in progress, step 53300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:633d033e0feaf0bf4322349a4c2c21f2d9cac42e95486f6edc465534c3e94d22
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:00ef485d074352aca5556b0497b480b64f5a597428f78f4530b27b6743398719
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f396277c9eced74d208c1a0a4c9b4fc9e72369b2bd0928d8da6ef34b6dce864c
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:43478402ec9b98f774cd2d2f4bfd0486130906c01dad84a75d6574a44e13c030
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba3188b916823703b8f1761ccc19c30690dec44a4be3f89bd70b12f8dabc77e8
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b1c06a4215a8a7ee627724ddb5dc01d00b82023b0098d64dc5a28a3f3f9a399
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db752bd188273ee158b3e145391265b4293483bb7f634f864afe75f2821bf9a1
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:b75e5a022877b84c4104618a8d23ec7b90fdc7aadaa0cd12f67cfded1c78a671
+size 14631

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed67a7cf08915cbe3b030bce4e92226fc3b82cf21f5936d3ab71491cd41ba3f4
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:23380186d0e4c7eec5667700cc9af150fab32a4e15bb4b1323f659a444bfb4c0
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 22.353188802357398,
   "eval_steps": 100,
-  "global_step": 53100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8503,6 +8503,38 @@
       "eval_samples_per_second": 25.328,
       "eval_steps_per_second": 3.167,
       "step": 53100
     }
   ],
   "logging_steps": 100,
@@ -8510,7 +8542,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.818817544770568e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 22.43738160387287,
   "eval_steps": 100,
+  "global_step": 53300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.328,
       "eval_steps_per_second": 3.167,
       "step": 53100
+    },
+    {
+      "epoch": 22.4,
+      "grad_norm": 1.3863327503204346,
+      "learning_rate": 1.2773144876325088e-05,
+      "loss": 0.2997,
+      "step": 53200
+    },
+    {
+      "epoch": 22.4,
+      "eval_cer": 0.33839359039536976,
+      "eval_loss": 2.4660918712615967,
+      "eval_runtime": 423.5986,
+      "eval_samples_per_second": 22.375,
+      "eval_steps_per_second": 2.797,
+      "step": 53200
+    },
+    {
+      "epoch": 22.44,
+      "grad_norm": 1.9845781326293945,
+      "learning_rate": 1.2702473498233216e-05,
+      "loss": 0.2999,
+      "step": 53300
+    },
+    {
+      "epoch": 22.44,
+      "eval_cer": 0.3362524930585429,
+      "eval_loss": 2.4160196781158447,
+      "eval_runtime": 387.3168,
+      "eval_samples_per_second": 24.471,
+      "eval_steps_per_second": 3.06,
+      "step": 53300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.840653170107694e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null