Training in progress, step 52700, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9e3ec186d1506bf3f5a46e86055cacd6b0c9b4ffbe24417c8eef77757faea0c
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fe1c93b8017d74a09b637d5419b72f561139b3c1af762e8562b3cb8786654a7
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9444eb6b2eef3ecb411f123c639c2a92b8042b5a5c5be1aa90832ac5c20bbba
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:32f313c4502ab1516bf134a75993c4c561fdee3ec545f99a82ba52cad86980eb
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be94356ea572d4e68c6fb375bc81fdb494cbc39b516053b8fc4f2f6588936802
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a976a4a597b8b9341405e32ca9ff17df9bc058b930b3fb15473565039dee635
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:988f89765ff989d1f443819280677bc95db9d024f3412fe0f8825777a7b0fb01
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39d694511c38cf842adf62f634f5a20eb55c12c93d605d719c21b8dcbbcf72b0
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd383b5b8f3f451872508e62000f649671b5a3de6d9b2cd72dc13514c55d7d6b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:726de08061b13aa65db2732d53ac93e0334fa97527eefc3b67e0a6227d537660
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 22.100610397810986,
   "eval_steps": 100,
-  "global_step": 52500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8407,6 +8407,38 @@
       "eval_samples_per_second": 24.249,
       "eval_steps_per_second": 3.032,
       "step": 52500
     }
   ],
   "logging_steps": 100,
@@ -8414,7 +8446,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.753031817537913e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 22.184803199326456,
   "eval_steps": 100,
+  "global_step": 52700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.249,
       "eval_steps_per_second": 3.032,
       "step": 52500
+    },
+    {
+      "epoch": 22.14,
+      "grad_norm": 2.155449151992798,
+      "learning_rate": 1.3197173144876326e-05,
+      "loss": 0.2968,
+      "step": 52600
+    },
+    {
+      "epoch": 22.14,
+      "eval_cer": 0.3380514058894842,
+      "eval_loss": 2.6296260356903076,
+      "eval_runtime": 425.2856,
+      "eval_samples_per_second": 22.286,
+      "eval_steps_per_second": 2.786,
+      "step": 52600
+    },
+    {
+      "epoch": 22.18,
+      "grad_norm": 11.153074264526367,
+      "learning_rate": 1.3126501766784453e-05,
+      "loss": 0.2936,
+      "step": 52700
+    },
+    {
+      "epoch": 22.18,
+      "eval_cer": 0.33938836963748,
+      "eval_loss": 2.600175142288208,
+      "eval_runtime": 394.8419,
+      "eval_samples_per_second": 24.005,
+      "eval_steps_per_second": 3.001,
+      "step": 52700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.7751950642202254e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null