Training in progress, step 53500, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00ef485d074352aca5556b0497b480b64f5a597428f78f4530b27b6743398719
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e35b78386d3b49c89f85ffffe06aae621443cf1b932a8092b4db090fbd3ec96
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43478402ec9b98f774cd2d2f4bfd0486130906c01dad84a75d6574a44e13c030
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:874666ed33022a022c5899409f513db7f4eb2c26c88a84553937a6e405f29378
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b1c06a4215a8a7ee627724ddb5dc01d00b82023b0098d64dc5a28a3f3f9a399
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:81361d862eaf160b9e170db03019275ae10369ec53a2433cdd4bf4a722d8c87d
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b75e5a022877b84c4104618a8d23ec7b90fdc7aadaa0cd12f67cfded1c78a671
-size 14631

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d5783c2395d6ceb319348029dab347862318433ddfe999f17859fa9858fbd44
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23380186d0e4c7eec5667700cc9af150fab32a4e15bb4b1323f659a444bfb4c0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc7f8ff46b15057ea0b7cff87e35527c6b328af1a3f89ae33ca25b7b381ad498
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 22.43738160387287,
   "eval_steps": 100,
-  "global_step": 53300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8535,6 +8535,38 @@
       "eval_samples_per_second": 24.471,
       "eval_steps_per_second": 3.06,
       "step": 53300
     }
   ],
   "logging_steps": 100,
@@ -8542,7 +8574,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 5.840653170107694e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 22.52157440538834,
   "eval_steps": 100,
+  "global_step": 53500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.471,
       "eval_steps_per_second": 3.06,
       "step": 53300
+    },
+    {
+      "epoch": 22.48,
+      "grad_norm": 2.225783586502075,
+      "learning_rate": 1.2631802120141343e-05,
+      "loss": 0.2854,
+      "step": 53400
+    },
+    {
+      "epoch": 22.48,
+      "eval_cer": 0.33407228892104335,
+      "eval_loss": 2.5062761306762695,
+      "eval_runtime": 421.3473,
+      "eval_samples_per_second": 22.495,
+      "eval_steps_per_second": 2.812,
+      "step": 53400
+    },
+    {
+      "epoch": 22.52,
+      "grad_norm": 9.648059844970703,
+      "learning_rate": 1.256113074204947e-05,
+      "loss": 0.2985,
+      "step": 53500
+    },
+    {
+      "epoch": 22.52,
+      "eval_cer": 0.3380709592898205,
+      "eval_loss": 2.483365774154663,
+      "eval_runtime": 392.706,
+      "eval_samples_per_second": 24.135,
+      "eval_steps_per_second": 3.018,
+      "step": 53500
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 5.862232878225574e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null