Training in progress, step 10700, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcf5defa12c4ad41768400f0e89f96d1327b2145e3d75459f574578b69dcb6cc
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:71f48962b77a0ffadd466c017fcd32bec6946f7ff9c2a2e74009ea84a13a26ac
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc23937287860621ac669594158d01024ad6c4348b6e7634487d58cbff59e02d
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd244e0c641e9fc420b274487550a5fd81f515433393f446ae69f4eb95c66400
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20cdaee32636e4c7671e7b7305bf0afc014c7bf1db11c1dc264cd4d2b45e1530
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5da71c3972cdf1c8ca47cfca858d3f5eebd3ddd0bbfffc533b99224dfc911ff
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52e871decdaedd2ec0c4362d0e1ac2c22c91aeb0a484fed63f8055a64f9a662a
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3e5ea2f8b945220efdb684f11b1780e2edefdb156c009e8c72ef7983c62a8e2
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1593679e1b8de5f2d731b1b6aaef936886d9f364698ba0468455350ed39fffa6
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca3e3c26689da313cb94037cbfc3a7e856b1f0f65c3a0e23766260d8fd9feabe
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.420122079562198,
   "eval_steps": 100,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1687,6 +1687,38 @@
       "eval_samples_per_second": 26.52,
       "eval_steps_per_second": 3.316,
       "step": 10500
     }
   ],
   "logging_steps": 100,
@@ -1694,7 +1726,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.1500317525115727e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.504314881077668,
   "eval_steps": 100,
+  "global_step": 10700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.52,
       "eval_steps_per_second": 3.316,
       "step": 10500
+    },
+    {
+      "epoch": 4.46,
+      "grad_norm": 3.71893048286438,
+      "learning_rate": 4.286925795053004e-05,
+      "loss": 1.4426,
+      "step": 10600
+    },
+    {
+      "epoch": 4.46,
+      "eval_cer": 0.48283211450471236,
+      "eval_loss": 2.5203747749328613,
+      "eval_runtime": 378.5225,
+      "eval_samples_per_second": 25.039,
+      "eval_steps_per_second": 3.131,
+      "step": 10600
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 3.5400538444519043,
+      "learning_rate": 4.279858657243816e-05,
+      "loss": 2.5204,
+      "step": 10700
+    },
+    {
+      "epoch": 4.5,
+      "eval_cer": 0.496866567596105,
+      "eval_loss": 3.1510612964630127,
+      "eval_runtime": 360.9029,
+      "eval_samples_per_second": 26.262,
+      "eval_steps_per_second": 3.283,
+      "step": 10700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.1715979719910262e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null