Training in progress, step 12100, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +99 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b584231ffb94f091ca5b180feeefb07882a963d45f72c94630e8cac5fca0e3d3
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:990f79ce5d5fce5b54c543410da49311c8727e5393eaf8de5beb75ddea62f025
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e61f0b12121b7f0c47ad42e38859555c79382d0759ba8c9f5a3f104bde0f8a5
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:348350ce5be165c3b33d0652bff5953348b5181192242ec398df2e8b058bc2bb
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:357c2098f0867985c60e1e38c32c9f89ff84cf66d05ef0c4edea8dac7da4617c
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fda19efc8188b89a824ef6b745bab7a4b2df0fcc62fc3ee12571612ab5443e8
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47182995a8ebb9d76f8a3fc5f5dc83e49f842e0b52d89c8721a4037b63289456
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac3b1bd46b3911f03359a3982a0c03f865d3787800599fe7d28e536bbc352b08
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fc2d2274e5132a8354a7158de2274a04f9a3f95d5f286132bba35524da29764
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fca80c682586ea565475c8cb2e3f5097ebcafda0408dbe21093035fc5d9ba92
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.84108608713955,
   "eval_steps": 100,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1847,6 +1847,102 @@
       "eval_samples_per_second": 26.401,
       "eval_steps_per_second": 3.301,
       "step": 11500
     }
   ],
   "logging_steps": 100,
@@ -1854,7 +1950,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.2594986525589176e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.093664491685961,
   "eval_steps": 100,
+  "global_step": 12100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.401,
       "eval_steps_per_second": 3.301,
       "step": 11500
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 12.522397994995117,
+      "learning_rate": 4.216254416961131e-05,
+      "loss": 1.4244,
+      "step": 11600
+    },
+    {
+      "epoch": 4.88,
+      "eval_cer": 0.48068612881780143,
+      "eval_loss": 2.598745822906494,
+      "eval_runtime": 385.9814,
+      "eval_samples_per_second": 24.556,
+      "eval_steps_per_second": 3.07,
+      "step": 11600
+    },
+    {
+      "epoch": 4.93,
+      "grad_norm": 3.1015026569366455,
+      "learning_rate": 4.209187279151944e-05,
+      "loss": 3.7378,
+      "step": 11700
+    },
+    {
+      "epoch": 4.93,
+      "eval_cer": 0.47458791208791207,
+      "eval_loss": 2.3908824920654297,
+      "eval_runtime": 373.2148,
+      "eval_samples_per_second": 25.396,
+      "eval_steps_per_second": 3.175,
+      "step": 11700
+    },
+    {
+      "epoch": 4.97,
+      "grad_norm": 86.87032318115234,
+      "learning_rate": 4.2021201413427565e-05,
+      "loss": 2.8329,
+      "step": 11800
+    },
+    {
+      "epoch": 4.97,
+      "eval_cer": 0.4754898126784248,
+      "eval_loss": 2.441450357437134,
+      "eval_runtime": 446.0173,
+      "eval_samples_per_second": 21.25,
+      "eval_steps_per_second": 2.657,
+      "step": 11800
+    },
+    {
+      "epoch": 5.01,
+      "grad_norm": 2.7503468990325928,
+      "learning_rate": 4.195053003533569e-05,
+      "loss": 2.4912,
+      "step": 11900
+    },
+    {
+      "epoch": 5.01,
+      "eval_cer": 0.488764127331743,
+      "eval_loss": 1.6247801780700684,
+      "eval_runtime": 361.3079,
+      "eval_samples_per_second": 26.232,
+      "eval_steps_per_second": 3.28,
+      "step": 11900
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 2.511701822280884,
+      "learning_rate": 4.187985865724382e-05,
+      "loss": 2.009,
+      "step": 12000
+    },
+    {
+      "epoch": 5.05,
+      "eval_cer": 0.46521938915177347,
+      "eval_loss": 1.8090691566467285,
+      "eval_runtime": 401.8599,
+      "eval_samples_per_second": 23.585,
+      "eval_steps_per_second": 2.949,
+      "step": 12000
+    },
+    {
+      "epoch": 5.09,
+      "grad_norm": 4.231322765350342,
+      "learning_rate": 4.180918727915194e-05,
+      "loss": 1.6484,
+      "step": 12100
+    },
+    {
+      "epoch": 5.09,
+      "eval_cer": 0.483240291736733,
+      "eval_loss": 1.89494788646698,
+      "eval_runtime": 367.7673,
+      "eval_samples_per_second": 25.772,
+      "eval_steps_per_second": 3.222,
+      "step": 12100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.3265676741232484e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null