Training in progress, step 33300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80dede518c72c0bba9c223e7cfed76911fa6394ec26c0650d7e326e1c552fcec
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:10d5b6ee3ec7774796203e9857adedf4a34ad1a8f9d65eac92d02013104b7486
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8698a6f801a918beb15989fb2bf3a1edbdc2ca6625d90e61434980880b6dbe95
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7eed855e5c83384fc6750fe371ea0613d62eeceb95e59f1e6fb79a4aa75fac5
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e88f56416695277fa9c9a9d86e755d054a221cbf389be803e09487f20a0bdc4c
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:298d5e2bc403ff74d204ac4ad46dbab183f8ce444ab4c0c42dc465d17ad6d84f
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7801270dd1e1084f5e8f44290a74a4794810996f2cc1dc68247d892f66491210
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a3119fb2b34229087dc7d4734b99ce7345817f422d2b8091f039bff04ac0992
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09f7576dd710ccdafe6cc17194e31546db69ecc2b7cc2efcd8719730dbf27b3b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:2db2a9d436fb980c51b3b887bf8c6c11afcad56f430dc37015dfbad372f5df29
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 13.933908650810356,
   "eval_steps": 100,
-  "global_step": 33100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5303,6 +5303,38 @@
       "eval_samples_per_second": 25.678,
       "eval_steps_per_second": 3.21,
       "step": 33100
     }
   ],
   "logging_steps": 100,
@@ -5310,7 +5342,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.627266703487163e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.018101452325826,
   "eval_steps": 100,
+  "global_step": 33300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.678,
       "eval_steps_per_second": 3.21,
       "step": 33100
+    },
+    {
+      "epoch": 13.98,
+      "grad_norm": 2.1010019779205322,
+      "learning_rate": 2.6902473498233218e-05,
+      "loss": 0.9974,
+      "step": 33200
+    },
+    {
+      "epoch": 13.98,
+      "eval_cer": 0.4032106683352235,
+      "eval_loss": 2.416074514389038,
+      "eval_runtime": 395.8532,
+      "eval_samples_per_second": 23.943,
+      "eval_steps_per_second": 2.994,
+      "step": 33200
+    },
+    {
+      "epoch": 14.02,
+      "grad_norm": 5.9587812423706055,
+      "learning_rate": 2.6831802120141342e-05,
+      "loss": 0.9724,
+      "step": 33300
+    },
+    {
+      "epoch": 14.02,
+      "eval_cer": 0.3974839662117242,
+      "eval_loss": 2.979396343231201,
+      "eval_runtime": 370.8376,
+      "eval_samples_per_second": 25.558,
+      "eval_steps_per_second": 3.195,
+      "step": 33300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.6491196354345704e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null