Training in progress, step 34900, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9867f224290cad13cee2149e3f5b88b51d71f4cd5c80186c5e74ad5b9c9aa605
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b206f2369d31cae35a08aab2df578e781b6943ef77ce53d8ba5787f71a665d5
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:353be69f812937f23a9ca7a7a09cb32160785e43f6ae776dd247459ea7615c12
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ae2198c7d773d1f56253a07cd8ae7a4c209a916ae2f8d8eda3a288ec2b9d3a1
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82dcac1bc761474f881c627c4621b78ab1a57da749763717e9a164523afda69f
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9be35650088eb24a02be1e6a194809f0cc95f8e622d969c1b31c9e1e0a7e851
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33684118cae1307b6ed1a910d74ee2b4d35f0d7a91b6c16c2caf9ca77105918c
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab3843d78d7e496fe9b5af38e4b4d8927ff90626a6cfdc3d3f661a4b13faa85
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce84586ac34d9d46ffac97deffc1538ae04a68c67811b91ea3d3bec0fe9c9a7a
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a9054242e692acef1ddb101099ef9d20fe1d70541a460911930073f47b77157
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.60745106293412,
   "eval_steps": 100,
-  "global_step": 34700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5559,6 +5559,38 @@
       "eval_samples_per_second": 25.925,
       "eval_steps_per_second": 3.241,
       "step": 34700
     }
   ],
   "logging_steps": 100,
@@ -5566,7 +5598,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.8025780817217e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.69164386444959,
   "eval_steps": 100,
+  "global_step": 34900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.925,
       "eval_steps_per_second": 3.241,
       "step": 34700
+    },
+    {
+      "epoch": 14.65,
+      "grad_norm": 3.3934333324432373,
+      "learning_rate": 2.5771731448763254e-05,
+      "loss": 0.9375,
+      "step": 34800
+    },
+    {
+      "epoch": 14.65,
+      "eval_cer": 0.3903005357631692,
+      "eval_loss": 1.944000005722046,
+      "eval_runtime": 404.5333,
+      "eval_samples_per_second": 23.429,
+      "eval_steps_per_second": 2.929,
+      "step": 34800
+    },
+    {
+      "epoch": 14.69,
+      "grad_norm": 2.0570108890533447,
+      "learning_rate": 2.5701060070671378e-05,
+      "loss": 0.9158,
+      "step": 34900
+    },
+    {
+      "epoch": 14.69,
+      "eval_cer": 0.3864998435727973,
+      "eval_loss": 1.8147820234298706,
+      "eval_runtime": 366.6552,
+      "eval_samples_per_second": 25.85,
+      "eval_steps_per_second": 3.232,
+      "step": 34900
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.824337597929555e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null