Training in progress, step 30900, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59250fd9c1a5ce2ea95e8374f4e0a25cf570f1b430322763a33c452a78721126
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:a48a3ca955f4c3490521ffa16267bda052fbae1914e6e361907a2828816f0c77
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ee966e20348f3305f52c11ce787ab1d112ba834727e878f4dd30e8df8e37f46
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:982196fc29592e305eafca95afb014310ab8940220bbbb1a5a33250f58ddf315
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79caf774c5464f9f5b97517a7e1be66aa2f2a138193b94d0825747e7e97452ce
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3a59837b584d61da7f6862e8ac72f4bc9bb2b3b48e0a427fa8da7ba5143bf40
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37a3ee2bb07ef33e190c44e2b218c5390d462a8018bd3100170be9a809a772b2
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ea975816aac3d40a8b3d99eca8a891c93c967ac80c950988bae3dd44c17f8cc
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b7c7f8d94d094e5495ec4b02a0a6e224c7e7a8db7f263d195945f5e974673dc
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:35cbb8ba5802e44e1ce90c535d286211f64f07ac10efce360c20ea86aa5c0fe7
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.92359503262471,
   "eval_steps": 100,
-  "global_step": 30700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4919,6 +4919,38 @@
       "eval_samples_per_second": 25.309,
       "eval_steps_per_second": 3.164,
       "step": 30700
     }
   ],
   "logging_steps": 100,
@@ -4926,7 +4958,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.363836920139934e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 13.007787834140181,
   "eval_steps": 100,
+  "global_step": 30900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.309,
       "eval_steps_per_second": 3.164,
       "step": 30700
+    },
+    {
+      "epoch": 12.97,
+      "grad_norm": 2.6603596210479736,
+      "learning_rate": 2.8598586572438163e-05,
+      "loss": 1.0564,
+      "step": 30800
+    },
+    {
+      "epoch": 12.97,
+      "eval_cer": 0.40476760783700283,
+      "eval_loss": 2.143598794937134,
+      "eval_runtime": 399.5314,
+      "eval_samples_per_second": 23.723,
+      "eval_steps_per_second": 2.966,
+      "step": 30800
+    },
+    {
+      "epoch": 13.01,
+      "grad_norm": 2.8563497066497803,
+      "learning_rate": 2.8527915194346288e-05,
+      "loss": 1.0411,
+      "step": 30900
+    },
+    {
+      "epoch": 13.01,
+      "eval_cer": 0.40590170505650935,
+      "eval_loss": 2.6135616302490234,
+      "eval_runtime": 370.2003,
+      "eval_samples_per_second": 25.602,
+      "eval_steps_per_second": 3.201,
+      "step": 30900
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.386567819260411e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null