Training in progress, step 3200, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa3f8250eedc0ad91d9bd7bd29190dfcd30c24ddbb981802ff4398fb1b6f8ccb
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bf71b0c4b5b42be2c849af7ec687de0ddfb09171ee59dc0c9b9e95435acb0ae
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d61642ae37b7f2123a78d2dc95232dacaf674afbc5bc78d70d4b6245a6343788
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:e23c99508fe49e7d270ef25d2b0bfddea927c361d4b4b369364b31eb5bfb76aa
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9aa0dc12fc4c549ade65217632d28f06d688771482b33353c8dcff908cd43500
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:794316e4b1b49164c3c1b912b03bc9e5c56a1bde3e75f18b56f92a8c3ef576cd
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b8972e9f2b0f288dfd8ade7d14f3387e82aa534b7b0691b69299c0919f543f0
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:caa8f6a1dd5101e10414474b080f8f573bd80f1bc9e5c32a51cbba518e254664
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd47c81b0d91d48642f51b85203435f35325e0ebcfd794d4d6fa6f9f3a411358
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:9caf1980567e30be4f62497610fa1f8c611b6eb31004cde77b37b2a91c8900c9
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2628920227320564,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -487,6 +487,38 @@
       "eval_samples_per_second": 27.932,
       "eval_steps_per_second": 3.492,
       "step": 3000
     }
   ],
   "logging_steps": 100,
@@ -494,7 +526,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.298748154606821e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3470848242475268,
   "eval_steps": 100,
+  "global_step": 3200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.932,
       "eval_steps_per_second": 3.492,
       "step": 3000
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 3.9499669075012207,
+      "learning_rate": 4.816749116607774e-05,
+      "loss": 2.4353,
+      "step": 3100
+    },
+    {
+      "epoch": 1.3,
+      "eval_cer": 0.5479229400492746,
+      "eval_loss": 3.4527170658111572,
+      "eval_runtime": 354.1425,
+      "eval_samples_per_second": 26.763,
+      "eval_steps_per_second": 3.346,
+      "step": 3100
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 2.9536569118499756,
+      "learning_rate": 4.809681978798587e-05,
+      "loss": 2.9787,
+      "step": 3200
+    },
+    {
+      "epoch": 1.35,
+      "eval_cer": 0.5677500879903015,
+      "eval_loss": 2.6674227714538574,
+      "eval_runtime": 344.0522,
+      "eval_samples_per_second": 27.548,
+      "eval_steps_per_second": 3.444,
+      "step": 3200
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.518283860575115e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null