Training in progress, step 39100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86aedaea68068dd5c1a8b421f702958fe0acd2fbb8823da4823612fb4e7c45bf
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:59cf012cca14e7c479066e2ff0a5e1f204267b57f9816ba1aa6ee55cc5d6f9bf
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727182a7c870435209c98f44944156abd6a6c3261ccb96daf87907a574c1b37b
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:de0416e5725a213d2dafe05a9938222b9ad2625ab52c5100cdd7de652f9a9f5a
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93a07f3eb542190ed23f7b40d5f4678b80bd5b4ba91438888eb3d3cb6fc3186e
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:10f668cec0befb5905f1774c4110fe903320e1b8e768261c233cddbf5d15f6e2
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91e28ae43f1dd07d9a9ddf4073e22adb6e7929806ef21e48eb3b580f30a7e559
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a87a8feee502953668db6e272529785853c44ef4f1789f772c9d4e4c1dd6e44
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e9da594946dcc239f89ecda3fc48286b363af1118506368ef79741edf876cc1
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e19363ce1cc072264c627cb668ae2097c1f0e504b938ed74dfd1914e30a16032
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.375499894759,
   "eval_steps": 100,
-  "global_step": 38900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6231,6 +6231,38 @@
       "eval_samples_per_second": 24.861,
       "eval_steps_per_second": 3.108,
       "step": 38900
     }
   ],
   "logging_steps": 100,
@@ -6238,7 +6270,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 4.262537185081538e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.45969269627447,
   "eval_steps": 100,
+  "global_step": 39100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.861,
       "eval_steps_per_second": 3.108,
       "step": 38900
+    },
+    {
+      "epoch": 16.42,
+      "grad_norm": 1.9076517820358276,
+      "learning_rate": 2.2804240282685513e-05,
+      "loss": 0.7521,
+      "step": 39000
+    },
+    {
+      "epoch": 16.42,
+      "eval_cer": 0.3758725704900082,
+      "eval_loss": 1.847259759902954,
+      "eval_runtime": 394.9054,
+      "eval_samples_per_second": 24.001,
+      "eval_steps_per_second": 3.001,
+      "step": 39000
+    },
+    {
+      "epoch": 16.46,
+      "grad_norm": 7.669488906860352,
+      "learning_rate": 2.273356890459364e-05,
+      "loss": 0.7523,
+      "step": 39100
+    },
+    {
+      "epoch": 16.46,
+      "eval_cer": 0.3722576356028313,
+      "eval_loss": 1.65703284740448,
+      "eval_runtime": 378.1244,
+      "eval_samples_per_second": 25.066,
+      "eval_steps_per_second": 3.134,
+      "step": 39100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 4.284622492226139e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null