Training in progress, step 27100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:378dc527ac459832013c97617137877ef2787d8ad0a5019604ca85aa956d8e7e
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8e542af8d76367f68d7013ad25645c5c0bb83d400a9c28ba347486b7e1af191
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4c23db54888854e9599d18a9d3bb2ca8aba5577e50d015aa3e0495e88b82be4
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:76ef8497c6e127aeccc2e106755bbf32a546fa8428fa8775d2e9e8d8e5652691
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b0e4523778043b99de59919488370129ad827e481ce7777fc2e2ed0192be8c4
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e7d171ad28335cab6bd4c1150438a645740b385e44943066cf6cf9cdad1d0a8
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ab6c67f572fa86813b890e9a102c067c20a3ae8213e83df8a69f01dcfe18650
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b0fd6f9494bd763f598141a559ed76c4d8dfcfafe1cb83a86b361df0b818dea
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:920901db8d07342ad0b34f21db24e241a543d399c53204a75752af51c73d0ca9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:945cfe3d07d63b571472084df19a5a6f95aade9bf666b3cf8938678e9d425fd2
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.323931803830773,
   "eval_steps": 100,
-  "global_step": 26900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4311,6 +4311,38 @@
       "eval_samples_per_second": 25.6,
       "eval_steps_per_second": 3.201,
       "step": 26900
     }
   ],
   "logging_steps": 100,
@@ -4318,7 +4350,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.9479302465142643e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.408124605346243,
   "eval_steps": 100,
+  "global_step": 27100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.6,
       "eval_steps_per_second": 3.201,
       "step": 26900
+    },
+    {
+      "epoch": 11.37,
+      "grad_norm": 1.628806710243225,
+      "learning_rate": 3.1282685512367496e-05,
+      "loss": 1.1399,
+      "step": 27000
+    },
+    {
+      "epoch": 11.37,
+      "eval_cer": 0.4168051699190489,
+      "eval_loss": 1.782639741897583,
+      "eval_runtime": 391.1594,
+      "eval_samples_per_second": 24.231,
+      "eval_steps_per_second": 3.029,
+      "step": 27000
+    },
+    {
+      "epoch": 11.41,
+      "grad_norm": 3.158604621887207,
+      "learning_rate": 3.121201413427562e-05,
+      "loss": 1.1373,
+      "step": 27100
+    },
+    {
+      "epoch": 11.41,
+      "eval_cer": 0.4201585780767275,
+      "eval_loss": 1.5199880599975586,
+      "eval_runtime": 368.0376,
+      "eval_samples_per_second": 25.753,
+      "eval_steps_per_second": 3.22,
+      "step": 27100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.96989846970687e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null