Training in progress, step 14700, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +67 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5944066b223cfd00c404cf3a6499df6bf1156481f8e46db2244f54b83303cf94
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8576ccb82b21bcc2b8addf4916f2f16bf5fac1bf334cb43ac6adf88efbcf106
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91b270efdfcaabe2c52fc6c456f6d62179665c124b6a42e9797a2f9dffe4b1c0
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:650672fda6e5ee3003c98bce94c3d3b2333fe3a6cbc8b34be4d9defa333723aa
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:702b99df31af42d1120ccb356b372e5108301018183cd956500f1cbd4ca79c15
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:23908ca485378ebcbd5221e3f9a4dfc2825be11cae4030a2167b67baabd7bf90
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ecbc500923ed650d6f32ad8c69af7efe7dabee68519bf7ac279027b01c64989
-size 14631

 version https://git-lfs.github.com/spec/v1
+oid sha256:44e3479363f6845648909d8b217e2aa3767b3ef51cc2decc24f7fd96a7818af1
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:417d56dc8d90d6f81699627cbe27ea28c719a2a1f4ac895f35d5afcaf9387b09
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:73db81e910b9ea3c99b0a41dadeb749a85548b72d68b5ef751adf848d3f6ccc4
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.019785308356136,
   "eval_steps": 100,
-  "global_step": 14300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2295,6 +2295,70 @@
       "eval_samples_per_second": 26.237,
       "eval_steps_per_second": 3.28,
       "step": 14300
     }
   ],
   "logging_steps": 100,
@@ -2302,7 +2366,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.5667869779936743e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.188170911387076,
   "eval_steps": 100,
+  "global_step": 14700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.237,
       "eval_steps_per_second": 3.28,
       "step": 14300
+    },
+    {
+      "epoch": 6.06,
+      "grad_norm": 2.6403534412384033,
+      "learning_rate": 4.018445229681979e-05,
+      "loss": 1.4007,
+      "step": 14400
+    },
+    {
+      "epoch": 6.06,
+      "eval_cer": 0.4687561104376051,
+      "eval_loss": 2.6799304485321045,
+      "eval_runtime": 377.8259,
+      "eval_samples_per_second": 25.086,
+      "eval_steps_per_second": 3.136,
+      "step": 14400
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 16.431684494018555,
+      "learning_rate": 4.011378091872792e-05,
+      "loss": 1.3673,
+      "step": 14500
+    },
+    {
+      "epoch": 6.1,
+      "eval_cer": 0.4627141097336827,
+      "eval_loss": 2.739257335662842,
+      "eval_runtime": 365.917,
+      "eval_samples_per_second": 25.902,
+      "eval_steps_per_second": 3.238,
+      "step": 14500
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 1.2545260190963745,
+      "learning_rate": 4.0043109540636045e-05,
+      "loss": 1.398,
+      "step": 14600
+    },
+    {
+      "epoch": 6.15,
+      "eval_cer": 0.46276054905948144,
+      "eval_loss": 2.623035430908203,
+      "eval_runtime": 380.5058,
+      "eval_samples_per_second": 24.909,
+      "eval_steps_per_second": 3.114,
+      "step": 14600
+    },
+    {
+      "epoch": 6.19,
+      "grad_norm": 4.757970333099365,
+      "learning_rate": 3.9972438162544173e-05,
+      "loss": 1.7177,
+      "step": 14700
+    },
+    {
+      "epoch": 6.19,
+      "eval_cer": 0.4671600641351531,
+      "eval_loss": 3.1201841831207275,
+      "eval_runtime": 364.6269,
+      "eval_samples_per_second": 25.994,
+      "eval_steps_per_second": 3.25,
+      "step": 14700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.6107102446089286e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null