Training in progress, step 27700, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2990a3bb6d69e18c103cd2337804d461c6c67326e8e0f062fe20b13112717c31
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5a9b68d851de5d3211a5786bc155bb288dd74d58e4dc5493cda8e9bb8f5b66c
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3f96081b3cdc78cf713fd98ff997e0bb9a91ae50630385c65abc9cf9314347b
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:a91c760806ff07f3048741537eb7db0ce9a9fc0545b24f11d5446b75977c0636
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7000394dc2c4f6debb1651edfed8e64b05b328880d95d9bde162788468b1edcb
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:006fe2f9891b8bb244bfb635af4ee42dc360b27e8e2fbe6b729ce4508aa080ac
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f83e3367e58d9a4431dc150c90b3ffeb9508f969b56e80c75c390795e94f6d91
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:58fad5d4b2449cf648eabcb3d279346b6662a87e99fb79ac46b0c8815722381f
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9171e687a5332bf79e87905511cf6fd0514a885fad349a7f1665c05a38dc32e
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:739f0eb8d8ec6d67ffc73cb7a845f894d3c8ae14810b720e71f07a82de397bb6
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.576510208377183,
   "eval_steps": 100,
-  "global_step": 27500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4407,6 +4407,38 @@
       "eval_samples_per_second": 25.439,
       "eval_steps_per_second": 3.181,
       "step": 27500
     }
   ],
   "logging_steps": 100,
@@ -4414,7 +4446,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.014141824593385e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.660703009892654,
   "eval_steps": 100,
+  "global_step": 27700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.439,
       "eval_steps_per_second": 3.181,
       "step": 27500
+    },
+    {
+      "epoch": 11.62,
+      "grad_norm": 2.0867862701416016,
+      "learning_rate": 3.085865724381626e-05,
+      "loss": 1.1146,
+      "step": 27600
+    },
+    {
+      "epoch": 11.62,
+      "eval_cer": 0.41358374721364044,
+      "eval_loss": 2.7960143089294434,
+      "eval_runtime": 392.1126,
+      "eval_samples_per_second": 24.172,
+      "eval_steps_per_second": 3.022,
+      "step": 27600
+    },
+    {
+      "epoch": 11.66,
+      "grad_norm": 1.8952158689498901,
+      "learning_rate": 3.0787985865724386e-05,
+      "loss": 1.1186,
+      "step": 27700
+    },
+    {
+      "epoch": 11.66,
+      "eval_cer": 0.41495004106214073,
+      "eval_loss": 2.6641368865966797,
+      "eval_runtime": 367.6488,
+      "eval_samples_per_second": 25.78,
+      "eval_steps_per_second": 3.223,
+      "step": 27700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.035915998579374e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null