Training in progress, step 23300, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +67 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5de2a0b6f5605c28e3b76e90893140030beb717b3d1a72803f0f6f8bf22f20d3
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:885e4086287d81a6c57b433d7482c8a891e84519bd6a20d1ec115d03c74c0ce0
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fdeca2e925e60f963cb2238d682deedab54a56146007d4419812a3113ddc204
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:5486ea2d5d852edcc9c66f324045c258e41e901f713ba2047c61095d581b32e9
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66d10bfe6adc048388b735955f524b88e59f21f6f4b5176cd8a3a681534d740d
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec688ceaf93ae471f57a8056ca6dbf8c0b36abdc291ae512e6cb0dbe74e4638d
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:024df13920a7bfc09c9ab0f4046389f896972fb4c1a844e4c41f17872fd80aa2
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:b95ac58f573cfcf6a4b348ea728bffa80f65499c1f4c3ba4d255445fd485d15b
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a23d9aa0c3e1803c2e7edca514f5bf1ca5e6413b4e99acf0ac462c28ded1f82
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:889ad38937ee9ef0869ccade470844b4b0a09f60a10384d27c3be448b16e4af6
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.640075773521364,
   "eval_steps": 100,
-  "global_step": 22900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3671,6 +3671,70 @@
       "eval_samples_per_second": 26.11,
       "eval_steps_per_second": 3.264,
       "step": 22900
     }
   ],
   "logging_steps": 100,
@@ -3678,7 +3742,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.5097235719710438e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.808461376552305,
   "eval_steps": 100,
+  "global_step": 23300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.11,
       "eval_steps_per_second": 3.264,
       "step": 22900
+    },
+    {
+      "epoch": 9.68,
+      "grad_norm": 8.905746459960938,
+      "learning_rate": 3.4108833922261485e-05,
+      "loss": 1.2559,
+      "step": 23000
+    },
+    {
+      "epoch": 9.68,
+      "eval_cer": 0.452297035704509,
+      "eval_loss": 1.6737189292907715,
+      "eval_runtime": 383.7761,
+      "eval_samples_per_second": 24.697,
+      "eval_steps_per_second": 3.088,
+      "step": 23000
+    },
+    {
+      "epoch": 9.72,
+      "grad_norm": 3.8121345043182373,
+      "learning_rate": 3.4038162544169613e-05,
+      "loss": 1.2646,
+      "step": 23100
+    },
+    {
+      "epoch": 9.72,
+      "eval_cer": 0.45129247976223064,
+      "eval_loss": 1.4810179471969604,
+      "eval_runtime": 361.7355,
+      "eval_samples_per_second": 26.201,
+      "eval_steps_per_second": 3.276,
+      "step": 23100
+    },
+    {
+      "epoch": 9.77,
+      "grad_norm": 1.6551660299301147,
+      "learning_rate": 3.396749116607774e-05,
+      "loss": 1.2812,
+      "step": 23200
+    },
+    {
+      "epoch": 9.77,
+      "eval_cer": 0.4401079347698565,
+      "eval_loss": 1.4080007076263428,
+      "eval_runtime": 387.5504,
+      "eval_samples_per_second": 24.456,
+      "eval_steps_per_second": 3.058,
+      "step": 23200
+    },
+    {
+      "epoch": 9.81,
+      "grad_norm": 1.3945401906967163,
+      "learning_rate": 3.389681978798587e-05,
+      "loss": 1.2539,
+      "step": 23300
+    },
+    {
+      "epoch": 9.81,
+      "eval_cer": 0.44230280395760824,
+      "eval_loss": 1.8802071809768677,
+      "eval_runtime": 376.3421,
+      "eval_samples_per_second": 25.185,
+      "eval_steps_per_second": 3.149,
+      "step": 23300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.5535582493052453e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null