Training in progress, step 8100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcf23930d595ea17c01a47edb3798852592d31dfd889457b2d9d1c679c37f37c
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:408c6cd9a698b16001a43197f1c14eb97815dc79cf0faf065cdd9fae5f5d7a0c
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:072b89b705b64c5ce2d1ed54311d307c5b17debef3a5bed90eb6ae9ae9aeeb3c
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:29518292804cc1bbadfb0c2d47c708a9ad2a4899919ddbb39ca62659b229c095
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc97c919648478a76fc77d365b16ccd77e7685605a6c32a7a953ccbca70c1486
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:c599e77c37f648f3f925b89128d4d5cf7e01fb20ae88a5649c4f9e9edbed6487
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd14d107eddb60c68c35f7471eb98fd20b6fccbc6c5557a787e6bfda0de7513c
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2427345fe81496661e617176cf30f03a179e764f54042a1de82a0b0e5e040e18
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e743b0e6a41e962bc63d9c92583e4d59314ce7fec2d27ef3526e9f1e5a66f4c2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:4541330612b9d0a7a65c65620d7604d28710aaed0289ff9c20765e43c3bdf6a7
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.3256156598610818,
   "eval_steps": 100,
-  "global_step": 7900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1271,6 +1271,38 @@
       "eval_samples_per_second": 25.846,
       "eval_steps_per_second": 3.231,
       "step": 7900
     }
   ],
   "logging_steps": 100,
@@ -1278,7 +1310,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 8.66663762734376e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.4098084613765525,
   "eval_steps": 100,
+  "global_step": 8100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.846,
       "eval_steps_per_second": 3.231,
       "step": 7900
+    },
+    {
+      "epoch": 3.37,
+      "grad_norm": 4.01229190826416,
+      "learning_rate": 4.470600706713781e-05,
+      "loss": 2.008,
+      "step": 8000
+    },
+    {
+      "epoch": 3.37,
+      "eval_cer": 0.5001319854522701,
+      "eval_loss": 1.97179114818573,
+      "eval_runtime": 377.7336,
+      "eval_samples_per_second": 25.092,
+      "eval_steps_per_second": 3.137,
+      "step": 8000
+    },
+    {
+      "epoch": 3.41,
+      "grad_norm": 1.3265995979309082,
+      "learning_rate": 4.463533568904594e-05,
+      "loss": 1.7854,
+      "step": 8100
+    },
+    {
+      "epoch": 3.41,
+      "eval_cer": 0.48717785772945915,
+      "eval_loss": 1.6064122915267944,
+      "eval_runtime": 358.3216,
+      "eval_samples_per_second": 26.451,
+      "eval_steps_per_second": 3.307,
+      "step": 8100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 8.881279509355615e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null