Training in progress, step 3400, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bf71b0c4b5b42be2c849af7ec687de0ddfb09171ee59dc0c9b9e95435acb0ae
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a09ae00ebc62ebcd9a090efa8346b0b355da09866b115ffafeb9415b7348a1f
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e23c99508fe49e7d270ef25d2b0bfddea927c361d4b4b369364b31eb5bfb76aa
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:72774ec6409b39c81c1aa220704d91224c558c6ea5b86aa374ce4de5fd8e4117
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:794316e4b1b49164c3c1b912b03bc9e5c56a1bde3e75f18b56f92a8c3ef576cd
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:43d8a703e7b68d5ff0f9ab10e9d171bd7ce6ce70b6e4e532a37f2b2de5240614
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:caa8f6a1dd5101e10414474b080f8f573bd80f1bc9e5c32a51cbba518e254664
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d8426d4aae6ad94244099d33cc22d6aea5fa1d82b7f3fc974721970e8c187bc
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9caf1980567e30be4f62497610fa1f8c611b6eb31004cde77b37b2a91c8900c9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cdf3746ad5565e79e6e1cb78e78a4ab2fa5d41524e5a44428479a58b87e840e
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3470848242475268,
   "eval_steps": 100,
-  "global_step": 3200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -519,6 +519,38 @@
       "eval_samples_per_second": 27.548,
       "eval_steps_per_second": 3.444,
       "step": 3200
     }
   ],
   "logging_steps": 100,
@@ -526,7 +558,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.518283860575115e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4312776257629973,
   "eval_steps": 100,
+  "global_step": 3400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.548,
       "eval_steps_per_second": 3.444,
       "step": 3200
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 3.094930648803711,
+      "learning_rate": 4.8026148409894e-05,
+      "loss": 2.2166,
+      "step": 3300
+    },
+    {
+      "epoch": 1.39,
+      "eval_cer": 0.5857514371749247,
+      "eval_loss": 3.2282423973083496,
+      "eval_runtime": 358.5567,
+      "eval_samples_per_second": 26.434,
+      "eval_steps_per_second": 3.305,
+      "step": 3300
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 5.626856803894043,
+      "learning_rate": 4.795547703180212e-05,
+      "loss": 2.6222,
+      "step": 3400
+    },
+    {
+      "epoch": 1.43,
+      "eval_cer": 0.5495043213014743,
+      "eval_loss": 1.7686785459518433,
+      "eval_runtime": 342.362,
+      "eval_samples_per_second": 27.684,
+      "eval_steps_per_second": 3.461,
+      "step": 3400
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.7374716231040434e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null