Training in progress, step 200, checkpoint

Files changed (7) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:564ff67db075f6552f8b2c9a427a44f06a34dffd885fdde2d4f59225061e7873
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:edeb2c8f7eecbdcec128794e2a75252eb73ef00ff592535cdc581201d826afcb
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:205a9f7c9d4b15d9f42153fb58960bfb1ca1084d97709fe48e90d70a2ae017ab
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4ac4ea9be9dc97b85a293b5fde9854b242b8f071f30fe139f2877ce93fa0174
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ad49f52d9f578223ab0238e4f6113866b317952c8819c9dcf87275a7a25c8a3
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:d949e4fc1be92074318da36259c5ce283bfc3b631cdac55ce6accd8d87e37fcc
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:242af9146abe205408dcebe7e536c015b00e59f86773a85ad3eb899c31bcfafe
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cdc9cb49aead1621d065ebb43afb5447a4c9fa73cdd62cb920c7fc987a11d0c
+size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:701509704c605855197919f690db06b37c5a699db2539613f95d2b79e97bf5bf
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa72b3b62c432a08ebf14ac0f3e08674ac6c59a03ef18d8c1b246cdb82948a7a
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,28 +1,44 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.042096400757735214,
   "eval_steps": 100,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "grad_norm": 3.7763900756835938,
       "learning_rate": 9.5e-06,
-      "loss": 6.5991,
       "step": 100
     },
     {
       "epoch": 0.04,
-      "eval_cer": 0.9900155449532674,
-      "eval_loss": 4.97747278213501,
-      "eval_runtime": 412.4714,
-      "eval_samples_per_second": 22.979,
-      "eval_steps_per_second": 2.873,
       "step": 100
     }
   ],
   "logging_steps": 100,
@@ -30,7 +46,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.1688413067862653e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08419280151547043,
   "eval_steps": 100,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "grad_norm": 2.6430506706237793,
       "learning_rate": 9.5e-06,
+      "loss": 5.6141,
       "step": 100
     },
     {
       "epoch": 0.04,
+      "eval_cer": 0.9770320871299519,
+      "eval_loss": 2.355087995529175,
+      "eval_runtime": 329.8418,
+      "eval_samples_per_second": 28.735,
+      "eval_steps_per_second": 3.593,
       "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 2.838773012161255,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 2.1498,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_cer": 0.6385162879824802,
+      "eval_loss": 1.961960792541504,
+      "eval_runtime": 334.0577,
+      "eval_samples_per_second": 28.372,
+      "eval_steps_per_second": 3.547,
+      "step": 200
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.248613964510395e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7efe3f4de73273496cd967ad97de26d01bf9654ed8c159b2dd7fd1dfc00e66f6
 size 4527

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f043c45f5e1539aec945837bdbb0f4a58df0721de023fb4d0f872211073770a
 size 4527