Training in progress, step 21200, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0914d34b789b137bde7b5e425800476cd3b8a0c1c2a2f6dca29e198df8bce8d1
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:64d2e194abb4d33bd2df007c3f2dfe7c3090b6d911c750db68f03541f777960a
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b055483df48b82f8f43aae9c1bf44543d9d6b475dd015afb266b79d61079e91
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:a956ba41ba48f1e1424ba9b1b15a3ff3f56d507463416d550ee26a3eaf57770b
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d1f86a4256547c5562fc9179cc66f200a56f9f53b2448731cd2d83aadb1bd70
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc981ba432a5dc7f3000d740be2b6cd1bdf1ec48f451e86e92d2708e7dd2aa39
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73aa4ed4dedc1aae7d9f7534e9a473a7d481fd77c26b1dac6a9acd73c2b3a117
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb8ac8461488f7d31ff771b67510406fd1847a4a10da6092663344858ebfa7ed
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73620584f32d0b623d2e9a17c6bb745cf56317c4ff398df3fcc5b050e7d94c8b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:62c80163459f707d7a13e0f4c1cac2205e273df5ba9942f544868dc9dce2b481
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.840244159124396,
   "eval_steps": 100,
-  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3367,6 +3367,38 @@
       "eval_samples_per_second": 25.442,
       "eval_steps_per_second": 3.181,
       "step": 21000
     }
   ],
   "logging_steps": 100,
@@ -3374,7 +3406,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 2.300997184346249e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.924436960639865,
   "eval_steps": 100,
+  "global_step": 21200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.442,
       "eval_steps_per_second": 3.181,
       "step": 21000
+    },
+    {
+      "epoch": 8.88,
+      "grad_norm": 1.8727614879608154,
+      "learning_rate": 3.5450883392226145e-05,
+      "loss": 2.5929,
+      "step": 21100
+    },
+    {
+      "epoch": 8.88,
+      "eval_cer": 0.4467780884595831,
+      "eval_loss": 2.1603004932403564,
+      "eval_runtime": 382.1598,
+      "eval_samples_per_second": 24.801,
+      "eval_steps_per_second": 3.101,
+      "step": 21100
+    },
+    {
+      "epoch": 8.92,
+      "grad_norm": 2.88053560256958,
+      "learning_rate": 3.538021201413428e-05,
+      "loss": 1.2652,
+      "step": 21200
+    },
+    {
+      "epoch": 8.92,
+      "eval_cer": 0.44302872394509407,
+      "eval_loss": 2.7272582054138184,
+      "eval_runtime": 364.629,
+      "eval_samples_per_second": 25.994,
+      "eval_steps_per_second": 3.25,
+      "step": 21200
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 2.3225360192155995e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null