Training in progress, step 35300, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d51827e7f72b6ac13c7717909863137b26f796acdc33d0c423939d31b26e877
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5e27caae33c684f3640dae183538f233c632e6b6dd013d1391ffa6812ef5b0f
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba371bbb66479ca88edc50cd8c19bfba12e60e4cf0ec3ad5a6c9f0889746173e
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:37818e67057bc9ab28e81eaabfd7516fb101e3ee984df530db2cd877e1ad02b7
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c302482ccc44393e57785ca619efb81e7753d4f5ae50c608e086133a7e9658c
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:11dce48e3fc1d772256c604b93835d59113a4d934c93e60ceefb0e7a3d7b4c83
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63135dd8fba75904a387c365b3db0392d738b290969b3cffabe4604b1916dbc0
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcb03d30f7f2fad34efa71219b03cd9586a94705f7898bc5dca76c5295036d2c
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:879222c4151189909f68ebdb26981095b855d468d9fc1fdcd4a5718b314345ac
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ced050c05b9918ceaed2d8641bd55ffcbf9685f204bd1a0efee676b85d41a8
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.775836665965059,
   "eval_steps": 100,
-  "global_step": 35100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5623,6 +5623,38 @@
       "eval_samples_per_second": 25.719,
       "eval_steps_per_second": 3.216,
       "step": 35100
     }
   ],
   "logging_steps": 100,
@@ -5630,7 +5662,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.8462099464838395e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.86002946748053,
   "eval_steps": 100,
+  "global_step": 35300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.719,
       "eval_steps_per_second": 3.216,
       "step": 35100
+    },
+    {
+      "epoch": 14.82,
+      "grad_norm": 37.1422119140625,
+      "learning_rate": 2.548975265017668e-05,
+      "loss": 0.9169,
+      "step": 35200
+    },
+    {
+      "epoch": 14.82,
+      "eval_cer": 0.3885431739079426,
+      "eval_loss": 2.9854750633239746,
+      "eval_runtime": 393.2259,
+      "eval_samples_per_second": 24.103,
+      "eval_steps_per_second": 3.014,
+      "step": 35200
+    },
+    {
+      "epoch": 14.86,
+      "grad_norm": 2.0946056842803955,
+      "learning_rate": 2.5419081272084804e-05,
+      "loss": 0.9188,
+      "step": 35300
+    },
+    {
+      "epoch": 14.86,
+      "eval_cer": 0.38827187047827616,
+      "eval_loss": 2.4621119499206543,
+      "eval_runtime": 369.124,
+      "eval_samples_per_second": 25.677,
+      "eval_steps_per_second": 3.21,
+      "step": 35300
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.8682651120044894e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null