Training in progress, step 55700, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3be30c038fe83e2c45066c8865edcd4f97638d7c9497d22507519438f766b9e
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:785057a17e70302c21c007e0ef0b0f57a36cfb96718c31c8f395b008e214458d
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc37f0c081dea232ed47687524d26d35478631d3af4618df338fc236e166a184
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:19609ff9aeb7b6551ed81c17110b29191a5d741f3df4560f9d420d2d58bce8b9
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5479170340108cb57e7920fc9709a1e6e98ddda8596cfda43bc01b7188a5ccc2
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:293accb5c9dbd84af2034bf699ee6c8b6fc3c17f88796b7449387a733eaff90c
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70e547d0244ac6c17f72a2e2c794d7af278410f2b12b34a7dbb487ec9d9fcdcb
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cde67baa4dd7f0279761a9f5a42adbc49a7e57ab6ad2ad6773f0f379f28031b
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a30e334ce630adfe0f015710ad2e5f2148b3a474ea9fa476144c76c38fe45245
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d431db1e058e7753d522d0aa651c6ef43b7fbfb259f3bade675c44750e1cb84
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 23.363502420543043,
   "eval_steps": 100,
-  "global_step": 55500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8887,6 +8887,38 @@
       "eval_samples_per_second": 23.782,
       "eval_steps_per_second": 2.973,
       "step": 55500
     }
   ],
   "logging_steps": 100,
@@ -8894,7 +8926,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 6.081637645988172e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 23.447695222058513,
   "eval_steps": 100,
+  "global_step": 55700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.782,
       "eval_steps_per_second": 2.973,
       "step": 55500
+    },
+    {
+      "epoch": 23.41,
+      "grad_norm": 2.3033080101013184,
+      "learning_rate": 1.107703180212014e-05,
+      "loss": 0.2574,
+      "step": 55600
+    },
+    {
+      "epoch": 23.41,
+      "eval_cer": 0.3336567791638966,
+      "eval_loss": 2.5886073112487793,
+      "eval_runtime": 422.633,
+      "eval_samples_per_second": 22.426,
+      "eval_steps_per_second": 2.804,
+      "step": 55600
+    },
+    {
+      "epoch": 23.45,
+      "grad_norm": 3.2907676696777344,
+      "learning_rate": 1.100636042402827e-05,
+      "loss": 0.2612,
+      "step": 55700
+    },
+    {
+      "epoch": 23.45,
+      "eval_cer": 0.33410161902154784,
+      "eval_loss": 2.841667413711548,
+      "eval_runtime": 403.4827,
+      "eval_samples_per_second": 23.49,
+      "eval_steps_per_second": 2.937,
+      "step": 55700
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 6.103646459472622e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null