Training in progress, step 29100, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d251d0c72ed5a7685017bde159d15ce6766dc5be3bb7e7e581c05a02a62c04c5
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fd39bafad8df5816ff6b08c12be7dca52286baccaa654ea2978e0d3f02bf4e5
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b752e7177166bebeb1530b608aac17f572602cfe388058cc6e1fe0d959654324
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:67fdf718b07a591ed57ff7ce95664e7e067c38f3eb310eba7c991b75dbb1fafa
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be5846d525ecdc166b3d6f60d5b1bd254c1dd87056dcca60cac2b041ad05f37b
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:737d384bbb23eea51775050fd71e06d427c4606907f23670a2074c1709a9001f
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:855244fb6d2f7e56e44886d31c5782f973bfa784c99f0334fee935eb6b3be025
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:89a57ee799b5913dee6e5865779e9212480500a11279764d115cea4398001ef0
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8e7befc489c14232ad92a4c0e54914d7e1f33b1fa2d6656378fe60d0f3de637
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:3333223a097f72436e52b6f08ce4e75389646a8070023e25dcc110bc5f88e5d8
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.165859818985476,
   "eval_steps": 100,
-  "global_step": 28900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4631,6 +4631,38 @@
       "eval_samples_per_second": 25.45,
       "eval_steps_per_second": 3.182,
       "step": 28900
     }
   ],
   "logging_steps": 100,
@@ -4638,7 +4670,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 3.16704104262254e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.250052620500947,
   "eval_steps": 100,
+  "global_step": 29100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.45,
       "eval_steps_per_second": 3.182,
       "step": 28900
+    },
+    {
+      "epoch": 12.21,
+      "grad_norm": 15.632731437683105,
+      "learning_rate": 2.9869964664310958e-05,
+      "loss": 1.0708,
+      "step": 29000
+    },
+    {
+      "epoch": 12.21,
+      "eval_cer": 0.41651920143913024,
+      "eval_loss": 2.2883496284484863,
+      "eval_runtime": 388.5509,
+      "eval_samples_per_second": 24.393,
+      "eval_steps_per_second": 3.05,
+      "step": 29000
+    },
+    {
+      "epoch": 12.25,
+      "grad_norm": 6.1355180740356445,
+      "learning_rate": 2.9799293286219082e-05,
+      "loss": 1.0688,
+      "step": 29100
+    },
+    {
+      "epoch": 12.25,
+      "eval_cer": 0.4098588244495718,
+      "eval_loss": 2.406083822250366,
+      "eval_runtime": 374.5529,
+      "eval_samples_per_second": 25.305,
+      "eval_steps_per_second": 3.164,
+      "step": 29100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 3.1890627031696395e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null