Training in progress, step 6800, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b74a50c7b619bf06f6a6e3a27295d976c0da1723ca909e9d96edf34f99bd5752
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:57001483176bf82e1c09ea40d1f0147256cbd62333a182c6b5800e360309b8f2
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b18854dd89f7c1b84225587e7c70199be6b69655adc6061c07aecd3fb7da56e6
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a82744c0bc1c99fdf3736480a88beb791948657a4a6a512ff291360e62cfe4a
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61de57f4d7edcb73072837711b87eca53e2d63334776546c815e373def03ba09
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:2700da8dca61e768af55482f0e459f8e8580186f45bdbf2c72ed3d4a47b60cc2
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f89b3a69be109ef15d21941c1f3bbf54a5f79308369a791688ab91e4003c4c
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:7efa4777d4c3271e154dec08b5438b3ff12cbb40bd34cd166043ded385b18863
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e81bd9b3dea7c3d81bdbaecf9908b3ceba5c03eb60cdd3bff38e8bd5cc6b02c0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c23abbcc2d4c9c22b104e91a5f11344337be1955d4805a3cb1067ad9e60d5245
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.778362450010524,
   "eval_steps": 100,
-  "global_step": 6600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1063,6 +1063,38 @@
       "eval_samples_per_second": 26.399,
       "eval_steps_per_second": 3.301,
       "step": 6600
     }
   ],
   "logging_steps": 100,
@@ -1070,7 +1102,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 7.230691505769557e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8625552515259947,
   "eval_steps": 100,
+  "global_step": 6800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.399,
       "eval_steps_per_second": 3.301,
       "step": 6600
+    },
+    {
+      "epoch": 2.82,
+      "grad_norm": 23.777395248413086,
+      "learning_rate": 4.562473498233216e-05,
+      "loss": 1.5294,
+      "step": 6700
+    },
+    {
+      "epoch": 2.82,
+      "eval_cer": 0.5097864768683275,
+      "eval_loss": 2.758403778076172,
+      "eval_runtime": 375.8984,
+      "eval_samples_per_second": 25.214,
+      "eval_steps_per_second": 3.152,
+      "step": 6700
+    },
+    {
+      "epoch": 2.86,
+      "grad_norm": 5.520616054534912,
+      "learning_rate": 4.555406360424028e-05,
+      "loss": 1.6177,
+      "step": 6800
+    },
+    {
+      "epoch": 2.86,
+      "eval_cer": 0.5417905048687967,
+      "eval_loss": 2.8678946495056152,
+      "eval_runtime": 360.269,
+      "eval_samples_per_second": 26.308,
+      "eval_steps_per_second": 3.289,
+      "step": 6800
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 7.446996872508875e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null