Training in progress, step 15900, checkpoint

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebec8683b94d94fc8d9612c1c65b13eb71fe6bb5bb5cae5646d15330e2237b15
 size 4978139416

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c20ad3beef3f33ef2b4c145c9b9506f9a226a39e2e73693f7ae2fcfc0dcf1cd
 size 4978139416

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59bf8a8143b87e68fd71c8a270a03cfa582fc1bfdd2b29a7d15ff8d8b4213d41
 size 3659223436

 version https://git-lfs.github.com/spec/v1
+oid sha256:74d0557152fa6f6a5c4206d20e2e5e3e65c08a54d396cdd08189203105bb821e
 size 3659223436

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da9ed2936cadc331d13cb99e9dd4c8e3574daaac258fa92af0538fb2ee9612b5
 size 17241500333

 version https://git-lfs.github.com/spec/v1
+oid sha256:49a17f38b1772819369863ac91e47ffc5deca1f2b7e3fbb755cc5669eb6f2884
 size 17241500333

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a6d63bd7c4e166ca59e260fbbde05182634cc6b1f0a4d12136bc73308ef55e3
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:f938892d18549bfd11854e754003e9c1d26470f2c462d1c3bdac6d13825d7005
 size 14567

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:726650f2459dfa6278e31becc2531b3a3d91514d7f35b02bbac401fc857ec409
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:49c14c6d2163c777317ea1561699a4fab0cc691b0ee652db9a2586b628592aa5
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.609134918964428,
   "eval_steps": 100,
-  "global_step": 15700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2519,6 +2519,38 @@
       "eval_samples_per_second": 25.949,
       "eval_steps_per_second": 3.244,
       "step": 15700
     }
   ],
   "logging_steps": 100,
@@ -2526,7 +2558,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
-  "total_flos": 1.7201807515766456e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.693327720479899,
   "eval_steps": 100,
+  "global_step": 15900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.949,
       "eval_steps_per_second": 3.244,
       "step": 15700
+    },
+    {
+      "epoch": 6.65,
+      "grad_norm": 2.1095080375671387,
+      "learning_rate": 3.919505300353357e-05,
+      "loss": 2.2505,
+      "step": 15800
+    },
+    {
+      "epoch": 6.65,
+      "eval_cer": 0.4647232216182394,
+      "eval_loss": 1.8471035957336426,
+      "eval_runtime": 388.913,
+      "eval_samples_per_second": 24.37,
+      "eval_steps_per_second": 3.047,
+      "step": 15800
+    },
+    {
+      "epoch": 6.69,
+      "grad_norm": 3.6614439487457275,
+      "learning_rate": 3.91243816254417e-05,
+      "loss": 1.9341,
+      "step": 15900
+    },
+    {
+      "epoch": 6.69,
+      "eval_cer": 0.4613698134605608,
+      "eval_loss": 2.8519198894500732,
+      "eval_runtime": 363.022,
+      "eval_samples_per_second": 26.109,
+      "eval_steps_per_second": 3.264,
+      "step": 15900
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 1.7421368190330087e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null