Training in progress, step 10272, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +124 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be8f064d453a57ea7273970350761d964c9807f1c078006d860d03a3b99aecd4
 size 903834408

 version https://git-lfs.github.com/spec/v1
+oid sha256:99051c9584bc9cf7cf02f0a70766948ec8d3bb914e9129d5783113d3e96f9711
 size 903834408

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12874bf81eb0524d19891bca2ddcc85a7634979c700dd291ce0217fc58255786
 size 1807824186

 version https://git-lfs.github.com/spec/v1
+oid sha256:b58379566e5031d4e2d8c3c67b1e419d250cca642eb33faffa6a577c925d01b2
 size 1807824186

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed797abbb6e575252328647d2519975ca5213c166e33893bf2b6cbc2d2b0579d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2a0ce74b1f7310eca571ed8255d5a50d3cd32ef3818ed5a2757371e935be02c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:075aea1ae34d22fd6b751b1b0ff5783a336ded95b0d65058f0b4391e6f395a77
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfc0802b39b927f4d86b253bd10451131aa381a8fdc16ce3375396d233b5782b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6630141414141414,
   "eval_steps": 16,
-  "global_step": 10256,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -77568,6 +77568,127 @@
       "eval_samples_per_second": 11.414,
       "eval_steps_per_second": 1.427,
       "step": 10256
     }
   ],
   "logging_steps": 1,
@@ -77587,7 +77708,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9985510801866752e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6640484848484849,
   "eval_steps": 16,
+  "global_step": 10272,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.414,
       "eval_steps_per_second": 1.427,
       "step": 10256
+    },
+    {
+      "epoch": 0.6630787878787879,
+      "grad_norm": 0.041810378432273865,
+      "learning_rate": 0.00017842589380483555,
+      "loss": 0.0573,
+      "step": 10257
+    },
+    {
+      "epoch": 0.6631434343434344,
+      "grad_norm": 0.04772426187992096,
+      "learning_rate": 0.0001784216507127977,
+      "loss": 0.0701,
+      "step": 10258
+    },
+    {
+      "epoch": 0.6632080808080808,
+      "grad_norm": 0.057533323764801025,
+      "learning_rate": 0.0001784174072540077,
+      "loss": 0.0991,
+      "step": 10259
+    },
+    {
+      "epoch": 0.6632727272727272,
+      "grad_norm": 0.08679311722517014,
+      "learning_rate": 0.00017841316342848539,
+      "loss": 0.0696,
+      "step": 10260
+    },
+    {
+      "epoch": 0.6633373737373738,
+      "grad_norm": 0.05634527653455734,
+      "learning_rate": 0.00017840891923625064,
+      "loss": 0.0831,
+      "step": 10261
+    },
+    {
+      "epoch": 0.6634020202020202,
+      "grad_norm": 0.055026594549417496,
+      "learning_rate": 0.00017840467467732332,
+      "loss": 0.0806,
+      "step": 10262
+    },
+    {
+      "epoch": 0.6634666666666666,
+      "grad_norm": 0.04825066402554512,
+      "learning_rate": 0.00017840042975172328,
+      "loss": 0.073,
+      "step": 10263
+    },
+    {
+      "epoch": 0.6635313131313131,
+      "grad_norm": 0.05237942561507225,
+      "learning_rate": 0.00017839618445947029,
+      "loss": 0.081,
+      "step": 10264
+    },
+    {
+      "epoch": 0.6635959595959596,
+      "grad_norm": 0.0542687326669693,
+      "learning_rate": 0.0001783919388005843,
+      "loss": 0.078,
+      "step": 10265
+    },
+    {
+      "epoch": 0.6636606060606061,
+      "grad_norm": 0.055040229111909866,
+      "learning_rate": 0.0001783876927750851,
+      "loss": 0.0889,
+      "step": 10266
+    },
+    {
+      "epoch": 0.6637252525252525,
+      "grad_norm": 0.05319792032241821,
+      "learning_rate": 0.0001783834463829926,
+      "loss": 0.0881,
+      "step": 10267
+    },
+    {
+      "epoch": 0.663789898989899,
+      "grad_norm": 0.040569208562374115,
+      "learning_rate": 0.00017837919962432664,
+      "loss": 0.0637,
+      "step": 10268
+    },
+    {
+      "epoch": 0.6638545454545455,
+      "grad_norm": 0.0480937659740448,
+      "learning_rate": 0.00017837495249910706,
+      "loss": 0.0747,
+      "step": 10269
+    },
+    {
+      "epoch": 0.6639191919191919,
+      "grad_norm": 0.05075068771839142,
+      "learning_rate": 0.00017837070500735373,
+      "loss": 0.0812,
+      "step": 10270
+    },
+    {
+      "epoch": 0.6639838383838383,
+      "grad_norm": 0.053749457001686096,
+      "learning_rate": 0.00017836645714908652,
+      "loss": 0.0915,
+      "step": 10271
+    },
+    {
+      "epoch": 0.6640484848484849,
+      "grad_norm": 0.055688828229904175,
+      "learning_rate": 0.00017836220892432532,
+      "loss": 0.0856,
+      "step": 10272
+    },
+    {
+      "epoch": 0.6640484848484849,
+      "eval_bleu": 17.997460933013013,
+      "eval_loss": 0.08846329897642136,
+      "eval_runtime": 2.6835,
+      "eval_samples_per_second": 11.925,
+      "eval_steps_per_second": 1.491,
+      "step": 10272
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0016689445863424e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null