Training in progress, step 208, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +124 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e887d29daf2b46ba5add2a1260acddfa547b5cbfb37c95c229a2d7500fa39791
 size 242041896

 version https://git-lfs.github.com/spec/v1
+oid sha256:67cde00778fd9b31e92769f2fa5fb22957b3c18857b8fa15489d34bf37fd4392
 size 242041896

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9e41312b0243a5a092e5edadd16a84a23dd9f7cd8c3b8119dee3c0ce5be1035
 size 484163514

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a268ea2d87ebd5586132b48f679290592ca529d7cd515b00d80780d58f6b8ca
 size 484163514

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1c0fd03a75513ee813bfa61334da6ab5c34878ec812085dffb828b64a684e20
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:369ba992403565a78cd72e1427835ccc8b05eba0f71afd8552e75e7e6ea369c4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ced25cef61d4f9b598032b521e1925cfed15c77c31c1f230ecab47b226ba899
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba478b7a054120870328b778675384e38480f575773ac8971e03a9ab54918ff3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.012412121212121213,
   "eval_steps": 16,
-  "global_step": 192,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1459,6 +1459,127 @@
       "eval_samples_per_second": 11.909,
       "eval_steps_per_second": 2.977,
       "step": 192
     }
   ],
   "logging_steps": 1,
@@ -1478,7 +1599,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1663080056487936.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.013446464646464646,
   "eval_steps": 16,
+  "global_step": 208,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.909,
       "eval_steps_per_second": 2.977,
       "step": 192
+    },
+    {
+      "epoch": 0.012476767676767676,
+      "grad_norm": 0.10934247821569443,
+      "learning_rate": 0.00019999784499847678,
+      "loss": 0.119,
+      "step": 193
+    },
+    {
+      "epoch": 0.012541414141414142,
+      "grad_norm": 0.04266177862882614,
+      "learning_rate": 0.0001999977082069104,
+      "loss": 0.1094,
+      "step": 194
+    },
+    {
+      "epoch": 0.012606060606060607,
+      "grad_norm": 0.10852430015802383,
+      "learning_rate": 0.00019999756720643803,
+      "loss": 0.1118,
+      "step": 195
+    },
+    {
+      "epoch": 0.01267070707070707,
+      "grad_norm": 0.06190445274114609,
+      "learning_rate": 0.0001999974219970656,
+      "loss": 0.129,
+      "step": 196
+    },
+    {
+      "epoch": 0.012735353535353535,
+      "grad_norm": 0.04268389567732811,
+      "learning_rate": 0.00019999727257879923,
+      "loss": 0.1149,
+      "step": 197
+    },
+    {
+      "epoch": 0.0128,
+      "grad_norm": 0.04210319742560387,
+      "learning_rate": 0.0001999971189516452,
+      "loss": 0.1231,
+      "step": 198
+    },
+    {
+      "epoch": 0.012864646464646464,
+      "grad_norm": 0.07176094502210617,
+      "learning_rate": 0.00019999696111561,
+      "loss": 0.1123,
+      "step": 199
+    },
+    {
+      "epoch": 0.01292929292929293,
+      "grad_norm": 0.04062803462147713,
+      "learning_rate": 0.00019999679907070023,
+      "loss": 0.1225,
+      "step": 200
+    },
+    {
+      "epoch": 0.012993939393939394,
+      "grad_norm": 0.04266968369483948,
+      "learning_rate": 0.00019999663281692275,
+      "loss": 0.1259,
+      "step": 201
+    },
+    {
+      "epoch": 0.013058585858585858,
+      "grad_norm": 0.045373089611530304,
+      "learning_rate": 0.00019999646235428452,
+      "loss": 0.1353,
+      "step": 202
+    },
+    {
+      "epoch": 0.013123232323232323,
+      "grad_norm": 0.04623784124851227,
+      "learning_rate": 0.00019999628768279276,
+      "loss": 0.1224,
+      "step": 203
+    },
+    {
+      "epoch": 0.013187878787878788,
+      "grad_norm": 0.03664301335811615,
+      "learning_rate": 0.0001999961088024548,
+      "loss": 0.1361,
+      "step": 204
+    },
+    {
+      "epoch": 0.013252525252525252,
+      "grad_norm": 0.03849755972623825,
+      "learning_rate": 0.00019999592571327815,
+      "loss": 0.1307,
+      "step": 205
+    },
+    {
+      "epoch": 0.013317171717171717,
+      "grad_norm": 0.03995022922754288,
+      "learning_rate": 0.00019999573841527054,
+      "loss": 0.1079,
+      "step": 206
+    },
+    {
+      "epoch": 0.013381818181818182,
+      "grad_norm": 0.039675675332546234,
+      "learning_rate": 0.00019999554690843988,
+      "loss": 0.1212,
+      "step": 207
+    },
+    {
+      "epoch": 0.013446464646464646,
+      "grad_norm": 0.05080877244472504,
+      "learning_rate": 0.00019999535119279415,
+      "loss": 0.0991,
+      "step": 208
+    },
+    {
+      "epoch": 0.013446464646464646,
+      "eval_bleu": 3.66705872401506,
+      "eval_loss": 0.09652489423751831,
+      "eval_runtime": 1.3632,
+      "eval_samples_per_second": 11.737,
+      "eval_steps_per_second": 2.934,
+      "step": 208
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1801670061195264.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null