Training in progress, epoch 1, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +159 -273

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d18f93b6416cb6de922b525ae2aefefd5555f3956bf539033033a8a0334866a
 size 3132668808

 version https://git-lfs.github.com/spec/v1
+oid sha256:b985e3b1232efa998749dd8fe5b7ab2a5d8bb9336016065ad479125aa0f57988
 size 3132668808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e04dbe6cc517d74a5eb81747881c0161660f2668ab3564ad3304a3fd6f87af59
 size 6265677800

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b1fd08ada4aca024da973715ebb6878613e3a62c9f04e5b322729e105bd57e4
 size 6265677800

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:427e669d0ee683c4b12f0805ce85ad0ea605698ac777a13ff0e4e41b5b4ddf99
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e505d820e9e1be748947c6f1f77d200067095eb7bab42cfad0b1d50e89cd7f6c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3199f68c919ad9f15fb49df0b36624f234cba762e6bf2c59cdcbf6ebb2295917
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c15f3dd716eade4303f05f39a43259606574efb34071f5e07f31142c4c390d5a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -3,450 +3,336 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 34567,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
       "learning_rate": 0.0001,
-      "loss": 3.3228,
       "step": 500
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 9.999994258403258e-05,
-      "loss": 2.8639,
       "step": 1000
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 9.99997703362622e-05,
-      "loss": 2.8198,
       "step": 1500
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.999948325708443e-05,
-      "loss": 2.7858,
       "step": 2000
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 9.999908134715859e-05,
-      "loss": 2.7422,
       "step": 2500
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 9.999856460740773e-05,
-      "loss": 2.7274,
       "step": 3000
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 9.99979330390186e-05,
-      "loss": 2.6958,
       "step": 3500
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 9.999718664344171e-05,
-      "loss": 2.6617,
       "step": 4000
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 9.999632542239125e-05,
-      "loss": 2.6747,
       "step": 4500
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 9.999534937784512e-05,
-      "loss": 2.6564,
       "step": 5000
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 9.999425851204496e-05,
-      "loss": 2.585,
       "step": 5500
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 9.99930528274961e-05,
-      "loss": 2.6385,
       "step": 6000
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 9.999173232696753e-05,
-      "loss": 2.6262,
       "step": 6500
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 9.999029701349196e-05,
-      "loss": 2.6055,
       "step": 7000
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 9.998874689036583e-05,
-      "loss": 2.5917,
       "step": 7500
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 9.998708196114922e-05,
-      "loss": 2.6162,
       "step": 8000
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 9.99853022296658e-05,
-      "loss": 2.6188,
       "step": 8500
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 9.998340770000302e-05,
-      "loss": 2.5671,
       "step": 9000
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 9.998139837651193e-05,
-      "loss": 2.5897,
       "step": 9500
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 9.997927426380721e-05,
-      "loss": 2.5414,
       "step": 10000
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 9.997703536676718e-05,
-      "loss": 2.5139,
       "step": 10500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 9.997468169053379e-05,
-      "loss": 2.5904,
       "step": 11000
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 9.997221324051255e-05,
-      "loss": 2.6288,
       "step": 11500
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 9.996963002237263e-05,
-      "loss": 2.598,
       "step": 12000
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 9.996693204204674e-05,
-      "loss": 2.5276,
       "step": 12500
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 9.996411930573117e-05,
-      "loss": 2.5817,
       "step": 13000
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 9.996119181988575e-05,
-      "loss": 2.5316,
       "step": 13500
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 9.995814959123386e-05,
-      "loss": 2.4692,
       "step": 14000
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 9.995499262676243e-05,
-      "loss": 2.5464,
       "step": 14500
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 9.99517209337218e-05,
-      "loss": 2.5222,
       "step": 15000
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 9.994833451962592e-05,
-      "loss": 2.5304,
       "step": 15500
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 9.994483339225213e-05,
-      "loss": 2.6063,
       "step": 16000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 9.994121755964129e-05,
-      "loss": 2.5286,
       "step": 16500
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 9.993748703009764e-05,
-      "loss": 2.5273,
       "step": 17000
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 9.993364181218885e-05,
-      "loss": 2.4868,
       "step": 17500
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 9.992968191474601e-05,
-      "loss": 2.435,
       "step": 18000
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 9.992560734686357e-05,
-      "loss": 2.484,
       "step": 18500
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.992141811789933e-05,
-      "loss": 2.5301,
       "step": 19000
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.991711423747445e-05,
-      "loss": 2.4857,
       "step": 19500
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 9.991269571547339e-05,
-      "loss": 2.4958,
       "step": 20000
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 9.99081625620439e-05,
-      "loss": 2.4757,
       "step": 20500
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 9.990351478759696e-05,
-      "loss": 2.544,
       "step": 21000
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 9.989875240280689e-05,
-      "loss": 2.4796,
       "step": 21500
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 9.989387541861111e-05,
-      "loss": 2.4968,
       "step": 22000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 9.988888384621031e-05,
-      "loss": 2.4426,
       "step": 22500
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 9.988377769706834e-05,
-      "loss": 2.4471,
       "step": 23000
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 9.987855698291218e-05,
-      "loss": 2.5022,
       "step": 23500
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 9.98732217157319e-05,
-      "loss": 2.5202,
       "step": 24000
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 9.98677719077807e-05,
-      "loss": 2.5562,
       "step": 24500
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 9.986220757157482e-05,
-      "loss": 2.4888,
       "step": 25000
     },
-    {
-      "epoch": 0.74,
-      "learning_rate": 9.985652871989352e-05,
-      "loss": 2.5049,
-      "step": 25500
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 9.98507353657791e-05,
-      "loss": 2.4664,
-      "step": 26000
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 9.984482752253677e-05,
-      "loss": 2.4528,
-      "step": 26500
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 9.98388052037347e-05,
-      "loss": 2.4577,
-      "step": 27000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 9.983266842320402e-05,
-      "loss": 2.4889,
-      "step": 27500
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 9.982641719503866e-05,
-      "loss": 2.4272,
-      "step": 28000
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 9.982005153359547e-05,
-      "loss": 2.4783,
-      "step": 28500
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 9.981357145349406e-05,
-      "loss": 2.4795,
-      "step": 29000
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 9.98069769696168e-05,
-      "loss": 2.4807,
-      "step": 29500
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 9.980026809710888e-05,
-      "loss": 2.4951,
-      "step": 30000
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 9.979344485137813e-05,
-      "loss": 2.5137,
-      "step": 30500
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 9.978650724809511e-05,
-      "loss": 2.5249,
-      "step": 31000
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 9.977945530319297e-05,
-      "loss": 2.4092,
-      "step": 31500
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 9.977228903286746e-05,
-      "loss": 2.4978,
-      "step": 32000
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 9.976500845357694e-05,
-      "loss": 2.4361,
-      "step": 32500
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 9.975761358204227e-05,
-      "loss": 2.4774,
-      "step": 33000
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 9.975010443524679e-05,
-      "loss": 2.4662,
-      "step": 33500
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 9.974248103043629e-05,
-      "loss": 2.4252,
-      "step": 34000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 9.973474338511898e-05,
-      "loss": 2.4689,
-      "step": 34500
-    },
     {
       "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 2.3501155376434326,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
-      "eval_reference_length": 1966592,
-      "eval_runtime": 3383.1867,
-      "eval_samples_per_second": 1.135,
-      "eval_steps_per_second": 1.135,
-      "eval_translation_length": 1966592,
-      "step": 34567
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1037010,
   "num_train_epochs": 30,
   "save_steps": 500,
-  "total_flos": 7.966891375696282e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 25291,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
       "learning_rate": 0.0001,
+      "loss": 3.3233,
       "step": 500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 9.99998927054457e-05,
+      "loss": 2.8783,
       "step": 1000
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 9.999957082224324e-05,
+      "loss": 2.6917,
       "step": 1500
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 9.999903435177409e-05,
+      "loss": 2.7154,
       "step": 2000
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.999828329634069e-05,
+      "loss": 2.7366,
       "step": 2500
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.999731765916636e-05,
+      "loss": 2.7151,
       "step": 3000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.999613744439543e-05,
+      "loss": 2.6935,
       "step": 3500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.999474265709312e-05,
+      "loss": 2.6431,
       "step": 4000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.999313330324557e-05,
+      "loss": 2.6171,
       "step": 4500
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.999130938975975e-05,
+      "loss": 2.6553,
       "step": 5000
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 9.998927092446351e-05,
+      "loss": 2.5905,
       "step": 5500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 9.99870179161055e-05,
+      "loss": 2.5851,
       "step": 6000
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 9.998455037435515e-05,
+      "loss": 2.7004,
       "step": 6500
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 9.998186830980259e-05,
+      "loss": 2.5175,
       "step": 7000
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 9.997897173395868e-05,
+      "loss": 2.5745,
       "step": 7500
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 9.997586065925489e-05,
+      "loss": 2.515,
       "step": 8000
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 9.997253509904324e-05,
+      "loss": 2.5784,
       "step": 8500
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.996899506759634e-05,
+      "loss": 2.5426,
       "step": 9000
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 9.996524058010725e-05,
+      "loss": 2.5677,
       "step": 9500
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.996127165268938e-05,
+      "loss": 2.5871,
       "step": 10000
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.995708830237652e-05,
+      "loss": 2.6239,
       "step": 10500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.995269054712269e-05,
+      "loss": 2.5366,
       "step": 11000
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.994807840580211e-05,
+      "loss": 2.5484,
       "step": 11500
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 9.994325189820907e-05,
+      "loss": 2.5512,
       "step": 12000
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 9.99382110450579e-05,
+      "loss": 2.5573,
       "step": 12500
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.993295586798282e-05,
+      "loss": 2.5584,
       "step": 13000
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 9.992748638953795e-05,
+      "loss": 2.5176,
       "step": 13500
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.992180263319706e-05,
+      "loss": 2.5322,
       "step": 14000
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.991590462335362e-05,
+      "loss": 2.4881,
       "step": 14500
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 9.990979238532059e-05,
+      "loss": 2.5357,
       "step": 15000
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 9.990346594533036e-05,
+      "loss": 2.4982,
       "step": 15500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 9.989692533053464e-05,
+      "loss": 2.5111,
       "step": 16000
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 9.989017056900434e-05,
+      "loss": 2.5439,
       "step": 16500
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 9.988320168972938e-05,
+      "loss": 2.4806,
       "step": 17000
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 9.987601872261871e-05,
+      "loss": 2.4715,
       "step": 17500
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 9.986862169850007e-05,
+      "loss": 2.4796,
       "step": 18000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 9.986101064911984e-05,
+      "loss": 2.5061,
       "step": 18500
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 9.985318560714301e-05,
+      "loss": 2.4945,
       "step": 19000
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 9.984514660615293e-05,
+      "loss": 2.4611,
       "step": 19500
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 9.983689368065128e-05,
+      "loss": 2.5054,
       "step": 20000
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 9.98284268660578e-05,
+      "loss": 2.5272,
       "step": 20500
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 9.981974619871019e-05,
+      "loss": 2.4692,
       "step": 21000
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 9.981085171586402e-05,
+      "loss": 2.4757,
       "step": 21500
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 9.980174345569246e-05,
+      "loss": 2.5493,
       "step": 22000
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 9.979242145728618e-05,
+      "loss": 2.4543,
       "step": 22500
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 9.978288576065315e-05,
+      "loss": 2.4532,
       "step": 23000
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 9.977313640671853e-05,
+      "loss": 2.4311,
       "step": 23500
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 9.97631734373244e-05,
+      "loss": 2.4512,
       "step": 24000
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 9.975299689522967e-05,
+      "loss": 2.46,
       "step": 24500
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 9.974260682410984e-05,
+      "loss": 2.5014,
       "step": 25000
     },
     {
       "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 2.3814520835876465,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
+      "eval_reference_length": 1439232,
+      "eval_runtime": 2544.152,
+      "eval_samples_per_second": 1.105,
+      "eval_steps_per_second": 1.105,
+      "eval_translation_length": 1439232,
+      "step": 25291
     }
   ],
   "logging_steps": 500,
+  "max_steps": 758730,
   "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 5.828988624489677e+16,
   "trial_name": null,
   "trial_params": null
 }