Training in progress, step 34500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +234 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e92f9d6fa8f3943fa6d1539e3fc9c8082440671fbbfe767f34bd7b0b0b7bbcb
 size 891644712

 version https://git-lfs.github.com/spec/v1
+oid sha256:0931cfc0502a489316d773e7e3fbc87d1bf87d22980010d8e5debce1a389ab5a
 size 891644712

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b52a6542aae59b9e8dbc260d927ca0f2fdc030aeecaf2628fab24bffbce8b859
 size 1783444357

 version https://git-lfs.github.com/spec/v1
+oid sha256:68488d7f6b13bf4345eed8b0bddb03bc654697dc1a0ce2e2c44855609a96ee79
 size 1783444357

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05a1c8d1b4a5f5df3241839fbe5d279cd2d58633aba6dc35472c1b5348efdb84
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:2668009309a225b4528d1c2be158a46d8643edce60db33568885f84d9153d0f5
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:473385105464e09d9e2cd49bbce42350523e82d12bca7455cb9d145ff112729d
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:c659c1c793579d80447241ae65c0f0bd61aec30b0f2e6c845263cb4857f12c85
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1152,
   "eval_steps": 500,
-  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -259,6 +259,237 @@
       "learning_rate": 4.712096e-05,
       "loss": 0.412,
       "step": 18000
     }
   ],
   "logging_steps": 500,
@@ -278,7 +509,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.768993624064e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2208,
   "eval_steps": 500,
+  "global_step": 34500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.712096e-05,
       "loss": 0.412,
       "step": 18000
+    },
+    {
+      "epoch": 0.1184,
+      "grad_norm": 0.9078772664070129,
+      "learning_rate": 4.704096e-05,
+      "loss": 0.4043,
+      "step": 18500
+    },
+    {
+      "epoch": 0.1216,
+      "grad_norm": 1.082939624786377,
+      "learning_rate": 4.696112e-05,
+      "loss": 0.4045,
+      "step": 19000
+    },
+    {
+      "epoch": 0.1248,
+      "grad_norm": 0.9159390926361084,
+      "learning_rate": 4.688112e-05,
+      "loss": 0.4098,
+      "step": 19500
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.8420547842979431,
+      "learning_rate": 4.680128e-05,
+      "loss": 0.4033,
+      "step": 20000
+    },
+    {
+      "epoch": 0.1312,
+      "grad_norm": 0.7658286094665527,
+      "learning_rate": 4.672128e-05,
+      "loss": 0.4002,
+      "step": 20500
+    },
+    {
+      "epoch": 0.1344,
+      "grad_norm": 0.9074057340621948,
+      "learning_rate": 4.664128e-05,
+      "loss": 0.3964,
+      "step": 21000
+    },
+    {
+      "epoch": 0.1376,
+      "grad_norm": 0.6065025329589844,
+      "learning_rate": 4.656128e-05,
+      "loss": 0.3984,
+      "step": 21500
+    },
+    {
+      "epoch": 0.1408,
+      "grad_norm": 0.7523757219314575,
+      "learning_rate": 4.6481280000000004e-05,
+      "loss": 0.3959,
+      "step": 22000
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 0.807826042175293,
+      "learning_rate": 4.6401280000000004e-05,
+      "loss": 0.3921,
+      "step": 22500
+    },
+    {
+      "epoch": 0.1472,
+      "grad_norm": 0.8530682325363159,
+      "learning_rate": 4.632128e-05,
+      "loss": 0.4002,
+      "step": 23000
+    },
+    {
+      "epoch": 0.1504,
+      "grad_norm": 0.8661518692970276,
+      "learning_rate": 4.6241280000000006e-05,
+      "loss": 0.3856,
+      "step": 23500
+    },
+    {
+      "epoch": 0.1536,
+      "grad_norm": 0.7473235130310059,
+      "learning_rate": 4.616144e-05,
+      "loss": 0.3854,
+      "step": 24000
+    },
+    {
+      "epoch": 0.1568,
+      "grad_norm": 0.7954819202423096,
+      "learning_rate": 4.6081440000000005e-05,
+      "loss": 0.3871,
+      "step": 24500
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.8758727312088013,
+      "learning_rate": 4.600144e-05,
+      "loss": 0.3842,
+      "step": 25000
+    },
+    {
+      "epoch": 0.1632,
+      "grad_norm": 0.8430293798446655,
+      "learning_rate": 4.592144000000001e-05,
+      "loss": 0.3886,
+      "step": 25500
+    },
+    {
+      "epoch": 0.1664,
+      "grad_norm": 0.6557173728942871,
+      "learning_rate": 4.584144e-05,
+      "loss": 0.3854,
+      "step": 26000
+    },
+    {
+      "epoch": 0.1696,
+      "grad_norm": 0.7791888117790222,
+      "learning_rate": 4.576144e-05,
+      "loss": 0.3796,
+      "step": 26500
+    },
+    {
+      "epoch": 0.1728,
+      "grad_norm": 0.736084520816803,
+      "learning_rate": 4.56816e-05,
+      "loss": 0.3806,
+      "step": 27000
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 0.7714269161224365,
+      "learning_rate": 4.56016e-05,
+      "loss": 0.3781,
+      "step": 27500
+    },
+    {
+      "epoch": 0.1792,
+      "grad_norm": 0.766144335269928,
+      "learning_rate": 4.552176e-05,
+      "loss": 0.3766,
+      "step": 28000
+    },
+    {
+      "epoch": 0.1824,
+      "grad_norm": 0.7035301923751831,
+      "learning_rate": 4.544176e-05,
+      "loss": 0.3737,
+      "step": 28500
+    },
+    {
+      "epoch": 0.1856,
+      "grad_norm": 0.7573793530464172,
+      "learning_rate": 4.536176e-05,
+      "loss": 0.3753,
+      "step": 29000
+    },
+    {
+      "epoch": 0.1888,
+      "grad_norm": 0.8799508213996887,
+      "learning_rate": 4.528176e-05,
+      "loss": 0.373,
+      "step": 29500
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.8543264269828796,
+      "learning_rate": 4.520176e-05,
+      "loss": 0.3735,
+      "step": 30000
+    },
+    {
+      "epoch": 0.1952,
+      "grad_norm": 0.6768947243690491,
+      "learning_rate": 4.512176e-05,
+      "loss": 0.3697,
+      "step": 30500
+    },
+    {
+      "epoch": 0.1984,
+      "grad_norm": 0.8239702582359314,
+      "learning_rate": 4.504176e-05,
+      "loss": 0.3675,
+      "step": 31000
+    },
+    {
+      "epoch": 0.2016,
+      "grad_norm": 0.8310449123382568,
+      "learning_rate": 4.4961760000000004e-05,
+      "loss": 0.3695,
+      "step": 31500
+    },
+    {
+      "epoch": 0.2048,
+      "grad_norm": 0.8459475040435791,
+      "learning_rate": 4.488176e-05,
+      "loss": 0.3694,
+      "step": 32000
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 0.7346063852310181,
+      "learning_rate": 4.4801760000000006e-05,
+      "loss": 0.3646,
+      "step": 32500
+    },
+    {
+      "epoch": 0.2112,
+      "grad_norm": 0.6958354115486145,
+      "learning_rate": 4.472176e-05,
+      "loss": 0.3704,
+      "step": 33000
+    },
+    {
+      "epoch": 0.2144,
+      "grad_norm": 0.8244686722755432,
+      "learning_rate": 4.464176000000001e-05,
+      "loss": 0.3647,
+      "step": 33500
+    },
+    {
+      "epoch": 0.2176,
+      "grad_norm": 0.7559502124786377,
+      "learning_rate": 4.456192e-05,
+      "loss": 0.3665,
+      "step": 34000
+    },
+    {
+      "epoch": 0.2208,
+      "grad_norm": 0.9046504497528076,
+      "learning_rate": 4.4481920000000007e-05,
+      "loss": 0.3637,
+      "step": 34500
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.6807237779456e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null