Training in progress, step 600, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +221 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8807736dbffe8aef2eab4950916adaf7e0fa48b77a88e4d90c8b88ffef2ab45
 size 368988278

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e1934cf89fd4787f6fb31a354e6b6d38ef87d8331f840843fdd09707b90f1ae
 size 368988278

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:862a77bd5a51f96c0430dc229ffb8f0aba4ea0915c3e4e987d6984fbe2058151
 size 1107079290

 version https://git-lfs.github.com/spec/v1
+oid sha256:0aefa035f4f0db94e28330038485db17cc190dc4abebadfedd0459c73aa21f82
 size 1107079290

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78d3f197f6c6558fa8056324f1563ab9e957255f5a1a959362aa4eed7a9545db
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:74386f26f36ed67f56395205881e5db2d0c28ffcbeed50dd95b28771d2dac588
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c1a9c65c2869356282cad6b4a0f7dff7f4dd68ab3d9d216c72b7d6cb524f860
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c88f9de084200454883a13c3717941ea3fd433e2f8735507fc30611f9c5501
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:896febe768e17bae5022a95960c041f6425783774ec8859d99d3b149063b1bf9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:965b00d4cb4710ebab57c8787b9925bb3f77b8eeba94a186ec4bc1c2f326ef3f
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac482d57e966585467c8ef44dae2869bf7e5d92886f69c11ed7bccc34c07efe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5dc374b8b9a4c45c950f9d136feab85a767081fa59f0c7d68ed3a62060c4949
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1f27d227a20dc320ac283e0938fb2f6e5b475829a583f8c44d1a16a8c828307
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c7c212fb779217f1edac0baf44f67b608eefc1e0e4e3f5a9dd7eb557032c1bc
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d05a7106aaeaec4b81704e3f4a998b5123cf9342a6733bd9fd2d578e99108c3b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:86e1effd626ce1e95dd68a0c8089fe19218f2b24dfe9e45ed2cab1c0ebc10ba1
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94120d8d88502ec8d8b623ec7550315caca003b44fcffbb5767ab0de91baefe
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:799cc83f60dfc1c4243cfd6403592112414a2eec494e6832f10221c96ff62c20
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:332e4d901be380f740b5d8578f7b80ef1865c7fba83bc288c8a35852205cc668
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:586777c398770c3255d3a1f48c7fef44ea9d89117c627c9ea490e16bfd9a49ba
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6add71cc2ee097875f5cb7960ac29c9bf154d3226c75749cd7c39c08237a2bbe
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9361adbf8fe7e919bd805eb1cb79b701fd3c8fe0ef4fe1c33df9e6bf132cee3
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4847383170491555,
   "eval_steps": 300,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -225,6 +225,224 @@
       "eval_samples_per_second": 1362.845,
       "eval_steps_per_second": 42.605,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -244,7 +462,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.283349733238374e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.969476634098311,
   "eval_steps": 300,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1362.845,
       "eval_steps_per_second": 42.605,
       "step": 300
+    },
+    {
+      "epoch": 0.500896260950794,
+      "grad_norm": 62.3125,
+      "learning_rate": 9.990216931651065e-07,
+      "loss": 87.5903,
+      "step": 310
+    },
+    {
+      "epoch": 0.5170542048524325,
+      "grad_norm": 61.0625,
+      "learning_rate": 9.9899013488011e-07,
+      "loss": 89.8225,
+      "step": 320
+    },
+    {
+      "epoch": 0.5332121487540711,
+      "grad_norm": 65.6875,
+      "learning_rate": 9.989585765951135e-07,
+      "loss": 87.4679,
+      "step": 330
+    },
+    {
+      "epoch": 0.5493700926557096,
+      "grad_norm": 66.625,
+      "learning_rate": 9.98927018310117e-07,
+      "loss": 88.2141,
+      "step": 340
+    },
+    {
+      "epoch": 0.5655280365573481,
+      "grad_norm": 64.25,
+      "learning_rate": 9.988954600251204e-07,
+      "loss": 88.7629,
+      "step": 350
+    },
+    {
+      "epoch": 0.5816859804589866,
+      "grad_norm": 67.6875,
+      "learning_rate": 9.988639017401237e-07,
+      "loss": 87.7045,
+      "step": 360
+    },
+    {
+      "epoch": 0.5978439243606251,
+      "grad_norm": 68.3125,
+      "learning_rate": 9.988323434551273e-07,
+      "loss": 89.4493,
+      "step": 370
+    },
+    {
+      "epoch": 0.6140018682622637,
+      "grad_norm": 63.6875,
+      "learning_rate": 9.988007851701307e-07,
+      "loss": 87.7596,
+      "step": 380
+    },
+    {
+      "epoch": 0.6301598121639022,
+      "grad_norm": 64.875,
+      "learning_rate": 9.98769226885134e-07,
+      "loss": 88.0606,
+      "step": 390
+    },
+    {
+      "epoch": 0.6463177560655406,
+      "grad_norm": 64.1875,
+      "learning_rate": 9.987376686001376e-07,
+      "loss": 87.7883,
+      "step": 400
+    },
+    {
+      "epoch": 0.6624756999671791,
+      "grad_norm": 62.09375,
+      "learning_rate": 9.98706110315141e-07,
+      "loss": 88.77,
+      "step": 410
+    },
+    {
+      "epoch": 0.6786336438688176,
+      "grad_norm": 65.6875,
+      "learning_rate": 9.986745520301443e-07,
+      "loss": 88.4047,
+      "step": 420
+    },
+    {
+      "epoch": 0.6947915877704562,
+      "grad_norm": 65.3125,
+      "learning_rate": 9.986429937451479e-07,
+      "loss": 86.9815,
+      "step": 430
+    },
+    {
+      "epoch": 0.7109495316720947,
+      "grad_norm": 68.0625,
+      "learning_rate": 9.986114354601514e-07,
+      "loss": 88.4078,
+      "step": 440
+    },
+    {
+      "epoch": 0.7271074755737332,
+      "grad_norm": 64.4375,
+      "learning_rate": 9.985798771751548e-07,
+      "loss": 87.8946,
+      "step": 450
+    },
+    {
+      "epoch": 0.7432654194753717,
+      "grad_norm": 65.3125,
+      "learning_rate": 9.985483188901581e-07,
+      "loss": 88.9161,
+      "step": 460
+    },
+    {
+      "epoch": 0.7594233633770103,
+      "grad_norm": 64.875,
+      "learning_rate": 9.985167606051617e-07,
+      "loss": 87.7899,
+      "step": 470
+    },
+    {
+      "epoch": 0.7755813072786488,
+      "grad_norm": 68.75,
+      "learning_rate": 9.98485202320165e-07,
+      "loss": 87.9098,
+      "step": 480
+    },
+    {
+      "epoch": 0.7917392511802873,
+      "grad_norm": 64.625,
+      "learning_rate": 9.984536440351684e-07,
+      "loss": 88.2259,
+      "step": 490
+    },
+    {
+      "epoch": 0.8078971950819258,
+      "grad_norm": 62.96875,
+      "learning_rate": 9.98422085750172e-07,
+      "loss": 87.4765,
+      "step": 500
+    },
+    {
+      "epoch": 0.8240551389835643,
+      "grad_norm": 62.75,
+      "learning_rate": 9.983905274651753e-07,
+      "loss": 88.4725,
+      "step": 510
+    },
+    {
+      "epoch": 0.8402130828852029,
+      "grad_norm": 66.3125,
+      "learning_rate": 9.98358969180179e-07,
+      "loss": 88.8554,
+      "step": 520
+    },
+    {
+      "epoch": 0.8563710267868414,
+      "grad_norm": 64.75,
+      "learning_rate": 9.983274108951823e-07,
+      "loss": 88.1039,
+      "step": 530
+    },
+    {
+      "epoch": 0.8725289706884799,
+      "grad_norm": 70.3125,
+      "learning_rate": 9.982958526101856e-07,
+      "loss": 87.927,
+      "step": 540
+    },
+    {
+      "epoch": 0.8886869145901184,
+      "grad_norm": 61.03125,
+      "learning_rate": 9.982642943251892e-07,
+      "loss": 88.5062,
+      "step": 550
+    },
+    {
+      "epoch": 0.9048448584917569,
+      "grad_norm": 69.1875,
+      "learning_rate": 9.982327360401925e-07,
+      "loss": 89.0445,
+      "step": 560
+    },
+    {
+      "epoch": 0.9210028023933955,
+      "grad_norm": 64.625,
+      "learning_rate": 9.982011777551961e-07,
+      "loss": 87.5429,
+      "step": 570
+    },
+    {
+      "epoch": 0.937160746295034,
+      "grad_norm": 64.4375,
+      "learning_rate": 9.981696194701995e-07,
+      "loss": 87.194,
+      "step": 580
+    },
+    {
+      "epoch": 0.9533186901966725,
+      "grad_norm": 65.0,
+      "learning_rate": 9.98138061185203e-07,
+      "loss": 87.1017,
+      "step": 590
+    },
+    {
+      "epoch": 0.969476634098311,
+      "grad_norm": 78.375,
+      "learning_rate": 9.981065029002064e-07,
+      "loss": 87.2723,
+      "step": 600
+    },
+    {
+      "epoch": 0.969476634098311,
+      "eval_loss": 1.3628411293029785,
+      "eval_runtime": 22.8208,
+      "eval_samples_per_second": 1424.139,
+      "eval_steps_per_second": 44.521,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.656669946647675e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null