Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ad6976981e321dbef7dd218bd62716d65e6d446d97ffce58af86cbf9f072ffc
 size 203456160

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ee4fb08875bda7b486ffbaa8bcd365f2fb4f84b5ccbf59c7bf95e5d28391d10
 size 203456160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bd83cd4952859b94daf4c5ef666ea5401a1c3c39b8325f0dae23a139ccb9202
 size 407121750

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c5a61f64bfd74db1a0a17e4cd5aa61d3ca12aa5ca060a15bc4ec5b0747d9601
 size 407121750

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64f99cf5fa81438080d3c062ad3878b92a9f106ff0ecbe4c4b156df2eb37f22e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:653a06ff7ee6e6b295963aa5e0e2983b38aaa3fbcf861e2be53ef836bbdbe31c
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:658ca80e7a80811050b5aca8b9233a6598abea07ee788ee8fba24f527650e568
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:10f33baa5e77819716a1c3dcfc944fa779164b95ffe9772b74163c5608ed48e3
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4f54f7bb619b4fed1e20270f2921db041a47f8338707e5167c4f1950951d0cc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5efc02e2c048fc00c259d756651f0562b0e9f4351c0f1ef05af3b3e5f2bae39d
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00c25c4efa014602bdb3050c12bd7de3c2ef1537eb7c79aba3b2f9d5890a345f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fde01431723d641a719ee8c0e0ccba4da5865316696e7764f7a8421f822a5da
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9855043292045593,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.44742729306487694,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 18.986,
       "eval_steps_per_second": 4.936,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.327074698592256e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.90520179271698,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.8948545861297539,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.986,
       "eval_steps_per_second": 4.936,
       "step": 25
+    },
+    {
+      "epoch": 0.465324384787472,
+      "grad_norm": 1.169842004776001,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 1.1504,
+      "step": 26
+    },
+    {
+      "epoch": 0.48322147651006714,
+      "grad_norm": 1.4394193887710571,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 1.2,
+      "step": 27
+    },
+    {
+      "epoch": 0.5011185682326622,
+      "grad_norm": 1.1996673345565796,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 1.1352,
+      "step": 28
+    },
+    {
+      "epoch": 0.5190156599552572,
+      "grad_norm": 0.9064345359802246,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 1.0363,
+      "step": 29
+    },
+    {
+      "epoch": 0.5369127516778524,
+      "grad_norm": 1.1907025575637817,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 1.1003,
+      "step": 30
+    },
+    {
+      "epoch": 0.5548098434004475,
+      "grad_norm": 0.8835015296936035,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 1.0864,
+      "step": 31
+    },
+    {
+      "epoch": 0.5727069351230425,
+      "grad_norm": 0.7692327499389648,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 0.9725,
+      "step": 32
+    },
+    {
+      "epoch": 0.5906040268456376,
+      "grad_norm": 0.8998321890830994,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 1.0808,
+      "step": 33
+    },
+    {
+      "epoch": 0.6085011185682326,
+      "grad_norm": 0.7375727295875549,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 0.952,
+      "step": 34
+    },
+    {
+      "epoch": 0.6263982102908278,
+      "grad_norm": 0.8503949046134949,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 0.9887,
+      "step": 35
+    },
+    {
+      "epoch": 0.6442953020134228,
+      "grad_norm": 0.751185953617096,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 0.9746,
+      "step": 36
+    },
+    {
+      "epoch": 0.6621923937360179,
+      "grad_norm": 0.9287868142127991,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 0.9288,
+      "step": 37
+    },
+    {
+      "epoch": 0.680089485458613,
+      "grad_norm": 0.8284627795219421,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 1.1113,
+      "step": 38
+    },
+    {
+      "epoch": 0.697986577181208,
+      "grad_norm": 0.8465363383293152,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 1.054,
+      "step": 39
+    },
+    {
+      "epoch": 0.7158836689038032,
+      "grad_norm": 0.851727306842804,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 1.1224,
+      "step": 40
+    },
+    {
+      "epoch": 0.7337807606263982,
+      "grad_norm": 0.7499058842658997,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 0.9928,
+      "step": 41
+    },
+    {
+      "epoch": 0.7516778523489933,
+      "grad_norm": 0.8947521448135376,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 0.9644,
+      "step": 42
+    },
+    {
+      "epoch": 0.7695749440715883,
+      "grad_norm": 0.9242492914199829,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 0.9583,
+      "step": 43
+    },
+    {
+      "epoch": 0.7874720357941835,
+      "grad_norm": 0.6650980710983276,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 1.0216,
+      "step": 44
+    },
+    {
+      "epoch": 0.8053691275167785,
+      "grad_norm": 0.7669132947921753,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 0.9562,
+      "step": 45
+    },
+    {
+      "epoch": 0.8232662192393736,
+      "grad_norm": 0.7133877873420715,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 0.9885,
+      "step": 46
+    },
+    {
+      "epoch": 0.8411633109619687,
+      "grad_norm": 0.8058772683143616,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 0.9569,
+      "step": 47
+    },
+    {
+      "epoch": 0.8590604026845637,
+      "grad_norm": 0.8110019564628601,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 0.9631,
+      "step": 48
+    },
+    {
+      "epoch": 0.8769574944071589,
+      "grad_norm": 0.9861621260643005,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 0.9306,
+      "step": 49
+    },
+    {
+      "epoch": 0.8948545861297539,
+      "grad_norm": 0.8447574377059937,
+      "learning_rate": 1e-05,
+      "loss": 0.9004,
+      "step": 50
+    },
+    {
+      "epoch": 0.8948545861297539,
+      "eval_loss": 0.90520179271698,
+      "eval_runtime": 2.6433,
+      "eval_samples_per_second": 18.916,
+      "eval_steps_per_second": 4.918,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.654149397184512e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null