Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:828507a23c80778dd9da89765175156de0a2e66e8473061851a3d82ddc674a4d
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b1b73fe0d00d3154230405d0630fc515184b917aa7d90656909b68799d1b136
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a36afb5aa2fad82a2188c788d2a4cc1814b839e04bed8fcfefd79aa8c5f08be
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:7563af3b72e2b4671c68c6bd0f6f9bfcfda97047378bf898d8b967d2911926d3
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d9131bc314cced61348284aee1bb2e381c85038ab98ce94ddaecf8921158dac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f61239f373a6eac018ababbc06c40e19c482a45acd7495a7048fe25922852b7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ea7ff16b0c30a914eb0d145e3fb06ff9027c6cd2408e766ce8a09accab89a4d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e69e2b49ea642509f0c688c16fb190b7cf27dac0a18903a5e2d1467d0343d8b8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.6744242906570435,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.0010382490967232858,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 3.51,
       "eval_steps_per_second": 1.755,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.746595850734797e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6380741596221924,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.0020764981934465717,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.51,
       "eval_steps_per_second": 1.755,
       "step": 25
+    },
+    {
+      "epoch": 0.0010797790605922173,
+      "grad_norm": 1.1037122011184692,
+      "learning_rate": 0.0001,
+      "loss": 1.8685,
+      "step": 26
+    },
+    {
+      "epoch": 0.0011213090244611486,
+      "grad_norm": 1.222785472869873,
+      "learning_rate": 9.345968707698569e-05,
+      "loss": 1.675,
+      "step": 27
+    },
+    {
+      "epoch": 0.0011628389883300801,
+      "grad_norm": 1.1607424020767212,
+      "learning_rate": 8.694738077799488e-05,
+      "loss": 1.846,
+      "step": 28
+    },
+    {
+      "epoch": 0.0012043689521990116,
+      "grad_norm": 1.2256293296813965,
+      "learning_rate": 8.049096779838719e-05,
+      "loss": 1.9248,
+      "step": 29
+    },
+    {
+      "epoch": 0.001245898916067943,
+      "grad_norm": 1.4635818004608154,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 1.6617,
+      "step": 30
+    },
+    {
+      "epoch": 0.0012874288799368744,
+      "grad_norm": 1.4820843935012817,
+      "learning_rate": 6.785605346968386e-05,
+      "loss": 1.6852,
+      "step": 31
+    },
+    {
+      "epoch": 0.001328958843805806,
+      "grad_norm": 1.3600713014602661,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 1.654,
+      "step": 32
+    },
+    {
+      "epoch": 0.0013704888076747374,
+      "grad_norm": 1.2553255558013916,
+      "learning_rate": 5.577113097809989e-05,
+      "loss": 1.5762,
+      "step": 33
+    },
+    {
+      "epoch": 0.0014120187715436687,
+      "grad_norm": 1.3980979919433594,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 1.7855,
+      "step": 34
+    },
+    {
+      "epoch": 0.0014535487354126002,
+      "grad_norm": 1.4510493278503418,
+      "learning_rate": 4.444297669803981e-05,
+      "loss": 1.8295,
+      "step": 35
+    },
+    {
+      "epoch": 0.0014950786992815317,
+      "grad_norm": 1.461298942565918,
+      "learning_rate": 3.9123857099127936e-05,
+      "loss": 1.8186,
+      "step": 36
+    },
+    {
+      "epoch": 0.001536608663150463,
+      "grad_norm": 1.4678010940551758,
+      "learning_rate": 3.406541848999312e-05,
+      "loss": 1.47,
+      "step": 37
+    },
+    {
+      "epoch": 0.0015781386270193945,
+      "grad_norm": 1.473757266998291,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 1.8708,
+      "step": 38
+    },
+    {
+      "epoch": 0.001619668590888326,
+      "grad_norm": 1.4809536933898926,
+      "learning_rate": 2.4816019252102273e-05,
+      "loss": 1.8925,
+      "step": 39
+    },
+    {
+      "epoch": 0.0016611985547572573,
+      "grad_norm": 1.5196596384048462,
+      "learning_rate": 2.0664665970876496e-05,
+      "loss": 2.0163,
+      "step": 40
+    },
+    {
+      "epoch": 0.0017027285186261888,
+      "grad_norm": 1.8574073314666748,
+      "learning_rate": 1.6853038769745467e-05,
+      "loss": 2.1846,
+      "step": 41
+    },
+    {
+      "epoch": 0.0017442584824951203,
+      "grad_norm": 1.62294602394104,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 1.7325,
+      "step": 42
+    },
+    {
+      "epoch": 0.0017857884463640516,
+      "grad_norm": 1.677263617515564,
+      "learning_rate": 1.0312725846731175e-05,
+      "loss": 2.0305,
+      "step": 43
+    },
+    {
+      "epoch": 0.001827318410232983,
+      "grad_norm": 1.917270541191101,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 1.8953,
+      "step": 44
+    },
+    {
+      "epoch": 0.0018688483741019146,
+      "grad_norm": 2.308164358139038,
+      "learning_rate": 5.306987050489442e-06,
+      "loss": 1.7661,
+      "step": 45
+    },
+    {
+      "epoch": 0.0019103783379708459,
+      "grad_norm": 2.1109867095947266,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 2.2393,
+      "step": 46
+    },
+    {
+      "epoch": 0.0019519083018397774,
+      "grad_norm": 2.27052640914917,
+      "learning_rate": 1.921471959676957e-06,
+      "loss": 1.7348,
+      "step": 47
+    },
+    {
+      "epoch": 0.0019934382657087087,
+      "grad_norm": 2.7785375118255615,
+      "learning_rate": 8.555138626189618e-07,
+      "loss": 1.8744,
+      "step": 48
+    },
+    {
+      "epoch": 0.00203496822957764,
+      "grad_norm": 3.298647165298462,
+      "learning_rate": 2.141076761396521e-07,
+      "loss": 2.0428,
+      "step": 49
+    },
+    {
+      "epoch": 0.0020764981934465717,
+      "grad_norm": 5.072795391082764,
+      "learning_rate": 0.0,
+      "loss": 2.6198,
+      "step": 50
+    },
+    {
+      "epoch": 0.0020764981934465717,
+      "eval_loss": 1.6380741596221924,
+      "eval_runtime": 2888.5077,
+      "eval_samples_per_second": 3.51,
+      "eval_steps_per_second": 1.755,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.456096693046477e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null