Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd43871c7e886153c735e49c1c633b569b5f33dd8922871c513e231246d4bd97
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb8e057b31946f4a87b0ae28aa687a04ada4a1907b98ec555c41deb95b43a385
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9115441f963e37f13326e6f52bb478dae7bddb77d5a6dce022cadb92b38dc001
 size 1279641042

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ef640de41000d294de71ff6dce048e831500f66a4acfae88a48d72e0a3a720f
 size 1279641042

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06b27faf8cfa5d7608d604d014bc869d0b6a14f677d26ecd9a5e930c3ecb1b64
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:999aa51ce85f7f7067032a69d82977219eb339d772ac9afed88138f7cd8b5f2f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0969889163970947,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.15625,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 14.191,
       "eval_steps_per_second": 1.787,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.492551407435776e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0841188430786133,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.3125,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.191,
       "eval_steps_per_second": 1.787,
       "step": 25
+    },
+    {
+      "epoch": 0.1625,
+      "grad_norm": 1.3446524143218994,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 3.6103,
+      "step": 26
+    },
+    {
+      "epoch": 0.16875,
+      "grad_norm": 1.5091419219970703,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 3.9509,
+      "step": 27
+    },
+    {
+      "epoch": 0.175,
+      "grad_norm": 1.3692712783813477,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 4.7267,
+      "step": 28
+    },
+    {
+      "epoch": 0.18125,
+      "grad_norm": 1.6524736881256104,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 4.5399,
+      "step": 29
+    },
+    {
+      "epoch": 0.1875,
+      "grad_norm": 1.4372515678405762,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 4.2252,
+      "step": 30
+    },
+    {
+      "epoch": 0.19375,
+      "grad_norm": 1.5296458005905151,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 4.8885,
+      "step": 31
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.1811058521270752,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 4.2151,
+      "step": 32
+    },
+    {
+      "epoch": 0.20625,
+      "grad_norm": 1.5564839839935303,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 4.3257,
+      "step": 33
+    },
+    {
+      "epoch": 0.2125,
+      "grad_norm": 1.625295639038086,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 4.3592,
+      "step": 34
+    },
+    {
+      "epoch": 0.21875,
+      "grad_norm": 1.2795021533966064,
+      "learning_rate": 5e-05,
+      "loss": 4.2706,
+      "step": 35
+    },
+    {
+      "epoch": 0.225,
+      "grad_norm": 1.1677732467651367,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.8508,
+      "step": 36
+    },
+    {
+      "epoch": 0.23125,
+      "grad_norm": 1.923035740852356,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 5.2749,
+      "step": 37
+    },
+    {
+      "epoch": 0.2375,
+      "grad_norm": 1.4094065427780151,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 4.0751,
+      "step": 38
+    },
+    {
+      "epoch": 0.24375,
+      "grad_norm": 1.5134934186935425,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 4.2217,
+      "step": 39
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.3699042797088623,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 3.7734,
+      "step": 40
+    },
+    {
+      "epoch": 0.25625,
+      "grad_norm": 1.2489789724349976,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.9079,
+      "step": 41
+    },
+    {
+      "epoch": 0.2625,
+      "grad_norm": 1.3061996698379517,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 4.6819,
+      "step": 42
+    },
+    {
+      "epoch": 0.26875,
+      "grad_norm": 1.2688488960266113,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 3.826,
+      "step": 43
+    },
+    {
+      "epoch": 0.275,
+      "grad_norm": 1.2382211685180664,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 4.64,
+      "step": 44
+    },
+    {
+      "epoch": 0.28125,
+      "grad_norm": 2.0334558486938477,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 5.6532,
+      "step": 45
+    },
+    {
+      "epoch": 0.2875,
+      "grad_norm": 1.1454434394836426,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 4.5027,
+      "step": 46
+    },
+    {
+      "epoch": 0.29375,
+      "grad_norm": 1.526947259902954,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 4.1062,
+      "step": 47
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.1723829507827759,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 4.713,
+      "step": 48
+    },
+    {
+      "epoch": 0.30625,
+      "grad_norm": 1.2639137506484985,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 4.1751,
+      "step": 49
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 1.3471728563308716,
+      "learning_rate": 0.0,
+      "loss": 4.5387,
+      "step": 50
+    },
+    {
+      "epoch": 0.3125,
+      "eval_loss": 1.0841188430786133,
+      "eval_runtime": 19.034,
+      "eval_samples_per_second": 14.185,
+      "eval_steps_per_second": 1.786,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.951840420515021e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null