Training in progress, step 75, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d443a0367b73f54f32eba9bc71a6295631dd07c11ac781c0bfb7e07cf98cd1cc
 size 60599872

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf77cb4ff4081a992fcf1dae69c126e806763557a75008415a70e77c97cc5696
 size 60599872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0732b5f792597bb462eddced8cf72cdfe54fcb6e53d2359f468269966ba19a63
 size 121392706

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c9be606d592580935ac71d7bbcd9dca72cdb42d5875144e12418a79ac45172e
 size 121392706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83f5738bb1d47b319b4f0515dbcb4b63e9b08511a4d6d02e0dd2483c2b30363a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0656e9afd23988e47c65b323e07581be25b21ac41767c4c71d73b44d12051a45
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bd8adc1a67335790373978db491a9b9fa358cba00f13a28706aed9631c716e1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d21664c9d5f8dfeaf6f6dc45ce8b272694b2a8b336da2db1358ab7398d1b9b20
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f17606f7f9289687e7255ae73e0167693d08e1fe87e79f9ee768112fec29b437
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5ab66591a435956440f940ed333bc8f4242131d343a362510cf590c99bcec05
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45e0a828af05e53858c8d6a3625ae358aec84dfa1d70e13c154ecae4bd2aace6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eb53ff07a9146960fd3083194be8a315712ffa16c26a6fbeb7dd1024158da0f
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a06debcc524d5e29377ca1c81e86a2cd28c93506013f68ac7d1bf85491fb4e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:370cee31176b8bff781da8f054b9870dc93c63a8623674218a84718aa7abd3af
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6452839374542236,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.32076984763432237,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 82.909,
       "eval_steps_per_second": 21.556,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +592,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.54445405339648e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6430225968360901,
+  "best_model_checkpoint": "miner_id_24/checkpoint-75",
+  "epoch": 0.48115477145148355,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 82.909,
       "eval_steps_per_second": 21.556,
       "step": 50
+    },
+    {
+      "epoch": 0.3271852445870088,
+      "grad_norm": 0.4414086937904358,
+      "learning_rate": 5.6472358726979935e-05,
+      "loss": 0.6875,
+      "step": 51
+    },
+    {
+      "epoch": 0.33360064153969526,
+      "grad_norm": 0.4426858425140381,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.6874,
+      "step": 52
+    },
+    {
+      "epoch": 0.3400160384923817,
+      "grad_norm": 0.37037479877471924,
+      "learning_rate": 5.352764127302008e-05,
+      "loss": 0.6825,
+      "step": 53
+    },
+    {
+      "epoch": 0.34643143544506816,
+      "grad_norm": 0.35772907733917236,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 0.684,
+      "step": 54
+    },
+    {
+      "epoch": 0.3528468323977546,
+      "grad_norm": 0.2680012583732605,
+      "learning_rate": 5.058922868516978e-05,
+      "loss": 0.6749,
+      "step": 55
+    },
+    {
+      "epoch": 0.35926222935044105,
+      "grad_norm": 0.3476446568965912,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 0.6284,
+      "step": 56
+    },
+    {
+      "epoch": 0.3656776263031275,
+      "grad_norm": 0.3562479019165039,
+      "learning_rate": 4.7669703697243516e-05,
+      "loss": 0.6325,
+      "step": 57
+    },
+    {
+      "epoch": 0.37209302325581395,
+      "grad_norm": 0.3966968059539795,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 0.635,
+      "step": 58
+    },
+    {
+      "epoch": 0.3785084202085004,
+      "grad_norm": 0.3592650294303894,
+      "learning_rate": 4.478156816345321e-05,
+      "loss": 0.6277,
+      "step": 59
+    },
+    {
+      "epoch": 0.38492381716118684,
+      "grad_norm": 0.3256514370441437,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 0.6278,
+      "step": 60
+    },
+    {
+      "epoch": 0.3913392141138733,
+      "grad_norm": 0.3300212323665619,
+      "learning_rate": 4.19371895235492e-05,
+      "loss": 0.6299,
+      "step": 61
+    },
+    {
+      "epoch": 0.39775461106655974,
+      "grad_norm": 0.3095785975456238,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 0.622,
+      "step": 62
+    },
+    {
+      "epoch": 0.4041700080192462,
+      "grad_norm": 0.3082052171230316,
+      "learning_rate": 3.9148747843544495e-05,
+      "loss": 0.6653,
+      "step": 63
+    },
+    {
+      "epoch": 0.41058540497193263,
+      "grad_norm": 0.4814322292804718,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 0.6819,
+      "step": 64
+    },
+    {
+      "epoch": 0.4170008019246191,
+      "grad_norm": 0.48691344261169434,
+      "learning_rate": 3.642818365880224e-05,
+      "loss": 0.6831,
+      "step": 65
+    },
+    {
+      "epoch": 0.4234161988773055,
+      "grad_norm": 0.389440655708313,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 0.6806,
+      "step": 66
+    },
+    {
+      "epoch": 0.429831595829992,
+      "grad_norm": 0.34976035356521606,
+      "learning_rate": 3.378714684283011e-05,
+      "loss": 0.6767,
+      "step": 67
+    },
+    {
+      "epoch": 0.4362469927826784,
+      "grad_norm": 0.15002594888210297,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 0.6543,
+      "step": 68
+    },
+    {
+      "epoch": 0.44266238973536487,
+      "grad_norm": 0.2920244634151459,
+      "learning_rate": 3.123694672073344e-05,
+      "loss": 0.6271,
+      "step": 69
+    },
+    {
+      "epoch": 0.4490777866880513,
+      "grad_norm": 0.32228878140449524,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 0.6268,
+      "step": 70
+    },
+    {
+      "epoch": 0.45549318364073776,
+      "grad_norm": 0.36818942427635193,
+      "learning_rate": 2.8788503640948912e-05,
+      "loss": 0.6333,
+      "step": 71
+    },
+    {
+      "epoch": 0.4619085805934242,
+      "grad_norm": 0.28305715322494507,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 0.6243,
+      "step": 72
+    },
+    {
+      "epoch": 0.46832397754611066,
+      "grad_norm": 0.3117271065711975,
+      "learning_rate": 2.645230221263596e-05,
+      "loss": 0.6245,
+      "step": 73
+    },
+    {
+      "epoch": 0.4747393744987971,
+      "grad_norm": 0.28173038363456726,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 0.6205,
+      "step": 74
+    },
+    {
+      "epoch": 0.48115477145148355,
+      "grad_norm": 0.2890748381614685,
+      "learning_rate": 2.423834640897079e-05,
+      "loss": 0.6255,
+      "step": 75
+    },
+    {
+      "epoch": 0.48115477145148355,
+      "eval_loss": 0.6430225968360901,
+      "eval_runtime": 0.6128,
+      "eval_samples_per_second": 81.594,
+      "eval_steps_per_second": 21.214,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.81668108009472e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null