Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf797c333eb83dd3c95c9a67d5f407a3ddf1ccd3e64ea4763f3efa60b026e464
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:646286d7b4ac468f622c856ba141a9b4d5fb1685f0b5f62c1c8cab315120ced8
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9962a1eae61aa19823efd2e4513be41d88f831e888e15eda82f4a6a81ae288f3
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b0e8ad4f31bfd16a51a2b8c4bbef5e7090efea35ff4ba25f49dc76c4766436e
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5669b004ba2c674bf9781c8f43916606e8ebd1ca3dc5903b3816ebbf24f436cf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aeec98de2a543bc4b433146bd590a4898fabeb53c61c1909eb8b961873d4ab0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.8527500629425049,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.12907389480477574,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 12.298,
       "eval_steps_per_second": 6.154,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.508513578745856e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.7135263681411743,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.1936108422071636,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.298,
       "eval_steps_per_second": 6.154,
       "step": 100
+    },
+    {
+      "epoch": 0.13036463375282348,
+      "grad_norm": 2.645070791244507,
+      "learning_rate": 6.279213887972179e-05,
+      "loss": 1.5433,
+      "step": 101
+    },
+    {
+      "epoch": 0.13165537270087124,
+      "grad_norm": 3.2914302349090576,
+      "learning_rate": 6.189675975213094e-05,
+      "loss": 1.7588,
+      "step": 102
+    },
+    {
+      "epoch": 0.132946111648919,
+      "grad_norm": 2.8321797847747803,
+      "learning_rate": 6.099731789198344e-05,
+      "loss": 1.6911,
+      "step": 103
+    },
+    {
+      "epoch": 0.13423685059696677,
+      "grad_norm": 2.6913323402404785,
+      "learning_rate": 6.009412045785051e-05,
+      "loss": 1.5505,
+      "step": 104
+    },
+    {
+      "epoch": 0.1355275895450145,
+      "grad_norm": 2.40425443649292,
+      "learning_rate": 5.918747589082853e-05,
+      "loss": 1.6987,
+      "step": 105
+    },
+    {
+      "epoch": 0.13681832849306227,
+      "grad_norm": 2.166919231414795,
+      "learning_rate": 5.82776938092065e-05,
+      "loss": 1.8477,
+      "step": 106
+    },
+    {
+      "epoch": 0.13810906744111004,
+      "grad_norm": 2.1085963249206543,
+      "learning_rate": 5.736508490273188e-05,
+      "loss": 1.3727,
+      "step": 107
+    },
+    {
+      "epoch": 0.1393998063891578,
+      "grad_norm": 2.3301165103912354,
+      "learning_rate": 5.644996082651017e-05,
+      "loss": 1.6837,
+      "step": 108
+    },
+    {
+      "epoch": 0.14069054533720554,
+      "grad_norm": 2.3991880416870117,
+      "learning_rate": 5.553263409457504e-05,
+      "loss": 1.742,
+      "step": 109
+    },
+    {
+      "epoch": 0.1419812842852533,
+      "grad_norm": 2.073758363723755,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 1.501,
+      "step": 110
+    },
+    {
+      "epoch": 0.14327202323330107,
+      "grad_norm": 2.043945550918579,
+      "learning_rate": 5.3692626373743706e-05,
+      "loss": 1.5306,
+      "step": 111
+    },
+    {
+      "epoch": 0.1445627621813488,
+      "grad_norm": 2.3612983226776123,
+      "learning_rate": 5.27705737457985e-05,
+      "loss": 1.2722,
+      "step": 112
+    },
+    {
+      "epoch": 0.14585350112939657,
+      "grad_norm": 2.2310869693756104,
+      "learning_rate": 5.184757496945726e-05,
+      "loss": 1.6452,
+      "step": 113
+    },
+    {
+      "epoch": 0.14714424007744434,
+      "grad_norm": 2.3419902324676514,
+      "learning_rate": 5.092394524795649e-05,
+      "loss": 1.5262,
+      "step": 114
+    },
+    {
+      "epoch": 0.1484349790254921,
+      "grad_norm": 2.4059255123138428,
+      "learning_rate": 5e-05,
+      "loss": 1.4984,
+      "step": 115
+    },
+    {
+      "epoch": 0.14972571797353984,
+      "grad_norm": 2.149911642074585,
+      "learning_rate": 4.907605475204352e-05,
+      "loss": 1.708,
+      "step": 116
+    },
+    {
+      "epoch": 0.1510164569215876,
+      "grad_norm": 2.24536395072937,
+      "learning_rate": 4.8152425030542766e-05,
+      "loss": 1.8139,
+      "step": 117
+    },
+    {
+      "epoch": 0.15230719586963537,
+      "grad_norm": 2.1570913791656494,
+      "learning_rate": 4.72294262542015e-05,
+      "loss": 1.4399,
+      "step": 118
+    },
+    {
+      "epoch": 0.15359793481768313,
+      "grad_norm": 2.671151876449585,
+      "learning_rate": 4.6307373626256306e-05,
+      "loss": 1.5718,
+      "step": 119
+    },
+    {
+      "epoch": 0.15488867376573087,
+      "grad_norm": 2.0248093605041504,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 1.6957,
+      "step": 120
+    },
+    {
+      "epoch": 0.15617941271377864,
+      "grad_norm": 2.008172035217285,
+      "learning_rate": 4.446736590542497e-05,
+      "loss": 1.4275,
+      "step": 121
+    },
+    {
+      "epoch": 0.1574701516618264,
+      "grad_norm": 2.3770668506622314,
+      "learning_rate": 4.3550039173489845e-05,
+      "loss": 1.7451,
+      "step": 122
+    },
+    {
+      "epoch": 0.15876089060987417,
+      "grad_norm": 2.311845541000366,
+      "learning_rate": 4.2634915097268115e-05,
+      "loss": 1.6255,
+      "step": 123
+    },
+    {
+      "epoch": 0.1600516295579219,
+      "grad_norm": 2.1279056072235107,
+      "learning_rate": 4.1722306190793495e-05,
+      "loss": 1.647,
+      "step": 124
+    },
+    {
+      "epoch": 0.16134236850596967,
+      "grad_norm": 2.579422950744629,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 1.6169,
+      "step": 125
+    },
+    {
+      "epoch": 0.16263310745401743,
+      "grad_norm": 2.14923357963562,
+      "learning_rate": 3.99058795421495e-05,
+      "loss": 1.5497,
+      "step": 126
+    },
+    {
+      "epoch": 0.16392384640206517,
+      "grad_norm": 2.577373504638672,
+      "learning_rate": 3.9002682108016585e-05,
+      "loss": 1.7964,
+      "step": 127
+    },
+    {
+      "epoch": 0.16521458535011294,
+      "grad_norm": 2.1733500957489014,
+      "learning_rate": 3.8103240247869075e-05,
+      "loss": 1.6157,
+      "step": 128
+    },
+    {
+      "epoch": 0.1665053242981607,
+      "grad_norm": 2.469484329223633,
+      "learning_rate": 3.720786112027822e-05,
+      "loss": 1.6811,
+      "step": 129
+    },
+    {
+      "epoch": 0.16779606324620847,
+      "grad_norm": 2.4052541255950928,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 1.3892,
+      "step": 130
+    },
+    {
+      "epoch": 0.1690868021942562,
+      "grad_norm": 2.5126283168792725,
+      "learning_rate": 3.543051265553377e-05,
+      "loss": 1.5076,
+      "step": 131
+    },
+    {
+      "epoch": 0.17037754114230397,
+      "grad_norm": 2.3482887744903564,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.4998,
+      "step": 132
+    },
+    {
+      "epoch": 0.17166828009035173,
+      "grad_norm": 2.716629981994629,
+      "learning_rate": 3.367306435799584e-05,
+      "loss": 1.8134,
+      "step": 133
+    },
+    {
+      "epoch": 0.1729590190383995,
+      "grad_norm": 2.555504560470581,
+      "learning_rate": 3.2802554068303596e-05,
+      "loss": 1.6125,
+      "step": 134
+    },
+    {
+      "epoch": 0.17424975798644723,
+      "grad_norm": 2.7541518211364746,
+      "learning_rate": 3.1937916690642356e-05,
+      "loss": 1.7103,
+      "step": 135
+    },
+    {
+      "epoch": 0.175540496934495,
+      "grad_norm": 2.813023090362549,
+      "learning_rate": 3.107944749788449e-05,
+      "loss": 1.8416,
+      "step": 136
+    },
+    {
+      "epoch": 0.17683123588254276,
+      "grad_norm": 3.048743963241577,
+      "learning_rate": 3.0227439656472877e-05,
+      "loss": 1.7248,
+      "step": 137
+    },
+    {
+      "epoch": 0.1781219748305905,
+      "grad_norm": 2.53549861907959,
+      "learning_rate": 2.9382184126304834e-05,
+      "loss": 1.971,
+      "step": 138
+    },
+    {
+      "epoch": 0.17941271377863827,
+      "grad_norm": 2.9249329566955566,
+      "learning_rate": 2.8543969561369556e-05,
+      "loss": 1.8153,
+      "step": 139
+    },
+    {
+      "epoch": 0.18070345272668603,
+      "grad_norm": 2.572925090789795,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 1.56,
+      "step": 140
+    },
+    {
+      "epoch": 0.1819941916747338,
+      "grad_norm": 2.91241455078125,
+      "learning_rate": 2.688980582298435e-05,
+      "loss": 1.7049,
+      "step": 141
+    },
+    {
+      "epoch": 0.18328493062278153,
+      "grad_norm": 2.950890064239502,
+      "learning_rate": 2.607442154493568e-05,
+      "loss": 1.9443,
+      "step": 142
+    },
+    {
+      "epoch": 0.1845756695708293,
+      "grad_norm": 2.7503061294555664,
+      "learning_rate": 2.5267207830011068e-05,
+      "loss": 1.7713,
+      "step": 143
+    },
+    {
+      "epoch": 0.18586640851887706,
+      "grad_norm": 3.214904546737671,
+      "learning_rate": 2.446844034095466e-05,
+      "loss": 1.7367,
+      "step": 144
+    },
+    {
+      "epoch": 0.18715714746692483,
+      "grad_norm": 2.8951315879821777,
+      "learning_rate": 2.3678391856132204e-05,
+      "loss": 2.0016,
+      "step": 145
+    },
+    {
+      "epoch": 0.18844788641497257,
+      "grad_norm": 3.1537482738494873,
+      "learning_rate": 2.2897332176377528e-05,
+      "loss": 1.8615,
+      "step": 146
+    },
+    {
+      "epoch": 0.18973862536302033,
+      "grad_norm": 4.895639896392822,
+      "learning_rate": 2.2125528032855724e-05,
+      "loss": 1.5843,
+      "step": 147
+    },
+    {
+      "epoch": 0.1910293643110681,
+      "grad_norm": 3.6234192848205566,
+      "learning_rate": 2.136324299597474e-05,
+      "loss": 2.0226,
+      "step": 148
+    },
+    {
+      "epoch": 0.19232010325911583,
+      "grad_norm": 3.944408893585205,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.3779,
+      "step": 149
+    },
+    {
+      "epoch": 0.1936108422071636,
+      "grad_norm": 5.268966197967529,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 2.7319,
+      "step": 150
+    },
+    {
+      "epoch": 0.1936108422071636,
+      "eval_loss": 1.7135263681411743,
+      "eval_runtime": 106.2082,
+      "eval_samples_per_second": 12.287,
+      "eval_steps_per_second": 6.148,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.262770368118784e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null