Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1181105d75a9a8d6a7037dd0987ae1a3535beafd7d3b5cb10cb4586801a74ca8
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4afe94a99101c0ef1e8328a92221d48c4dd1f4b9e05d13bd9a0fa0e7133706d
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:278263a9978d491d71c115dac72e2f8e70822836bdc3c3f396bffc380f7bb5bf
 size 463916180

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b789cbf94346c0f934bb43bda36fe8c3c9e2aff8ef075eeb90551542b2bc7e4
 size 463916180

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1172561353f385bb1e51804996ea8c44517ce2ac62ca4cd0b22e3b77d0c30ca1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:95bf27e4c54eae74106423ad909d78cd68ecd3141cff730f14635eff50f0d401
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0742619037628174,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.32051282051282054,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 9.312,
       "eval_steps_per_second": 2.337,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.16045503266816e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9980463981628418,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.6410256410256411,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.312,
       "eval_steps_per_second": 2.337,
       "step": 50
+    },
+    {
+      "epoch": 0.3269230769230769,
+      "grad_norm": 3.3093056678771973,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 3.9733,
+      "step": 51
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 3.6032257080078125,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 4.1736,
+      "step": 52
+    },
+    {
+      "epoch": 0.33974358974358976,
+      "grad_norm": 3.5169215202331543,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 4.7065,
+      "step": 53
+    },
+    {
+      "epoch": 0.34615384615384615,
+      "grad_norm": 3.892195463180542,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 3.6555,
+      "step": 54
+    },
+    {
+      "epoch": 0.3525641025641026,
+      "grad_norm": 3.566694736480713,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 3.4694,
+      "step": 55
+    },
+    {
+      "epoch": 0.358974358974359,
+      "grad_norm": 3.5258185863494873,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 4.0258,
+      "step": 56
+    },
+    {
+      "epoch": 0.36538461538461536,
+      "grad_norm": 3.711472988128662,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 3.9599,
+      "step": 57
+    },
+    {
+      "epoch": 0.3717948717948718,
+      "grad_norm": 3.8064444065093994,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 4.0288,
+      "step": 58
+    },
+    {
+      "epoch": 0.3782051282051282,
+      "grad_norm": 4.256228446960449,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 4.2489,
+      "step": 59
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 3.41007924079895,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 3.6778,
+      "step": 60
+    },
+    {
+      "epoch": 0.391025641025641,
+      "grad_norm": 4.161782264709473,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 3.8408,
+      "step": 61
+    },
+    {
+      "epoch": 0.3974358974358974,
+      "grad_norm": 4.120133876800537,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 3.8373,
+      "step": 62
+    },
+    {
+      "epoch": 0.40384615384615385,
+      "grad_norm": 3.7649734020233154,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 3.8083,
+      "step": 63
+    },
+    {
+      "epoch": 0.41025641025641024,
+      "grad_norm": 3.989408016204834,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 3.7964,
+      "step": 64
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 4.099987030029297,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 3.8704,
+      "step": 65
+    },
+    {
+      "epoch": 0.4230769230769231,
+      "grad_norm": 4.085524082183838,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 3.7143,
+      "step": 66
+    },
+    {
+      "epoch": 0.42948717948717946,
+      "grad_norm": 5.65880823135376,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 3.625,
+      "step": 67
+    },
+    {
+      "epoch": 0.4358974358974359,
+      "grad_norm": 4.0476393699646,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 3.6684,
+      "step": 68
+    },
+    {
+      "epoch": 0.4423076923076923,
+      "grad_norm": 4.744653224945068,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 3.4566,
+      "step": 69
+    },
+    {
+      "epoch": 0.44871794871794873,
+      "grad_norm": 4.958125114440918,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 4.0852,
+      "step": 70
+    },
+    {
+      "epoch": 0.4551282051282051,
+      "grad_norm": 6.67598819732666,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 3.5015,
+      "step": 71
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 5.2367706298828125,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 3.952,
+      "step": 72
+    },
+    {
+      "epoch": 0.46794871794871795,
+      "grad_norm": 4.691414833068848,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 3.2776,
+      "step": 73
+    },
+    {
+      "epoch": 0.47435897435897434,
+      "grad_norm": 5.058370113372803,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 3.6019,
+      "step": 74
+    },
+    {
+      "epoch": 0.4807692307692308,
+      "grad_norm": 5.959715843200684,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 3.5346,
+      "step": 75
+    },
+    {
+      "epoch": 0.48717948717948717,
+      "grad_norm": 10.346742630004883,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 4.6809,
+      "step": 76
+    },
+    {
+      "epoch": 0.4935897435897436,
+      "grad_norm": 11.073515892028809,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 6.4677,
+      "step": 77
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 9.660663604736328,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 5.9138,
+      "step": 78
+    },
+    {
+      "epoch": 0.5064102564102564,
+      "grad_norm": 7.799278259277344,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 5.3653,
+      "step": 79
+    },
+    {
+      "epoch": 0.5128205128205128,
+      "grad_norm": 7.223135471343994,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 5.1873,
+      "step": 80
+    },
+    {
+      "epoch": 0.5192307692307693,
+      "grad_norm": 5.180141925811768,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 4.6571,
+      "step": 81
+    },
+    {
+      "epoch": 0.5256410256410257,
+      "grad_norm": 3.5540072917938232,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 4.1324,
+      "step": 82
+    },
+    {
+      "epoch": 0.532051282051282,
+      "grad_norm": 2.854039430618286,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 4.1329,
+      "step": 83
+    },
+    {
+      "epoch": 0.5384615384615384,
+      "grad_norm": 3.3957605361938477,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 4.7686,
+      "step": 84
+    },
+    {
+      "epoch": 0.5448717948717948,
+      "grad_norm": 3.0800118446350098,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 4.3467,
+      "step": 85
+    },
+    {
+      "epoch": 0.5512820512820513,
+      "grad_norm": 3.383251428604126,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 4.4548,
+      "step": 86
+    },
+    {
+      "epoch": 0.5576923076923077,
+      "grad_norm": 3.3952181339263916,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 4.0999,
+      "step": 87
+    },
+    {
+      "epoch": 0.5641025641025641,
+      "grad_norm": 3.5181736946105957,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 4.7229,
+      "step": 88
+    },
+    {
+      "epoch": 0.5705128205128205,
+      "grad_norm": 3.4152626991271973,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 3.8945,
+      "step": 89
+    },
+    {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 3.2614777088165283,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 3.7917,
+      "step": 90
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 3.2620959281921387,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 3.7493,
+      "step": 91
+    },
+    {
+      "epoch": 0.5897435897435898,
+      "grad_norm": 3.280299186706543,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 3.8057,
+      "step": 92
+    },
+    {
+      "epoch": 0.5961538461538461,
+      "grad_norm": 3.3490095138549805,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 4.0438,
+      "step": 93
+    },
+    {
+      "epoch": 0.6025641025641025,
+      "grad_norm": 3.555368423461914,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 3.5393,
+      "step": 94
+    },
+    {
+      "epoch": 0.6089743589743589,
+      "grad_norm": 3.605402946472168,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 3.8683,
+      "step": 95
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 3.5116748809814453,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 3.9831,
+      "step": 96
+    },
+    {
+      "epoch": 0.6217948717948718,
+      "grad_norm": 3.322603702545166,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 3.9772,
+      "step": 97
+    },
+    {
+      "epoch": 0.6282051282051282,
+      "grad_norm": 3.720085620880127,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 3.6853,
+      "step": 98
+    },
+    {
+      "epoch": 0.6346153846153846,
+      "grad_norm": 3.5957906246185303,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 3.8104,
+      "step": 99
+    },
+    {
+      "epoch": 0.6410256410256411,
+      "grad_norm": 3.5254197120666504,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 3.6103,
+      "step": 100
+    },
+    {
+      "epoch": 0.6410256410256411,
+      "eval_loss": 0.9980463981628418,
+      "eval_runtime": 28.245,
+      "eval_samples_per_second": 9.311,
+      "eval_steps_per_second": 2.337,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.32091006533632e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null