Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d63f0d7c840eba396845ec0577f7a1fd2ae734136229ea311925af89faab337
 size 479005064

 version https://git-lfs.github.com/spec/v1
+oid sha256:72a2cb67c13f5cd6bb3e41086fbd77ee532416e7619b10fbab62055b734be100
 size 479005064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58a527f2612c38f48e6eea7652990c00ff2fca2ab03c854dcef91b9b9cc60b55
 size 243802484

 version https://git-lfs.github.com/spec/v1
+oid sha256:a39b19704628eb10d36e554c2115d87cb80445c47e4d13d3624f92c089bafb28
 size 243802484

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98610abd7b970b886fd1070fadf421e6e462f6197b84dbdc639b6b001043e40a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8686af1e49dc4afeb9f4b5672ad1558024aeb2c7d96a770b708ae170ad1ee6b8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99ca67f9a35cd1c50df3d93bedf5a6642db2c7847c021a0a8d3f44c1bf4993d3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.7260963916778564,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.11117287381878821,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 21.155,
       "eval_steps_per_second": 5.292,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.69083435155456e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.5343213081359863,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.16675931072818231,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.155,
       "eval_steps_per_second": 5.292,
       "step": 100
+    },
+    {
+      "epoch": 0.1122846025569761,
+      "grad_norm": 5.945138454437256,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 3.3042,
+      "step": 101
+    },
+    {
+      "epoch": 0.11339633129516398,
+      "grad_norm": 5.689327239990234,
+      "learning_rate": 8.688653405904652e-05,
+      "loss": 3.2821,
+      "step": 102
+    },
+    {
+      "epoch": 0.11450806003335186,
+      "grad_norm": 5.383906364440918,
+      "learning_rate": 8.661343332988869e-05,
+      "loss": 3.1464,
+      "step": 103
+    },
+    {
+      "epoch": 0.11561978877153975,
+      "grad_norm": 3.6286027431488037,
+      "learning_rate": 8.633795680751116e-05,
+      "loss": 3.0208,
+      "step": 104
+    },
+    {
+      "epoch": 0.11673151750972763,
+      "grad_norm": 2.5231778621673584,
+      "learning_rate": 8.606012236719073e-05,
+      "loss": 2.9116,
+      "step": 105
+    },
+    {
+      "epoch": 0.1178432462479155,
+      "grad_norm": 1.8035188913345337,
+      "learning_rate": 8.577994803720606e-05,
+      "loss": 2.7812,
+      "step": 106
+    },
+    {
+      "epoch": 0.11895497498610338,
+      "grad_norm": 1.2647838592529297,
+      "learning_rate": 8.549745199766792e-05,
+      "loss": 2.5962,
+      "step": 107
+    },
+    {
+      "epoch": 0.12006670372429128,
+      "grad_norm": 1.0100034475326538,
+      "learning_rate": 8.521265257933948e-05,
+      "loss": 2.5903,
+      "step": 108
+    },
+    {
+      "epoch": 0.12117843246247915,
+      "grad_norm": 1.5505986213684082,
+      "learning_rate": 8.492556826244687e-05,
+      "loss": 2.4289,
+      "step": 109
+    },
+    {
+      "epoch": 0.12229016120066703,
+      "grad_norm": 2.1767804622650146,
+      "learning_rate": 8.463621767547998e-05,
+      "loss": 2.5854,
+      "step": 110
+    },
+    {
+      "epoch": 0.12340188993885493,
+      "grad_norm": 2.0668084621429443,
+      "learning_rate": 8.434461959398376e-05,
+      "loss": 2.4399,
+      "step": 111
+    },
+    {
+      "epoch": 0.1245136186770428,
+      "grad_norm": 1.511650562286377,
+      "learning_rate": 8.405079293933986e-05,
+      "loss": 2.6072,
+      "step": 112
+    },
+    {
+      "epoch": 0.12562534741523068,
+      "grad_norm": 1.1593494415283203,
+      "learning_rate": 8.375475677753881e-05,
+      "loss": 2.4045,
+      "step": 113
+    },
+    {
+      "epoch": 0.12673707615341856,
+      "grad_norm": 1.053107738494873,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 2.4522,
+      "step": 114
+    },
+    {
+      "epoch": 0.12784880489160644,
+      "grad_norm": 0.9937801361083984,
+      "learning_rate": 8.315613291203976e-05,
+      "loss": 2.3276,
+      "step": 115
+    },
+    {
+      "epoch": 0.12896053362979434,
+      "grad_norm": 0.8721001744270325,
+      "learning_rate": 8.285358405218655e-05,
+      "loss": 2.3567,
+      "step": 116
+    },
+    {
+      "epoch": 0.13007226236798222,
+      "grad_norm": 0.9330883026123047,
+      "learning_rate": 8.25489033703452e-05,
+      "loss": 2.2585,
+      "step": 117
+    },
+    {
+      "epoch": 0.1311839911061701,
+      "grad_norm": 0.9001569747924805,
+      "learning_rate": 8.224211063680853e-05,
+      "loss": 2.297,
+      "step": 118
+    },
+    {
+      "epoch": 0.13229571984435798,
+      "grad_norm": 0.8666402697563171,
+      "learning_rate": 8.19332257589174e-05,
+      "loss": 2.2182,
+      "step": 119
+    },
+    {
+      "epoch": 0.13340744858254586,
+      "grad_norm": 1.176416277885437,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 2.3346,
+      "step": 120
+    },
+    {
+      "epoch": 0.13451917732073373,
+      "grad_norm": 0.9645460844039917,
+      "learning_rate": 8.130925987691569e-05,
+      "loss": 2.0891,
+      "step": 121
+    },
+    {
+      "epoch": 0.1356309060589216,
+      "grad_norm": 1.3001148700714111,
+      "learning_rate": 8.099421936105702e-05,
+      "loss": 2.3923,
+      "step": 122
+    },
+    {
+      "epoch": 0.13674263479710952,
+      "grad_norm": 1.1771594285964966,
+      "learning_rate": 8.067716767472045e-05,
+      "loss": 2.3808,
+      "step": 123
+    },
+    {
+      "epoch": 0.1378543635352974,
+      "grad_norm": 0.997420608997345,
+      "learning_rate": 8.035812539093557e-05,
+      "loss": 2.4158,
+      "step": 124
+    },
+    {
+      "epoch": 0.13896609227348528,
+      "grad_norm": 0.8972210884094238,
+      "learning_rate": 8.003711321189895e-05,
+      "loss": 2.1985,
+      "step": 125
+    },
+    {
+      "epoch": 0.14007782101167315,
+      "grad_norm": 0.8970302939414978,
+      "learning_rate": 7.971415196763088e-05,
+      "loss": 1.9446,
+      "step": 126
+    },
+    {
+      "epoch": 0.14118954974986103,
+      "grad_norm": 1.0234975814819336,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 2.2494,
+      "step": 127
+    },
+    {
+      "epoch": 0.1423012784880489,
+      "grad_norm": 1.1858220100402832,
+      "learning_rate": 7.906246623448183e-05,
+      "loss": 2.2926,
+      "step": 128
+    },
+    {
+      "epoch": 0.1434130072262368,
+      "grad_norm": 1.04050612449646,
+      "learning_rate": 7.873378403255419e-05,
+      "loss": 2.3006,
+      "step": 129
+    },
+    {
+      "epoch": 0.14452473596442467,
+      "grad_norm": 1.20691978931427,
+      "learning_rate": 7.840323733655778e-05,
+      "loss": 2.3302,
+      "step": 130
+    },
+    {
+      "epoch": 0.14563646470261257,
+      "grad_norm": 1.0528558492660522,
+      "learning_rate": 7.807084759519405e-05,
+      "loss": 2.1477,
+      "step": 131
+    },
+    {
+      "epoch": 0.14674819344080045,
+      "grad_norm": 1.085060954093933,
+      "learning_rate": 7.773663637675694e-05,
+      "loss": 2.3391,
+      "step": 132
+    },
+    {
+      "epoch": 0.14785992217898833,
+      "grad_norm": 0.9347543120384216,
+      "learning_rate": 7.740062536773352e-05,
+      "loss": 2.2107,
+      "step": 133
+    },
+    {
+      "epoch": 0.1489716509171762,
+      "grad_norm": 1.0611324310302734,
+      "learning_rate": 7.706283637139658e-05,
+      "loss": 2.2921,
+      "step": 134
+    },
+    {
+      "epoch": 0.15008337965536409,
+      "grad_norm": 1.1190764904022217,
+      "learning_rate": 7.672329130639005e-05,
+      "loss": 2.1771,
+      "step": 135
+    },
+    {
+      "epoch": 0.15119510839355196,
+      "grad_norm": 1.021002173423767,
+      "learning_rate": 7.638201220530665e-05,
+      "loss": 2.1964,
+      "step": 136
+    },
+    {
+      "epoch": 0.15230683713173984,
+      "grad_norm": 1.2308954000473022,
+      "learning_rate": 7.603902121325813e-05,
+      "loss": 2.2279,
+      "step": 137
+    },
+    {
+      "epoch": 0.15341856586992775,
+      "grad_norm": 1.0030035972595215,
+      "learning_rate": 7.569434058643844e-05,
+      "loss": 2.1981,
+      "step": 138
+    },
+    {
+      "epoch": 0.15453029460811563,
+      "grad_norm": 1.0752218961715698,
+      "learning_rate": 7.534799269067953e-05,
+      "loss": 2.2809,
+      "step": 139
+    },
+    {
+      "epoch": 0.1556420233463035,
+      "grad_norm": 1.1892122030258179,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 2.2486,
+      "step": 140
+    },
+    {
+      "epoch": 0.15675375208449138,
+      "grad_norm": 1.1939011812210083,
+      "learning_rate": 7.465038509514688e-05,
+      "loss": 2.1895,
+      "step": 141
+    },
+    {
+      "epoch": 0.15786548082267926,
+      "grad_norm": 1.430174469947815,
+      "learning_rate": 7.42991706621303e-05,
+      "loss": 2.3485,
+      "step": 142
+    },
+    {
+      "epoch": 0.15897720956086714,
+      "grad_norm": 1.1184104681015015,
+      "learning_rate": 7.394637949075154e-05,
+      "loss": 2.2954,
+      "step": 143
+    },
+    {
+      "epoch": 0.16008893829905502,
+      "grad_norm": 1.0584604740142822,
+      "learning_rate": 7.35920344731241e-05,
+      "loss": 2.0915,
+      "step": 144
+    },
+    {
+      "epoch": 0.16120066703724292,
+      "grad_norm": 1.1394598484039307,
+      "learning_rate": 7.323615860218843e-05,
+      "loss": 1.9866,
+      "step": 145
+    },
+    {
+      "epoch": 0.1623123957754308,
+      "grad_norm": 1.3819961547851562,
+      "learning_rate": 7.287877497021978e-05,
+      "loss": 2.229,
+      "step": 146
+    },
+    {
+      "epoch": 0.16342412451361868,
+      "grad_norm": 1.717722773551941,
+      "learning_rate": 7.251990676732984e-05,
+      "loss": 2.0977,
+      "step": 147
+    },
+    {
+      "epoch": 0.16453585325180656,
+      "grad_norm": 1.206673502922058,
+      "learning_rate": 7.215957727996207e-05,
+      "loss": 2.2358,
+      "step": 148
+    },
+    {
+      "epoch": 0.16564758198999444,
+      "grad_norm": 1.5048532485961914,
+      "learning_rate": 7.179780988938051e-05,
+      "loss": 2.2084,
+      "step": 149
+    },
+    {
+      "epoch": 0.16675931072818231,
+      "grad_norm": 1.4663426876068115,
+      "learning_rate": 7.143462807015271e-05,
+      "loss": 2.1774,
+      "step": 150
+    },
+    {
+      "epoch": 0.16675931072818231,
+      "eval_loss": 2.5343213081359863,
+      "eval_runtime": 71.4182,
+      "eval_samples_per_second": 21.213,
+      "eval_steps_per_second": 5.307,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.53625152733184e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null