Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e690235f97f443d31769097a2dcdc1726788759758016999fd2cf3a003260fb9
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:a18a1b14748d8b4db7db74a142e1902d53a3e2bd03c119f29ddb6f3abbd02604
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d59498521014754a2bfc06807c84c40dc9d7ebf49f1190db020af398fa5ba705
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:2aadffe177a513af10bd3ba9bc1059364dd7ec579f109342e9b4b2ec194fb520
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e75282f25411f14c3a63faa485f9928eb8c3ed41734bbe259abad2c8975ff061
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1a12c05fdd0239884b6dbc91fa003ab5c9eb48317a39524098ff9406f6c0ee2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e70710c409284f74d525f8db5cfaccc22a8afd29416f19c595da9242ec92d936
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.016136646270752,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.053614811091564046,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 7.133,
       "eval_steps_per_second": 7.133,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3916499588100915e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9701613783836365,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.08042221663734607,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.133,
       "eval_steps_per_second": 7.133,
       "step": 100
+    },
+    {
+      "epoch": 0.054150959202479684,
+      "grad_norm": 9.373055458068848,
+      "learning_rate": 0.0001599135876488549,
+      "loss": 28.2683,
+      "step": 101
+    },
+    {
+      "epoch": 0.05468710731339532,
+      "grad_norm": 8.830703735351562,
+      "learning_rate": 0.00015743756320098332,
+      "loss": 30.2945,
+      "step": 102
+    },
+    {
+      "epoch": 0.05522325542431097,
+      "grad_norm": 7.033578395843506,
+      "learning_rate": 0.0001549595053975962,
+      "loss": 30.4363,
+      "step": 103
+    },
+    {
+      "epoch": 0.055759403535226605,
+      "grad_norm": 6.227023601531982,
+      "learning_rate": 0.00015248009171495378,
+      "loss": 29.8592,
+      "step": 104
+    },
+    {
+      "epoch": 0.05629555164614225,
+      "grad_norm": 5.5991339683532715,
+      "learning_rate": 0.00015,
+      "loss": 28.823,
+      "step": 105
+    },
+    {
+      "epoch": 0.05683169975705789,
+      "grad_norm": 4.878828525543213,
+      "learning_rate": 0.00014751990828504622,
+      "loss": 30.4694,
+      "step": 106
+    },
+    {
+      "epoch": 0.057367847867973526,
+      "grad_norm": 4.614971160888672,
+      "learning_rate": 0.00014504049460240375,
+      "loss": 28.4186,
+      "step": 107
+    },
+    {
+      "epoch": 0.05790399597888917,
+      "grad_norm": 4.517513275146484,
+      "learning_rate": 0.00014256243679901663,
+      "loss": 29.0258,
+      "step": 108
+    },
+    {
+      "epoch": 0.05844014408980481,
+      "grad_norm": 8.218019485473633,
+      "learning_rate": 0.00014008641235114508,
+      "loss": 28.0963,
+      "step": 109
+    },
+    {
+      "epoch": 0.05897629220072045,
+      "grad_norm": 4.709647178649902,
+      "learning_rate": 0.00013761309817915014,
+      "loss": 30.3963,
+      "step": 110
+    },
+    {
+      "epoch": 0.05951244031163609,
+      "grad_norm": 4.416621685028076,
+      "learning_rate": 0.00013514317046243058,
+      "loss": 29.8401,
+      "step": 111
+    },
+    {
+      "epoch": 0.06004858842255173,
+      "grad_norm": 4.569868564605713,
+      "learning_rate": 0.00013267730445456208,
+      "loss": 31.1935,
+      "step": 112
+    },
+    {
+      "epoch": 0.06058473653346737,
+      "grad_norm": 4.648908615112305,
+      "learning_rate": 0.00013021617429868963,
+      "loss": 30.0785,
+      "step": 113
+    },
+    {
+      "epoch": 0.06112088464438301,
+      "grad_norm": 4.735060691833496,
+      "learning_rate": 0.00012776045284322368,
+      "loss": 30.8758,
+      "step": 114
+    },
+    {
+      "epoch": 0.06165703275529865,
+      "grad_norm": 4.528501510620117,
+      "learning_rate": 0.00012531081145788987,
+      "loss": 30.1864,
+      "step": 115
+    },
+    {
+      "epoch": 0.06219318086621429,
+      "grad_norm": 4.81594181060791,
+      "learning_rate": 0.00012286791985018355,
+      "loss": 31.0008,
+      "step": 116
+    },
+    {
+      "epoch": 0.06272932897712993,
+      "grad_norm": 4.743056774139404,
+      "learning_rate": 0.00012043244588227796,
+      "loss": 30.7498,
+      "step": 117
+    },
+    {
+      "epoch": 0.06326547708804557,
+      "grad_norm": 4.997926712036133,
+      "learning_rate": 0.00011800505538843798,
+      "loss": 32.3375,
+      "step": 118
+    },
+    {
+      "epoch": 0.06380162519896121,
+      "grad_norm": 4.894601345062256,
+      "learning_rate": 0.00011558641199298727,
+      "loss": 30.8206,
+      "step": 119
+    },
+    {
+      "epoch": 0.06433777330987685,
+      "grad_norm": 4.590635776519775,
+      "learning_rate": 0.00011317717692888012,
+      "loss": 29.6827,
+      "step": 120
+    },
+    {
+      "epoch": 0.0648739214207925,
+      "grad_norm": 4.70611572265625,
+      "learning_rate": 0.00011077800885692702,
+      "loss": 29.7052,
+      "step": 121
+    },
+    {
+      "epoch": 0.06541006953170814,
+      "grad_norm": 4.513106822967529,
+      "learning_rate": 0.00010838956368572334,
+      "loss": 29.9822,
+      "step": 122
+    },
+    {
+      "epoch": 0.06594621764262378,
+      "grad_norm": 4.913265705108643,
+      "learning_rate": 0.0001060124943923303,
+      "loss": 30.3049,
+      "step": 123
+    },
+    {
+      "epoch": 0.06648236575353941,
+      "grad_norm": 4.700603485107422,
+      "learning_rate": 0.0001036474508437579,
+      "loss": 29.5673,
+      "step": 124
+    },
+    {
+      "epoch": 0.06701851386445505,
+      "grad_norm": 4.874575138092041,
+      "learning_rate": 0.00010129507961929748,
+      "loss": 30.9478,
+      "step": 125
+    },
+    {
+      "epoch": 0.06701851386445505,
+      "eval_loss": 0.9712469577789307,
+      "eval_runtime": 7.0116,
+      "eval_samples_per_second": 7.131,
+      "eval_steps_per_second": 7.131,
+      "step": 125
+    },
+    {
+      "epoch": 0.0675546619753707,
+      "grad_norm": 5.066522598266602,
+      "learning_rate": 9.895602383375353e-05,
+      "loss": 30.832,
+      "step": 126
+    },
+    {
+      "epoch": 0.06809081008628634,
+      "grad_norm": 5.205512046813965,
+      "learning_rate": 9.663092296162251e-05,
+      "loss": 30.9786,
+      "step": 127
+    },
+    {
+      "epoch": 0.06862695819720198,
+      "grad_norm": 4.869602203369141,
+      "learning_rate": 9.432041266226686e-05,
+      "loss": 29.142,
+      "step": 128
+    },
+    {
+      "epoch": 0.06916310630811762,
+      "grad_norm": 4.945410251617432,
+      "learning_rate": 9.202512460613219e-05,
+      "loss": 30.8244,
+      "step": 129
+    },
+    {
+      "epoch": 0.06969925441903325,
+      "grad_norm": 5.29721736907959,
+      "learning_rate": 8.97456863020546e-05,
+      "loss": 32.1392,
+      "step": 130
+    },
+    {
+      "epoch": 0.07023540252994889,
+      "grad_norm": 6.640650749206543,
+      "learning_rate": 8.748272092570646e-05,
+      "loss": 32.1368,
+      "step": 131
+    },
+    {
+      "epoch": 0.07077155064086454,
+      "grad_norm": 5.233391284942627,
+      "learning_rate": 8.523684714922608e-05,
+      "loss": 31.8081,
+      "step": 132
+    },
+    {
+      "epoch": 0.07130769875178018,
+      "grad_norm": 5.334178924560547,
+      "learning_rate": 8.300867897207903e-05,
+      "loss": 32.2981,
+      "step": 133
+    },
+    {
+      "epoch": 0.07184384686269582,
+      "grad_norm": 5.664828777313232,
+      "learning_rate": 8.079882555319684e-05,
+      "loss": 30.6256,
+      "step": 134
+    },
+    {
+      "epoch": 0.07237999497361146,
+      "grad_norm": 5.590938091278076,
+      "learning_rate": 7.860789104443896e-05,
+      "loss": 31.1287,
+      "step": 135
+    },
+    {
+      "epoch": 0.0729161430845271,
+      "grad_norm": 5.823013782501221,
+      "learning_rate": 7.643647442542382e-05,
+      "loss": 31.7947,
+      "step": 136
+    },
+    {
+      "epoch": 0.07345229119544273,
+      "grad_norm": 5.71795129776001,
+      "learning_rate": 7.428516933977347e-05,
+      "loss": 31.4032,
+      "step": 137
+    },
+    {
+      "epoch": 0.07398843930635839,
+      "grad_norm": 6.240416049957275,
+      "learning_rate": 7.215456393281776e-05,
+      "loss": 31.7812,
+      "step": 138
+    },
+    {
+      "epoch": 0.07452458741727402,
+      "grad_norm": 5.8073410987854,
+      "learning_rate": 7.004524069080096e-05,
+      "loss": 31.8186,
+      "step": 139
+    },
+    {
+      "epoch": 0.07506073552818966,
+      "grad_norm": 6.44705057144165,
+      "learning_rate": 6.795777628163599e-05,
+      "loss": 33.4398,
+      "step": 140
+    },
+    {
+      "epoch": 0.0755968836391053,
+      "grad_norm": 6.330421447753906,
+      "learning_rate": 6.58927413972491e-05,
+      "loss": 31.8283,
+      "step": 141
+    },
+    {
+      "epoch": 0.07613303175002094,
+      "grad_norm": 6.591586589813232,
+      "learning_rate": 6.385070059755846e-05,
+      "loss": 33.1672,
+      "step": 142
+    },
+    {
+      "epoch": 0.07666917986093659,
+      "grad_norm": 8.423770904541016,
+      "learning_rate": 6.183221215612904e-05,
+      "loss": 33.6284,
+      "step": 143
+    },
+    {
+      "epoch": 0.07720532797185223,
+      "grad_norm": 9.330811500549316,
+      "learning_rate": 5.983782790754623e-05,
+      "loss": 35.6624,
+      "step": 144
+    },
+    {
+      "epoch": 0.07774147608276787,
+      "grad_norm": 9.339548110961914,
+      "learning_rate": 5.786809309654982e-05,
+      "loss": 34.5517,
+      "step": 145
+    },
+    {
+      "epoch": 0.0782776241936835,
+      "grad_norm": 12.109213829040527,
+      "learning_rate": 5.592354622896944e-05,
+      "loss": 35.4903,
+      "step": 146
+    },
+    {
+      "epoch": 0.07881377230459914,
+      "grad_norm": 11.704776763916016,
+      "learning_rate": 5.40047189245025e-05,
+      "loss": 36.6097,
+      "step": 147
+    },
+    {
+      "epoch": 0.07934992041551478,
+      "grad_norm": 16.527082443237305,
+      "learning_rate": 5.211213577137469e-05,
+      "loss": 33.7769,
+      "step": 148
+    },
+    {
+      "epoch": 0.07988606852643043,
+      "grad_norm": 16.686304092407227,
+      "learning_rate": 5.024631418292274e-05,
+      "loss": 31.3678,
+      "step": 149
+    },
+    {
+      "epoch": 0.08042221663734607,
+      "grad_norm": 35.215946197509766,
+      "learning_rate": 4.840776425613886e-05,
+      "loss": 29.0595,
+      "step": 150
+    },
+    {
+      "epoch": 0.08042221663734607,
+      "eval_loss": 0.9701613783836365,
+      "eval_runtime": 7.002,
+      "eval_samples_per_second": 7.141,
+      "eval_steps_per_second": 7.141,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0881258502632243e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null