Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e1ddf20e43ee498cc289f2bad036aa9eb0970219206ea831c5581b208af2226
 size 144748392

 version https://git-lfs.github.com/spec/v1
+oid sha256:460ce77b418e7f64403d43dffff8d5aee922c9451c1fc9b58a1888cce55f8bbc
 size 144748392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:800b02184e3f2fd61d964ff1a7bb0ea20318449052b1c3837ad59923d32c1d68
 size 73877972

 version https://git-lfs.github.com/spec/v1
+oid sha256:988d0134d663890b0eeb99458d71ca96be9fc17c1ae772234f2651d71911dbe5
 size 73877972

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f7e4d7d2b0c8aa3af21365f6f0926784e1d68c844ac2fbc1cc56728a1f7c21d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:edf20a3d34af62b8eb2d0f4ec84aff799c8013a6c9543f2e58bba92b16054d64
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b782a524e5b57eb023365370accae538ac5e68454bafa53a6dd8b2c51cead56
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ad54995b081fae25638228c5d9c8f38ca277e5c5ad00bc3e49897b543f84405
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5024861097335815,
-  "best_model_checkpoint": "miner_id_24/checkpoint-500",
-  "epoch": 0.10111734668082309,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,84 @@
       "eval_samples_per_second": 25.234,
       "eval_steps_per_second": 6.309,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -428,12 +506,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.2973010092752896e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5015363097190857,
+  "best_model_checkpoint": "miner_id_24/checkpoint-600",
+  "epoch": 0.12134081601698772,
   "eval_steps": 100,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.234,
       "eval_steps_per_second": 6.309,
       "step": 500
+    },
+    {
+      "epoch": 0.10313969361443956,
+      "grad_norm": 0.16003485023975372,
+      "learning_rate": 1.1264792494342857e-05,
+      "loss": 0.6579,
+      "step": 510
+    },
+    {
+      "epoch": 0.10516204054805602,
+      "grad_norm": 0.03965291753411293,
+      "learning_rate": 8.936522714508678e-06,
+      "loss": 0.5382,
+      "step": 520
+    },
+    {
+      "epoch": 0.10718438748167249,
+      "grad_norm": 0.15766242146492004,
+      "learning_rate": 6.866382254766157e-06,
+      "loss": 0.5313,
+      "step": 530
+    },
+    {
+      "epoch": 0.10920673441528894,
+      "grad_norm": 0.24531126022338867,
+      "learning_rate": 5.060239153161872e-06,
+      "loss": 0.4857,
+      "step": 540
+    },
+    {
+      "epoch": 0.1112290813489054,
+      "grad_norm": 0.3989189863204956,
+      "learning_rate": 3.5232131185484076e-06,
+      "loss": 0.219,
+      "step": 550
+    },
+    {
+      "epoch": 0.11325142828252187,
+      "grad_norm": 0.14650988578796387,
+      "learning_rate": 2.259661018213333e-06,
+      "loss": 0.6528,
+      "step": 560
+    },
+    {
+      "epoch": 0.11527377521613832,
+      "grad_norm": 0.07405520975589752,
+      "learning_rate": 1.2731645278655445e-06,
+      "loss": 0.565,
+      "step": 570
+    },
+    {
+      "epoch": 0.1172961221497548,
+      "grad_norm": 0.15201494097709656,
+      "learning_rate": 5.665199789862907e-07,
+      "loss": 0.5497,
+      "step": 580
+    },
+    {
+      "epoch": 0.11931846908337125,
+      "grad_norm": 0.27944013476371765,
+      "learning_rate": 1.4173043232380557e-07,
+      "loss": 0.5393,
+      "step": 590
+    },
+    {
+      "epoch": 0.12134081601698772,
+      "grad_norm": 0.40690985321998596,
+      "learning_rate": 0.0,
+      "loss": 0.1843,
+      "step": 600
+    },
+    {
+      "epoch": 0.12134081601698772,
+      "eval_loss": 0.5015363097190857,
+      "eval_runtime": 329.9939,
+      "eval_samples_per_second": 25.237,
+      "eval_steps_per_second": 6.309,
+      "step": 600
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.7570850026749952e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null