Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a08aad0964465b6c894a2b4f511a403fb23c1cc45fddb7a52c41cd35a6ed1a19
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b256205f69c17896f7f9088f79d8fd985882b751e29b2c896974443db092d65
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:454ed2f9ecea121051a31235c9443d6c5f9b0c6f11e9b81d40a147ce8137dc1f
-size 25986148

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a25e6358803c0b24daaad369b1758895f466ad8f6ec14b97259bc4e1a4fba2a
+size 25986468

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0e895b4025149487d8872b23ad6aa9bf3f8665e5de07548a8f23f4c1644b6ee
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e48a86cb1ec4353aec4ebfc4d9626489ea8f8c134d8c68f77e6325eeca7793e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51dce63f1f986f2a2c8c65cc81461308842cff62f1990d3ffd57c28c8cfce8b4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8a78bab0e108d3c186898a780257121eba92c7434d580326e33b855003a3757
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2323858737945557,
-  "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 0.03994567388351841,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,49 @@
       "eval_samples_per_second": 53.332,
       "eval_steps_per_second": 13.338,
       "step": 250
     }
   ],
   "logging_steps": 10,
@@ -258,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6986840540184576.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2163466215133667,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.047934808660222095,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 53.332,
       "eval_steps_per_second": 13.338,
       "step": 250
+    },
+    {
+      "epoch": 0.04154350083885915,
+      "grad_norm": 0.3916065990924835,
+      "learning_rate": 0.00011708001710637128,
+      "loss": 1.4353,
+      "step": 260
+    },
+    {
+      "epoch": 0.04314132779419989,
+      "grad_norm": 0.47572290897369385,
+      "learning_rate": 0.00010969934665046512,
+      "loss": 1.3617,
+      "step": 270
+    },
+    {
+      "epoch": 0.04473915474954063,
+      "grad_norm": 0.5964052081108093,
+      "learning_rate": 0.00010230065334953492,
+      "loss": 1.2104,
+      "step": 280
+    },
+    {
+      "epoch": 0.04633698170488136,
+      "grad_norm": 0.7098691463470459,
+      "learning_rate": 9.491998289362875e-05,
+      "loss": 1.0909,
+      "step": 290
+    },
+    {
+      "epoch": 0.047934808660222095,
+      "grad_norm": 1.1634002923965454,
+      "learning_rate": 8.759329316730539e-05,
+      "loss": 0.9742,
+      "step": 300
+    },
+    {
+      "epoch": 0.047934808660222095,
+      "eval_loss": 1.2163466215133667,
+      "eval_runtime": 49.1098,
+      "eval_samples_per_second": 53.655,
+      "eval_steps_per_second": 13.419,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8402222601732096.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null