Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0aecf754753f7e2d2663547f216d089130a563e024c55a27ecb16ac9e612176
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0ccbd296bbcdf1eac4282449f29c8c4f3eddea4ed1255f4a12ad84ff94158cc
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cafe058ac36789b6155af2a0bc8bebe4c22519d81f78e3255ef1a685763ce0df
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:eddc04492c4d0af956f357b7876733b6e9cf93b0cdd7f46ca2c778ccc7e636b6
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2c06dfbb84f47e0c47b316282e2be0bfa1ee5ffaa351a9e6cc9fa8c324dc7fa
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4b206f687050ce79ca04142d467c49d91c05a1c74efc4349d38c311a448261e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58a49108293edbb6877a3e9ba0d52e802c533bf4a33edff9df48f4e84b4fa057
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca2ad0660f4430a149f84300447ae0a59e68e8b51799a2e3848afe158aff8281
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.8751963376998901,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.08456659619450317,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 16.74,
       "eval_steps_per_second": 4.185,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.78948348952576e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5792856216430664,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.16913319238900634,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.74,
       "eval_steps_per_second": 4.185,
       "step": 25
+    },
+    {
+      "epoch": 0.0879492600422833,
+      "grad_norm": 1.7100105285644531,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.9201,
+      "step": 26
+    },
+    {
+      "epoch": 0.09133192389006342,
+      "grad_norm": 1.7522183656692505,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 1.8164,
+      "step": 27
+    },
+    {
+      "epoch": 0.09471458773784355,
+      "grad_norm": 1.6645402908325195,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 1.8408,
+      "step": 28
+    },
+    {
+      "epoch": 0.09809725158562368,
+      "grad_norm": 1.6604903936386108,
+      "learning_rate": 1.45e-05,
+      "loss": 1.7671,
+      "step": 29
+    },
+    {
+      "epoch": 0.1014799154334038,
+      "grad_norm": 1.7911064624786377,
+      "learning_rate": 1.5e-05,
+      "loss": 1.757,
+      "step": 30
+    },
+    {
+      "epoch": 0.10486257928118393,
+      "grad_norm": 1.8748377561569214,
+      "learning_rate": 1.55e-05,
+      "loss": 1.752,
+      "step": 31
+    },
+    {
+      "epoch": 0.10824524312896405,
+      "grad_norm": 2.364097833633423,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.7415,
+      "step": 32
+    },
+    {
+      "epoch": 0.11162790697674418,
+      "grad_norm": 2.2695372104644775,
+      "learning_rate": 1.65e-05,
+      "loss": 1.7044,
+      "step": 33
+    },
+    {
+      "epoch": 0.11501057082452432,
+      "grad_norm": 1.5664398670196533,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 1.7009,
+      "step": 34
+    },
+    {
+      "epoch": 0.11839323467230443,
+      "grad_norm": 1.7595115900039673,
+      "learning_rate": 1.75e-05,
+      "loss": 1.6647,
+      "step": 35
+    },
+    {
+      "epoch": 0.12177589852008457,
+      "grad_norm": 1.6659307479858398,
+      "learning_rate": 1.8e-05,
+      "loss": 1.6732,
+      "step": 36
+    },
+    {
+      "epoch": 0.12515856236786468,
+      "grad_norm": 1.1403136253356934,
+      "learning_rate": 1.85e-05,
+      "loss": 1.6259,
+      "step": 37
+    },
+    {
+      "epoch": 0.12854122621564482,
+      "grad_norm": 1.0617878437042236,
+      "learning_rate": 1.9e-05,
+      "loss": 1.62,
+      "step": 38
+    },
+    {
+      "epoch": 0.13192389006342495,
+      "grad_norm": 0.9418096542358398,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 1.5283,
+      "step": 39
+    },
+    {
+      "epoch": 0.13530655391120508,
+      "grad_norm": 0.9303457736968994,
+      "learning_rate": 2e-05,
+      "loss": 1.5858,
+      "step": 40
+    },
+    {
+      "epoch": 0.1386892177589852,
+      "grad_norm": 0.8767881989479065,
+      "learning_rate": 2.05e-05,
+      "loss": 1.6119,
+      "step": 41
+    },
+    {
+      "epoch": 0.14207188160676532,
+      "grad_norm": 0.9987740516662598,
+      "learning_rate": 2.1e-05,
+      "loss": 1.6721,
+      "step": 42
+    },
+    {
+      "epoch": 0.14545454545454545,
+      "grad_norm": 0.8637537360191345,
+      "learning_rate": 2.15e-05,
+      "loss": 1.6756,
+      "step": 43
+    },
+    {
+      "epoch": 0.14883720930232558,
+      "grad_norm": 0.8661416172981262,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 1.5943,
+      "step": 44
+    },
+    {
+      "epoch": 0.1522198731501057,
+      "grad_norm": 0.8084216117858887,
+      "learning_rate": 2.25e-05,
+      "loss": 1.612,
+      "step": 45
+    },
+    {
+      "epoch": 0.15560253699788584,
+      "grad_norm": 0.8370161056518555,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 1.5512,
+      "step": 46
+    },
+    {
+      "epoch": 0.15898520084566597,
+      "grad_norm": 0.911957859992981,
+      "learning_rate": 2.35e-05,
+      "loss": 1.6142,
+      "step": 47
+    },
+    {
+      "epoch": 0.16236786469344608,
+      "grad_norm": 0.9367987513542175,
+      "learning_rate": 2.4e-05,
+      "loss": 1.5459,
+      "step": 48
+    },
+    {
+      "epoch": 0.1657505285412262,
+      "grad_norm": 0.8949148654937744,
+      "learning_rate": 2.45e-05,
+      "loss": 1.6109,
+      "step": 49
+    },
+    {
+      "epoch": 0.16913319238900634,
+      "grad_norm": 0.8378682136535645,
+      "learning_rate": 2.5e-05,
+      "loss": 1.5156,
+      "step": 50
+    },
+    {
+      "epoch": 0.16913319238900634,
+      "eval_loss": 1.5792856216430664,
+      "eval_runtime": 59.5283,
+      "eval_samples_per_second": 16.732,
+      "eval_steps_per_second": 4.183,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.565359742517248e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null