Training in progress, step 80, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5ddf2f84301434e699d9c2f35b9d9105c9f4f2d8b564220a9bd359c56851edc
 size 90207248

 version https://git-lfs.github.com/spec/v1
+oid sha256:05a0608a0d108d197d5820e3b216e8d7a09ddb76226408ab8f49c2438e9fb16d
 size 90207248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d469aaf72c006ee445cf4f9b87e5f5cc4be9a600f4e6cccf5710fa260e9f24f8
 size 46057082

 version https://git-lfs.github.com/spec/v1
+oid sha256:761ab0ea9c61d6e62dfbe008243dbfa326d67c392160d21b091f12b6a9a11a62
 size 46057082

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:342d36d482e38fbc36cc0a28040792e6a4257d06cd930a5ace345aee66811294
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:597c452dbb6d2e2055a44445aa9e337aa4085eacd11fcbc7213a5eb6f6055867
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1074437c4c638775a20a86de2e689d1a14d0ff4e4137df2ddeb45e94a776caef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7803647d52fbd7429a283dc695ba7cf653ff890c06d5c50f67d0a09610438889
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.6125953197479248,
-  "best_model_checkpoint": "miner_id_24/checkpoint-70",
-  "epoch": 0.019767031415460642,
   "eval_steps": 10,
-  "global_step": 70,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -561,6 +561,84 @@
       "eval_samples_per_second": 5.591,
       "eval_steps_per_second": 5.591,
       "step": 70
     }
   ],
   "logging_steps": 1,
@@ -589,7 +667,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6851625096314880.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.602448582649231,
+  "best_model_checkpoint": "miner_id_24/checkpoint-80",
+  "epoch": 0.022590893046240734,
   "eval_steps": 10,
+  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.591,
       "eval_steps_per_second": 5.591,
       "step": 70
+    },
+    {
+      "epoch": 0.02004941757853865,
+      "grad_norm": 2.52913761138916,
+      "learning_rate": 0.00019244917309000817,
+      "loss": 1.722,
+      "step": 71
+    },
+    {
+      "epoch": 0.02033180374161666,
+      "grad_norm": 7.770167350769043,
+      "learning_rate": 0.00019220287022200707,
+      "loss": 2.7036,
+      "step": 72
+    },
+    {
+      "epoch": 0.02061418990469467,
+      "grad_norm": 1.7608412504196167,
+      "learning_rate": 0.0001919527772551451,
+      "loss": 1.2768,
+      "step": 73
+    },
+    {
+      "epoch": 0.02089657606777268,
+      "grad_norm": 2.3405442237854004,
+      "learning_rate": 0.00019169890446976454,
+      "loss": 2.2241,
+      "step": 74
+    },
+    {
+      "epoch": 0.02117896223085069,
+      "grad_norm": 2.386042356491089,
+      "learning_rate": 0.00019144126230158127,
+      "loss": 1.3922,
+      "step": 75
+    },
+    {
+      "epoch": 0.021461348393928697,
+      "grad_norm": 2.280710458755493,
+      "learning_rate": 0.0001911798613412557,
+      "loss": 1.608,
+      "step": 76
+    },
+    {
+      "epoch": 0.021743734557006705,
+      "grad_norm": 1.2972298860549927,
+      "learning_rate": 0.0001909147123339575,
+      "loss": 2.1776,
+      "step": 77
+    },
+    {
+      "epoch": 0.022026120720084717,
+      "grad_norm": 1.4631404876708984,
+      "learning_rate": 0.0001906458261789238,
+      "loss": 3.1008,
+      "step": 78
+    },
+    {
+      "epoch": 0.022308506883162726,
+      "grad_norm": 1.0595492124557495,
+      "learning_rate": 0.00019037321392901136,
+      "loss": 1.3511,
+      "step": 79
+    },
+    {
+      "epoch": 0.022590893046240734,
+      "grad_norm": 0.9610152244567871,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 2.1504,
+      "step": 80
+    },
+    {
+      "epoch": 0.022590893046240734,
+      "eval_loss": 1.602448582649231,
+      "eval_runtime": 133.5988,
+      "eval_samples_per_second": 5.584,
+      "eval_steps_per_second": 5.584,
+      "step": 80
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7830428681502720.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null