Training in progress, step 1350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c183e3feecff9557142a855b8a1c1f80dc472645ed46c1ba04b79f019729e890
 size 71587936

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7fe2ade1fae4960c22687660aa14a21fe52eebf9909776d0d18bd4b70c1bb93
 size 71587936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1454d56ab95019e30e7a49fc394817b5626081f2105359032d711a3fe55d444d
 size 143272698

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9cc8d8fc1bc3c1cebdc993c69347b59c877a733f0496e5509b158f092ae1dfa
 size 143272698

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9280cad9f00210eea6704ca4f491000410f7eb6d01a6bdbdfaaae8655962fef
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f3451332b5c2cceb627ad5aef7cde0dc7d05ed215f747deb0c67d2971516852
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5970f260f172c657eeef27e6aeae7a30e4709084d1893dbe88e6ca5b72a8ae32
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:05089b5f122589ed831ae5ec00bfa1d74500e2dfd86f0ab8693de9fdc4ff1bb1
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.3738386631011963,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 2.3121387283236996,
   "eval_steps": 150,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -911,6 +911,119 @@
       "eval_samples_per_second": 7.934,
       "eval_steps_per_second": 7.934,
       "step": 1200
     }
   ],
   "logging_steps": 10,
@@ -930,7 +1043,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.017629700003492e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.3738386631011963,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 2.601156069364162,
   "eval_steps": 150,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.934,
       "eval_steps_per_second": 7.934,
       "step": 1200
+    },
+    {
+      "epoch": 2.33140655105973,
+      "grad_norm": 2.493377685546875,
+      "learning_rate": 0.00010982964227975658,
+      "loss": 0.9833,
+      "step": 1210
+    },
+    {
+      "epoch": 2.350674373795761,
+      "grad_norm": 2.9550833702087402,
+      "learning_rate": 0.00010956696662522569,
+      "loss": 1.1317,
+      "step": 1220
+    },
+    {
+      "epoch": 2.3699421965317917,
+      "grad_norm": 3.639575481414795,
+      "learning_rate": 0.00010930235623204551,
+      "loss": 1.1061,
+      "step": 1230
+    },
+    {
+      "epoch": 2.3892100192678227,
+      "grad_norm": 1.6815850734710693,
+      "learning_rate": 0.00010903582197731294,
+      "loss": 0.8695,
+      "step": 1240
+    },
+    {
+      "epoch": 2.4084778420038537,
+      "grad_norm": 2.584642171859741,
+      "learning_rate": 0.00010876737481720722,
+      "loss": 0.9503,
+      "step": 1250
+    },
+    {
+      "epoch": 2.4277456647398843,
+      "grad_norm": 3.372694253921509,
+      "learning_rate": 0.0001084970257865397,
+      "loss": 0.9139,
+      "step": 1260
+    },
+    {
+      "epoch": 2.4470134874759153,
+      "grad_norm": 2.441466808319092,
+      "learning_rate": 0.00010822478599830008,
+      "loss": 0.9879,
+      "step": 1270
+    },
+    {
+      "epoch": 2.4662813102119463,
+      "grad_norm": 2.6547255516052246,
+      "learning_rate": 0.00010795066664319983,
+      "loss": 0.9459,
+      "step": 1280
+    },
+    {
+      "epoch": 2.485549132947977,
+      "grad_norm": 2.409785270690918,
+      "learning_rate": 0.00010767467898921197,
+      "loss": 1.018,
+      "step": 1290
+    },
+    {
+      "epoch": 2.504816955684008,
+      "grad_norm": 2.16044020652771,
+      "learning_rate": 0.00010739683438110797,
+      "loss": 1.0421,
+      "step": 1300
+    },
+    {
+      "epoch": 2.5240847784200384,
+      "grad_norm": 2.5198447704315186,
+      "learning_rate": 0.00010711714423999145,
+      "loss": 0.9385,
+      "step": 1310
+    },
+    {
+      "epoch": 2.5433526011560694,
+      "grad_norm": 4.743651866912842,
+      "learning_rate": 0.00010683562006282861,
+      "loss": 1.1201,
+      "step": 1320
+    },
+    {
+      "epoch": 2.5626204238921,
+      "grad_norm": 3.1418023109436035,
+      "learning_rate": 0.00010655227342197574,
+      "loss": 1.0317,
+      "step": 1330
+    },
+    {
+      "epoch": 2.581888246628131,
+      "grad_norm": 1.665715217590332,
+      "learning_rate": 0.00010626711596470343,
+      "loss": 0.9744,
+      "step": 1340
+    },
+    {
+      "epoch": 2.601156069364162,
+      "grad_norm": 3.1245648860931396,
+      "learning_rate": 0.0001059801594127179,
+      "loss": 1.0085,
+      "step": 1350
+    },
+    {
+      "epoch": 2.601156069364162,
+      "eval_loss": 1.4368656873703003,
+      "eval_runtime": 28.9097,
+      "eval_samples_per_second": 7.99,
+      "eval_steps_per_second": 7.99,
+      "step": 1350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.2681627831868006e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null