Training in progress, step 10, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +2 -2
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +33 -33
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "up_proj",
     "down_proj",
     "k_proj",
     "gate_proj",
     "v_proj",
     "o_proj"

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "k_proj",
+    "q_proj",
+    "up_proj",
     "gate_proj",
     "v_proj",
     "o_proj"

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4e8347387ca1f5c31108be9abce77f58ec77adc2c5a42fed2fe83163370b3cb
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:167ee51607de04decae2351206046bb4d52e167c75a1a7fd1733bfa03afb38b2
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96be9b768a79571934fcb49995104fe31138fac4e1df8b6e767bcdd60e9aa812
 size 168037178

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ef8da989cf6d6ebbf61813cd6292152a60bba9f09b0687a6070dd4025b05291
 size 168037178

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 9.066799646394814e-05,
-      "grad_norm": 0.9271838068962097,
       "learning_rate": 2e-05,
       "loss": 0.9464,
       "step": 1
@@ -18,96 +18,96 @@
     {
       "epoch": 9.066799646394814e-05,
       "eval_loss": 1.186500906944275,
-      "eval_runtime": 686.4849,
-      "eval_samples_per_second": 3.382,
-      "eval_steps_per_second": 3.382,
       "step": 1
     },
     {
       "epoch": 0.0001813359929278963,
-      "grad_norm": 1.2241743803024292,
       "learning_rate": 4e-05,
       "loss": 1.2997,
       "step": 2
     },
     {
       "epoch": 0.00027200398939184443,
-      "grad_norm": 0.9556981921195984,
       "learning_rate": 6e-05,
-      "loss": 0.9844,
       "step": 3
     },
     {
       "epoch": 0.00027200398939184443,
-      "eval_loss": 1.15445077419281,
-      "eval_runtime": 696.5028,
-      "eval_samples_per_second": 3.334,
-      "eval_steps_per_second": 3.334,
       "step": 3
     },
     {
       "epoch": 0.0003626719858557926,
-      "grad_norm": 1.1332135200500488,
       "learning_rate": 8e-05,
-      "loss": 0.898,
       "step": 4
     },
     {
       "epoch": 0.00045333998231974066,
-      "grad_norm": 0.9428524374961853,
       "learning_rate": 0.0001,
-      "loss": 1.0153,
       "step": 5
     },
     {
       "epoch": 0.0005440079787836889,
-      "grad_norm": 1.2704607248306274,
       "learning_rate": 0.00012,
-      "loss": 1.2344,
       "step": 6
     },
     {
       "epoch": 0.0005440079787836889,
-      "eval_loss": 0.9757581353187561,
-      "eval_runtime": 696.5481,
-      "eval_samples_per_second": 3.334,
-      "eval_steps_per_second": 3.334,
       "step": 6
     },
     {
       "epoch": 0.000634675975247637,
-      "grad_norm": 0.9720798134803772,
       "learning_rate": 0.00014,
-      "loss": 0.8624,
       "step": 7
     },
     {
       "epoch": 0.0007253439717115851,
-      "grad_norm": 0.9837450981140137,
       "learning_rate": 0.00016,
-      "loss": 0.8386,
       "step": 8
     },
     {
       "epoch": 0.0008160119681755333,
-      "grad_norm": 0.9814285039901733,
       "learning_rate": 0.00018,
-      "loss": 0.7856,
       "step": 9
     },
     {
       "epoch": 0.0008160119681755333,
-      "eval_loss": 0.7050834894180298,
-      "eval_runtime": 696.7156,
-      "eval_samples_per_second": 3.333,
-      "eval_steps_per_second": 3.333,
       "step": 9
     },
     {
       "epoch": 0.0009066799646394813,
-      "grad_norm": 1.1297619342803955,
       "learning_rate": 0.0002,
-      "loss": 0.7284,
       "step": 10
     }
   ],

   "log_history": [
     {
       "epoch": 9.066799646394814e-05,
+      "grad_norm": 0.9751902222633362,
       "learning_rate": 2e-05,
       "loss": 0.9464,
       "step": 1
     {
       "epoch": 9.066799646394814e-05,
       "eval_loss": 1.186500906944275,
+      "eval_runtime": 698.9559,
+      "eval_samples_per_second": 3.322,
+      "eval_steps_per_second": 3.322,
       "step": 1
     },
     {
       "epoch": 0.0001813359929278963,
+      "grad_norm": 1.2880979776382446,
       "learning_rate": 4e-05,
       "loss": 1.2997,
       "step": 2
     },
     {
       "epoch": 0.00027200398939184443,
+      "grad_norm": 1.0185903310775757,
       "learning_rate": 6e-05,
+      "loss": 0.984,
       "step": 3
     },
     {
       "epoch": 0.00027200398939184443,
+      "eval_loss": 1.152563452720642,
+      "eval_runtime": 698.4811,
+      "eval_samples_per_second": 3.324,
+      "eval_steps_per_second": 3.324,
       "step": 3
     },
     {
       "epoch": 0.0003626719858557926,
+      "grad_norm": 1.2076629400253296,
       "learning_rate": 8e-05,
+      "loss": 0.8964,
       "step": 4
     },
     {
       "epoch": 0.00045333998231974066,
+      "grad_norm": 0.9857297539710999,
       "learning_rate": 0.0001,
+      "loss": 1.0122,
       "step": 5
     },
     {
       "epoch": 0.0005440079787836889,
+      "grad_norm": 1.3203555345535278,
       "learning_rate": 0.00012,
+      "loss": 1.2303,
       "step": 6
     },
     {
       "epoch": 0.0005440079787836889,
+      "eval_loss": 0.9730465412139893,
+      "eval_runtime": 698.6326,
+      "eval_samples_per_second": 3.324,
+      "eval_steps_per_second": 3.324,
       "step": 6
     },
     {
       "epoch": 0.000634675975247637,
+      "grad_norm": 0.9987221360206604,
       "learning_rate": 0.00014,
+      "loss": 0.8601,
       "step": 7
     },
     {
       "epoch": 0.0007253439717115851,
+      "grad_norm": 0.9973732233047485,
       "learning_rate": 0.00016,
+      "loss": 0.8366,
       "step": 8
     },
     {
       "epoch": 0.0008160119681755333,
+      "grad_norm": 0.9958239197731018,
       "learning_rate": 0.00018,
+      "loss": 0.7867,
       "step": 9
     },
     {
       "epoch": 0.0008160119681755333,
+      "eval_loss": 0.7072901725769043,
+      "eval_runtime": 658.2123,
+      "eval_samples_per_second": 3.528,
+      "eval_steps_per_second": 3.528,
       "step": 9
     },
     {
       "epoch": 0.0009066799646394813,
+      "grad_norm": 1.154129981994629,
       "learning_rate": 0.0002,
+      "loss": 0.7288,
       "step": 10
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:448d24573bb13a6ed5164f5a35136f3b9448814fdb0c7185b9ac3c8c3b410d35
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c9dd5f6d8c65108bc5d1f232cf8e95201965236ce8bbfa602cec95e1564ca44
 size 6776