Training in progress, step 20, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +54 -54
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -21,12 +21,12 @@
   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
-    "gate_proj",
     "down_proj",
-    "o_proj",
-    "up_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "k_proj",
+    "o_proj",
     "v_proj",
     "down_proj",
+    "gate_proj",
+    "q_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:300bba3d6dd656ffbc637166ddc9582343511d1ed18f8daea01b247abefa1028
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:89feb6d63022ddd3de482dcf3de5c0db6df486708c4d52fff2fc19ee33c59848
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82ee47a80d61c28550d9cb135a674aed9b17488ca85967cdaeaff8c9c0b02673
 size 141053442

 version https://git-lfs.github.com/spec/v1
+oid sha256:81ccb341ed882f2c723c525ae0b0406c62da4ec2adb47d107ff3e36199fda1bd
 size 141053442

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90ba7ee426c710877af00b51544bc25223e2159a4009a97f5f8c523a61cf68ad
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73cbf425fe8e079f586aa4701c8340389c70a4705a912add7a2c0a4fa520c8a7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -18,9 +18,9 @@
     {
       "epoch": 0.0007111111111111111,
       "eval_loss": 4.628085136413574,
-      "eval_runtime": 44.4506,
-      "eval_samples_per_second": 53.295,
-      "eval_steps_per_second": 6.682,
       "step": 1
     },
     {
@@ -39,153 +39,153 @@
     },
     {
       "epoch": 0.0028444444444444446,
-      "grad_norm": 10.709222793579102,
       "learning_rate": 2e-05,
       "loss": 4.8927,
       "step": 4
     },
     {
       "epoch": 0.0035555555555555557,
-      "grad_norm": 6.892472267150879,
       "learning_rate": 4e-05,
       "loss": 3.526,
       "step": 5
     },
     {
       "epoch": 0.0035555555555555557,
-      "eval_loss": 4.497377395629883,
-      "eval_runtime": 39.8243,
-      "eval_samples_per_second": 59.486,
-      "eval_steps_per_second": 7.458,
       "step": 5
     },
     {
       "epoch": 0.004266666666666667,
-      "grad_norm": 7.115167617797852,
       "learning_rate": 6e-05,
-      "loss": 3.8025,
       "step": 6
     },
     {
       "epoch": 0.004977777777777778,
-      "grad_norm": 6.403872489929199,
       "learning_rate": 8e-05,
-      "loss": 3.9999,
       "step": 7
     },
     {
       "epoch": 0.005688888888888889,
-      "grad_norm": 5.959023952484131,
       "learning_rate": 0.0001,
-      "loss": 3.8508,
       "step": 8
     },
     {
       "epoch": 0.0064,
-      "grad_norm": 4.489181041717529,
       "learning_rate": 0.00012,
-      "loss": 3.2468,
       "step": 9
     },
     {
       "epoch": 0.0071111111111111115,
-      "grad_norm": 4.083322525024414,
       "learning_rate": 0.00014,
-      "loss": 3.4724,
       "step": 10
     },
     {
       "epoch": 0.0071111111111111115,
-      "eval_loss": 3.18164324760437,
-      "eval_runtime": 37.2748,
-      "eval_samples_per_second": 63.555,
-      "eval_steps_per_second": 7.968,
       "step": 10
     },
     {
       "epoch": 0.007822222222222222,
-      "grad_norm": 3.44504714012146,
       "learning_rate": 0.00016,
-      "loss": 2.8699,
       "step": 11
     },
     {
       "epoch": 0.008533333333333334,
-      "grad_norm": 3.153762102127075,
       "learning_rate": 0.00018,
-      "loss": 2.9342,
       "step": 12
     },
     {
       "epoch": 0.009244444444444444,
-      "grad_norm": 2.8073348999023438,
       "learning_rate": 0.0002,
-      "loss": 2.705,
       "step": 13
     },
     {
       "epoch": 0.009955555555555556,
-      "grad_norm": 3.4868123531341553,
       "learning_rate": 0.00019510565162951537,
-      "loss": 2.9463,
       "step": 14
     },
     {
       "epoch": 0.010666666666666666,
-      "grad_norm": 4.070212364196777,
       "learning_rate": 0.00018090169943749476,
-      "loss": 2.9741,
       "step": 15
     },
     {
       "epoch": 0.010666666666666666,
-      "eval_loss": 2.8233630657196045,
-      "eval_runtime": 37.3991,
-      "eval_samples_per_second": 63.344,
-      "eval_steps_per_second": 7.941,
       "step": 15
     },
     {
       "epoch": 0.011377777777777778,
-      "grad_norm": 3.4135398864746094,
       "learning_rate": 0.00015877852522924732,
-      "loss": 2.9531,
       "step": 16
     },
     {
       "epoch": 0.012088888888888889,
-      "grad_norm": 3.347476005554199,
       "learning_rate": 0.00013090169943749476,
-      "loss": 2.9862,
       "step": 17
     },
     {
       "epoch": 0.0128,
-      "grad_norm": 3.600923538208008,
-      "learning_rate": 0.0001,
-      "loss": 2.8065,
       "step": 18
     },
     {
       "epoch": 0.013511111111111111,
-      "grad_norm": 3.2915897369384766,
-      "learning_rate": 6.909830056250527e-05,
-      "loss": 2.9556,
       "step": 19
     },
     {
       "epoch": 0.014222222222222223,
-      "grad_norm": 3.3658218383789062,
-      "learning_rate": 4.12214747707527e-05,
-      "loss": 2.9325,
       "step": 20
     },
     {
       "epoch": 0.014222222222222223,
-      "eval_loss": 2.736981153488159,
-      "eval_runtime": 39.7772,
-      "eval_samples_per_second": 59.557,
-      "eval_steps_per_second": 7.467,
       "step": 20
     }
   ],

     {
       "epoch": 0.0007111111111111111,
       "eval_loss": 4.628085136413574,
+      "eval_runtime": 44.9571,
+      "eval_samples_per_second": 52.695,
+      "eval_steps_per_second": 6.606,
       "step": 1
     },
     {
     },
     {
       "epoch": 0.0028444444444444446,
+      "grad_norm": 10.534650802612305,
       "learning_rate": 2e-05,
       "loss": 4.8927,
       "step": 4
     },
     {
       "epoch": 0.0035555555555555557,
+      "grad_norm": 6.7862019538879395,
       "learning_rate": 4e-05,
       "loss": 3.526,
       "step": 5
     },
     {
       "epoch": 0.0035555555555555557,
+      "eval_loss": 4.499617576599121,
+      "eval_runtime": 39.947,
+      "eval_samples_per_second": 59.304,
+      "eval_steps_per_second": 7.435,
       "step": 5
     },
     {
       "epoch": 0.004266666666666667,
+      "grad_norm": 7.032112121582031,
       "learning_rate": 6e-05,
+      "loss": 3.8045,
       "step": 6
     },
     {
       "epoch": 0.004977777777777778,
+      "grad_norm": 6.311283111572266,
       "learning_rate": 8e-05,
+      "loss": 4.0029,
       "step": 7
     },
     {
       "epoch": 0.005688888888888889,
+      "grad_norm": 5.887501239776611,
       "learning_rate": 0.0001,
+      "loss": 3.8592,
       "step": 8
     },
     {
       "epoch": 0.0064,
+      "grad_norm": 4.442018508911133,
       "learning_rate": 0.00012,
+      "loss": 3.252,
       "step": 9
     },
     {
       "epoch": 0.0071111111111111115,
+      "grad_norm": 4.024985313415527,
       "learning_rate": 0.00014,
+      "loss": 3.4748,
       "step": 10
     },
     {
       "epoch": 0.0071111111111111115,
+      "eval_loss": 3.1893694400787354,
+      "eval_runtime": 37.4378,
+      "eval_samples_per_second": 63.278,
+      "eval_steps_per_second": 7.933,
       "step": 10
     },
     {
       "epoch": 0.007822222222222222,
+      "grad_norm": 3.4165191650390625,
       "learning_rate": 0.00016,
+      "loss": 2.8739,
       "step": 11
     },
     {
       "epoch": 0.008533333333333334,
+      "grad_norm": 3.099381446838379,
       "learning_rate": 0.00018,
+      "loss": 2.9354,
       "step": 12
     },
     {
       "epoch": 0.009244444444444444,
+      "grad_norm": 2.8003978729248047,
       "learning_rate": 0.0002,
+      "loss": 2.7117,
       "step": 13
     },
     {
       "epoch": 0.009955555555555556,
+      "grad_norm": 3.4195311069488525,
       "learning_rate": 0.00019510565162951537,
+      "loss": 2.9435,
       "step": 14
     },
     {
       "epoch": 0.010666666666666666,
+      "grad_norm": 4.078439712524414,
       "learning_rate": 0.00018090169943749476,
+      "loss": 2.9743,
       "step": 15
     },
     {
       "epoch": 0.010666666666666666,
+      "eval_loss": 2.8235130310058594,
+      "eval_runtime": 37.5377,
+      "eval_samples_per_second": 63.11,
+      "eval_steps_per_second": 7.912,
       "step": 15
     },
     {
       "epoch": 0.011377777777777778,
+      "grad_norm": 3.4342968463897705,
       "learning_rate": 0.00015877852522924732,
+      "loss": 2.9536,
       "step": 16
     },
     {
       "epoch": 0.012088888888888889,
+      "grad_norm": 3.3408138751983643,
       "learning_rate": 0.00013090169943749476,
+      "loss": 2.9875,
       "step": 17
     },
     {
       "epoch": 0.0128,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 2.8077,
       "step": 18
     },
     {
       "epoch": 0.013511111111111111,
+      "grad_norm": 3.445453643798828,
+      "learning_rate": 0.0001,
+      "loss": 2.9706,
       "step": 19
     },
     {
       "epoch": 0.014222222222222223,
+      "grad_norm": 3.3325419425964355,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 2.9389,
       "step": 20
     },
     {
       "epoch": 0.014222222222222223,
+      "eval_loss": 2.74452543258667,
+      "eval_runtime": 39.7359,
+      "eval_samples_per_second": 59.619,
+      "eval_steps_per_second": 7.474,
       "step": 20
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86fc0fae7af6c964d28cbdfdf0241b208b3b6f862c8f1df4ccaad6f6a5f33100
 size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:8141418bd3841ca1203dbe43091f9f4c2e7bd8a0fcec4b0acaf1e81043f1ff89
 size 6712