Training in progress, step 30, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -29
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "c_fc",
-    "v_proj",
     "c_proj",
     "out_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "c_proj",
+    "v_proj",
+    "c_fc",
     "out_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:917dd7b9a432fbcfb37c6d8222048bd176f4e8cd91e8a5f1f51a4ca4668c4f20
 size 28350504

 version https://git-lfs.github.com/spec/v1
+oid sha256:06dc73c34e92bbffe33fb3d300f040f2d44bb34b11714216152a700860c95de0
 size 28350504

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:047b493fa09382d21be0c6312c92a613318d3c7973f9a9c77ba08482426af2db
 size 56864954

 version https://git-lfs.github.com/spec/v1
+oid sha256:5419ac0f2ed5d036023a8f9976f34ada67ec923d7e4e8679d93b2444e0be84a6
 size 56864954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddcb05fae2a35978ff88126cfd17ad486d56d8e5710d8e0620b985f794a97dc2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:87ac1a33f136aa1f47e5b25f5555000c65160f91613dd9094dd725f4ba48f816
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef527702b4e2147a500c0b29beb26751d245ebb60338b3910b449b6549ac4d59
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2def2cd24154d8cecbaa07c36ae27e5ebb9b7273a78abfea27aa67c480e4ae2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02374356944994064,
   "eval_steps": 5,
-  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,69 +11,128 @@
     {
       "epoch": 0.0015829046299960427,
       "eval_loss": 3.308307647705078,
-      "eval_runtime": 29.2827,
-      "eval_samples_per_second": 9.118,
-      "eval_steps_per_second": 4.576,
       "step": 1
     },
     {
       "epoch": 0.004748713889988128,
-      "grad_norm": 1.196844220161438,
       "learning_rate": 4e-05,
-      "loss": 12.8218,
       "step": 3
     },
     {
       "epoch": 0.007914523149980214,
-      "eval_loss": 3.297595500946045,
-      "eval_runtime": 29.4236,
-      "eval_samples_per_second": 9.074,
-      "eval_steps_per_second": 4.554,
       "step": 5
     },
     {
       "epoch": 0.009497427779976256,
-      "grad_norm": 1.2031594514846802,
       "learning_rate": 8e-05,
-      "loss": 13.3919,
       "step": 6
     },
     {
       "epoch": 0.014246141669964385,
-      "grad_norm": 1.380180835723877,
       "learning_rate": 0.00012,
-      "loss": 12.9002,
       "step": 9
     },
     {
       "epoch": 0.015829046299960427,
-      "eval_loss": 3.203984022140503,
-      "eval_runtime": 29.468,
-      "eval_samples_per_second": 9.061,
-      "eval_steps_per_second": 4.547,
       "step": 10
     },
     {
       "epoch": 0.018994855559952513,
-      "grad_norm": 1.636251449584961,
       "learning_rate": 0.00016,
-      "loss": 12.8921,
       "step": 12
     },
     {
       "epoch": 0.02374356944994064,
-      "grad_norm": 2.213144063949585,
       "learning_rate": 0.0002,
-      "loss": 12.4253,
       "step": 15
     },
     {
       "epoch": 0.02374356944994064,
-      "eval_loss": 2.9763691425323486,
-      "eval_runtime": 28.8362,
-      "eval_samples_per_second": 9.259,
-      "eval_steps_per_second": 4.647,
       "step": 15
     }
   ],
   "logging_steps": 3,
@@ -88,12 +147,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 896188211527680.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04748713889988128,
   "eval_steps": 5,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.0015829046299960427,
       "eval_loss": 3.308307647705078,
+      "eval_runtime": 28.0816,
+      "eval_samples_per_second": 9.508,
+      "eval_steps_per_second": 4.772,
       "step": 1
     },
     {
       "epoch": 0.004748713889988128,
+      "grad_norm": 1.2312108278274536,
       "learning_rate": 4e-05,
+      "loss": 12.8177,
       "step": 3
     },
     {
       "epoch": 0.007914523149980214,
+      "eval_loss": 3.295578718185425,
+      "eval_runtime": 29.4423,
+      "eval_samples_per_second": 9.069,
+      "eval_steps_per_second": 4.551,
       "step": 5
     },
     {
       "epoch": 0.009497427779976256,
+      "grad_norm": 1.2333104610443115,
       "learning_rate": 8e-05,
+      "loss": 13.3906,
       "step": 6
     },
     {
       "epoch": 0.014246141669964385,
+      "grad_norm": 1.3805502653121948,
       "learning_rate": 0.00012,
+      "loss": 12.8913,
       "step": 9
     },
     {
       "epoch": 0.015829046299960427,
+      "eval_loss": 3.2013204097747803,
+      "eval_runtime": 29.4943,
+      "eval_samples_per_second": 9.053,
+      "eval_steps_per_second": 4.543,
       "step": 10
     },
     {
       "epoch": 0.018994855559952513,
+      "grad_norm": 1.6501611471176147,
       "learning_rate": 0.00016,
+      "loss": 12.8777,
       "step": 12
     },
     {
       "epoch": 0.02374356944994064,
+      "grad_norm": 2.22099232673645,
       "learning_rate": 0.0002,
+      "loss": 12.4127,
       "step": 15
     },
     {
       "epoch": 0.02374356944994064,
+      "eval_loss": 2.9730358123779297,
+      "eval_runtime": 29.2779,
+      "eval_samples_per_second": 9.12,
+      "eval_steps_per_second": 4.577,
       "step": 15
+    },
+    {
+      "epoch": 0.02849228333992877,
+      "grad_norm": 2.912126302719116,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 12.2322,
+      "step": 18
+    },
+    {
+      "epoch": 0.031658092599920855,
+      "eval_loss": 2.8512351512908936,
+      "eval_runtime": 29.274,
+      "eval_samples_per_second": 9.121,
+      "eval_steps_per_second": 4.577,
+      "step": 20
+    },
+    {
+      "epoch": 0.0332409972299169,
+      "grad_norm": 3.5809288024902344,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 11.1144,
+      "step": 21
+    },
+    {
+      "epoch": 0.037989711119905026,
+      "grad_norm": 3.8274831771850586,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 11.088,
+      "step": 24
+    },
+    {
+      "epoch": 0.03957261574990107,
+      "eval_loss": 2.7848706245422363,
+      "eval_runtime": 29.2305,
+      "eval_samples_per_second": 9.134,
+      "eval_steps_per_second": 4.584,
+      "step": 25
+    },
+    {
+      "epoch": 0.04273842500989315,
+      "grad_norm": 3.4378135204315186,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 11.3866,
+      "step": 27
+    },
+    {
+      "epoch": 0.04748713889988128,
+      "grad_norm": 3.47043514251709,
+      "learning_rate": 0.0,
+      "loss": 10.9971,
+      "step": 30
+    },
+    {
+      "epoch": 0.04748713889988128,
+      "eval_loss": 2.7654731273651123,
+      "eval_runtime": 29.4851,
+      "eval_samples_per_second": 9.055,
+      "eval_steps_per_second": 4.545,
+      "step": 30
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1792376423055360.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:359961b657b2f05ead8b51b2220854f1111e0ff5c03573368931439f86d9dd9c
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:adfb4580706a048160375e8624fa9a7f84d6a41b48e40f92269e05bf72810723
 size 6776