Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +34 -34
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "revision": null,
   "target_modules": [
     "up_proj",
-    "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "revision": null,
   "target_modules": [
     "up_proj",
+    "down_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aea01fe0dd2af8bf4b4d060ddad5d472a16722fc394fcb4b38e130025fbdd9a6
 size 113271504

 version https://git-lfs.github.com/spec/v1
+oid sha256:00da2a3654bb68a833f9e71b25793cd39c7f2e4a25affca2f5b8dd25887fd704
 size 113271504

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6dfd7167bc860806832aeae1caf4b2e1b91ea75533b6f21aba040240609424c
 size 226609018

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea01af1273ff7315c262dad351f1b49372552a82f992952eaabf76b1ccdebc43
 size 226609018

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8be5a9156a087de7426b7455c1cfa58b09ad84e7aaa003d8794e888b3cdd82ad
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:75634a2d2aafc3822491cb27b09c1d537881d6adb80e81babb7515b20c6d38af
 size 14244

trainer_state.json CHANGED Viewed

@@ -11,199 +11,199 @@
     {
       "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.0684,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.2351,
       "step": 4
     },
     {
       "epoch": 0.09,
       "learning_rate": 2e-05,
-      "loss": 1.0218,
       "step": 6
     },
     {
       "epoch": 0.12,
       "learning_rate": 2e-05,
-      "loss": 0.944,
       "step": 8
     },
     {
       "epoch": 0.15,
       "learning_rate": 2e-05,
-      "loss": 1.0419,
       "step": 10
     },
     {
       "epoch": 0.18,
       "learning_rate": 2e-05,
-      "loss": 1.0514,
       "step": 12
     },
     {
       "epoch": 0.21,
       "learning_rate": 2e-05,
-      "loss": 1.4716,
       "step": 14
     },
     {
       "epoch": 0.24,
       "learning_rate": 2e-05,
-      "loss": 1.9171,
       "step": 16
     },
     {
       "epoch": 0.27,
       "learning_rate": 2e-05,
-      "loss": 1.8928,
       "step": 18
     },
     {
       "epoch": 0.3,
       "learning_rate": 2e-05,
-      "loss": 1.0043,
       "step": 20
     },
     {
       "epoch": 0.33,
       "learning_rate": 2e-05,
-      "loss": 0.9942,
       "step": 22
     },
     {
       "epoch": 0.36,
       "learning_rate": 2e-05,
-      "loss": 1.0396,
       "step": 24
     },
     {
       "epoch": 0.39,
       "learning_rate": 2e-05,
-      "loss": 0.7804,
       "step": 26
     },
     {
       "epoch": 0.42,
       "learning_rate": 2e-05,
-      "loss": 1.0986,
       "step": 28
     },
     {
       "epoch": 0.45,
       "learning_rate": 2e-05,
-      "loss": 1.3254,
       "step": 30
     },
     {
       "epoch": 0.48,
       "learning_rate": 2e-05,
-      "loss": 1.4412,
       "step": 32
     },
     {
       "epoch": 0.51,
       "learning_rate": 2e-05,
-      "loss": 1.533,
       "step": 34
     },
     {
       "epoch": 0.54,
       "learning_rate": 2e-05,
-      "loss": 1.2709,
       "step": 36
     },
     {
       "epoch": 0.57,
       "learning_rate": 2e-05,
-      "loss": 0.8853,
       "step": 38
     },
     {
       "epoch": 0.6,
       "learning_rate": 2e-05,
-      "loss": 1.0464,
       "step": 40
     },
     {
       "epoch": 0.63,
       "learning_rate": 2e-05,
-      "loss": 0.8004,
       "step": 42
     },
     {
       "epoch": 0.66,
       "learning_rate": 2e-05,
-      "loss": 0.8526,
       "step": 44
     },
     {
       "epoch": 0.69,
       "learning_rate": 2e-05,
-      "loss": 1.1846,
       "step": 46
     },
     {
       "epoch": 0.72,
       "learning_rate": 2e-05,
-      "loss": 1.3307,
       "step": 48
     },
     {
       "epoch": 0.75,
       "learning_rate": 2e-05,
-      "loss": 1.9532,
       "step": 50
     },
     {
       "epoch": 0.78,
       "learning_rate": 2e-05,
-      "loss": 0.9404,
       "step": 52
     },
     {
       "epoch": 0.81,
       "learning_rate": 2e-05,
-      "loss": 0.9675,
       "step": 54
     },
     {
       "epoch": 0.84,
       "learning_rate": 2e-05,
-      "loss": 0.8579,
       "step": 56
     },
     {
       "epoch": 0.86,
       "learning_rate": 2e-05,
-      "loss": 0.9398,
       "step": 58
     },
     {
       "epoch": 0.89,
       "learning_rate": 2e-05,
-      "loss": 1.045,
       "step": 60
     },
     {
       "epoch": 0.92,
       "learning_rate": 2e-05,
-      "loss": 1.1489,
       "step": 62
     },
     {
       "epoch": 0.95,
       "learning_rate": 2e-05,
-      "loss": 1.1677,
       "step": 64
     },
     {
       "epoch": 0.98,
       "learning_rate": 2e-05,
-      "loss": 1.1349,
       "step": 66
     }
   ],
@@ -212,7 +212,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.539821361058611e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.03,
       "learning_rate": 2e-05,
+      "loss": 1.9981,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 2e-05,
+      "loss": 1.1241,
       "step": 4
     },
     {
       "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 0.903,
       "step": 6
     },
     {
       "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 0.802,
       "step": 8
     },
     {
       "epoch": 0.15,
       "learning_rate": 2e-05,
+      "loss": 0.8679,
       "step": 10
     },
     {
       "epoch": 0.18,
       "learning_rate": 2e-05,
+      "loss": 0.7797,
       "step": 12
     },
     {
       "epoch": 0.21,
       "learning_rate": 2e-05,
+      "loss": 1.1186,
       "step": 14
     },
     {
       "epoch": 0.24,
       "learning_rate": 2e-05,
+      "loss": 1.1794,
       "step": 16
     },
     {
       "epoch": 0.27,
       "learning_rate": 2e-05,
+      "loss": 1.8361,
       "step": 18
     },
     {
       "epoch": 0.3,
       "learning_rate": 2e-05,
+      "loss": 0.9534,
       "step": 20
     },
     {
       "epoch": 0.33,
       "learning_rate": 2e-05,
+      "loss": 0.9416,
       "step": 22
     },
     {
       "epoch": 0.36,
       "learning_rate": 2e-05,
+      "loss": 0.9872,
       "step": 24
     },
     {
       "epoch": 0.39,
       "learning_rate": 2e-05,
+      "loss": 0.709,
       "step": 26
     },
     {
       "epoch": 0.42,
       "learning_rate": 2e-05,
+      "loss": 0.9765,
       "step": 28
     },
     {
       "epoch": 0.45,
       "learning_rate": 2e-05,
+      "loss": 1.1499,
       "step": 30
     },
     {
       "epoch": 0.48,
       "learning_rate": 2e-05,
+      "loss": 1.0416,
       "step": 32
     },
     {
       "epoch": 0.51,
       "learning_rate": 2e-05,
+      "loss": 1.5067,
       "step": 34
     },
     {
       "epoch": 0.54,
       "learning_rate": 2e-05,
+      "loss": 1.2399,
       "step": 36
     },
     {
       "epoch": 0.57,
       "learning_rate": 2e-05,
+      "loss": 0.8517,
       "step": 38
     },
     {
       "epoch": 0.6,
       "learning_rate": 2e-05,
+      "loss": 1.0055,
       "step": 40
     },
     {
       "epoch": 0.63,
       "learning_rate": 2e-05,
+      "loss": 0.7505,
       "step": 42
     },
     {
       "epoch": 0.66,
       "learning_rate": 2e-05,
+      "loss": 0.7689,
       "step": 44
     },
     {
       "epoch": 0.69,
       "learning_rate": 2e-05,
+      "loss": 1.0528,
       "step": 46
     },
     {
       "epoch": 0.72,
       "learning_rate": 2e-05,
+      "loss": 1.0274,
       "step": 48
     },
     {
       "epoch": 0.75,
       "learning_rate": 2e-05,
+      "loss": 1.9261,
       "step": 50
     },
     {
       "epoch": 0.78,
       "learning_rate": 2e-05,
+      "loss": 0.912,
       "step": 52
     },
     {
       "epoch": 0.81,
       "learning_rate": 2e-05,
+      "loss": 0.9351,
       "step": 54
     },
     {
       "epoch": 0.84,
       "learning_rate": 2e-05,
+      "loss": 0.8161,
       "step": 56
     },
     {
       "epoch": 0.86,
       "learning_rate": 2e-05,
+      "loss": 0.8585,
       "step": 58
     },
     {
       "epoch": 0.89,
       "learning_rate": 2e-05,
+      "loss": 0.9278,
       "step": 60
     },
     {
       "epoch": 0.92,
       "learning_rate": 2e-05,
+      "loss": 1.0046,
       "step": 62
     },
     {
       "epoch": 0.95,
       "learning_rate": 2e-05,
+      "loss": 0.8376,
       "step": 64
     },
     {
       "epoch": 0.98,
       "learning_rate": 2e-05,
+      "loss": 1.1047,
       "step": 66
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2.562151273168896e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97d5f0e37cf4b722c6518f8cfa86a35259d2a47813b4394ade22d5e08cffdbf4
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:35bc91a3ec2050fc13133158eeb9d230bb8786a2281adb489299f2bfe8f04f9c
 size 4728