End of training

Browse files

Files changed (12) hide show

README.md +7 -7
adapter_config.json +6 -6
adapter_model.safetensors +2 -2
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model-00003-of-00004.safetensors +2 -2
model-00004-of-00004.safetensors +2 -2
model.safetensors.index.json +73 -73
runs/Jan13_23-59-25_b5637b3f66b9/events.out.tfevents.1705190375.b5637b3f66b9.92446.0 +3 -0
runs/Jan14_00-01-54_b5637b3f66b9/events.out.tfevents.1705190524.b5637b3f66b9.97198.0 +3 -0
runs/Jan14_00-16-13_b5637b3f66b9/events.out.tfevents.1705191389.b5637b3f66b9.101961.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -50,8 +50,8 @@ sequence_len: 2048
 sample_packing: false
 pad_to_sequence_len: false
-lora_r: 128
-lora_alpha: 64
 lora_dropout: 0.05
 lora_target_linear: true
 lora_modules_to_save:
@@ -69,11 +69,11 @@ wandb_project: dpo-zephyr-deita-nectar
 wandb_entity: oaaic
 wandb_watch:
 wandb_run_id:
-wandb_name:  kto-3ep-v2b
 wandb_log_model:
 gradient_accumulation_steps: 1
-micro_batch_size: 4
 num_epochs: 3
 optimizer: paged_adamw_8bit
 adam_beta2: 0.95
@@ -139,17 +139,17 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
-- total_train_batch_size: 16
 - total_eval_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 10
-- training_steps: 1615
 ### Training results

 sample_packing: false
 pad_to_sequence_len: false
+lora_r: 256
+lora_alpha: 128
 lora_dropout: 0.05
 lora_target_linear: true
 lora_modules_to_save:
 wandb_entity: oaaic
 wandb_watch:
 wandb_run_id:
+wandb_name:  kto-3ep-v3-r256
 wandb_log_model:
 gradient_accumulation_steps: 1
+micro_batch_size: 2
 num_epochs: 3
 optimizer: paged_adamw_8bit
 adam_beta2: 0.95
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
+- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
+- total_train_batch_size: 8
 - total_eval_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 10
+- training_steps: 3230
 ### Training results

adapter_config.json CHANGED Viewed

@@ -9,23 +9,23 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 64,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "down_proj",
-    "v_proj",
     "up_proj",
-    "k_proj",
-    "q_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 128,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 256,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "q_proj",
     "down_proj",
     "up_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:016529bf26408ff55a13f1fc2cee3784838109b70227b72df6768c68a26d340b
-size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e197c0323741596d10f600eb6ba058defb470f2491756a549f6930771e5deb70
+size 1342239008

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee258947db852c631def2386ec1c820a61ce50169128a3b5071c2ea627f1eb0e
-size 4924995664

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a3c6b5f84edcc9460d29155b6f11844d43a2badb26292b071ea03765c28f1af
+size 4917096408

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72a24b39fbf1d809046f1c1b5c38e6459b2300dc01f36aeb55bf467781c524d3
-size 4993711256

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdc23002d59a5df08a6244df334b1958ae78b426d43a5ebe94a0af2ad8a7b587
+size 4968544640

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfeb5faef09ade5e6833d5afdd456eec9fa622689ccca4eef9befc5842580351
-size 4974328272

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dba996654afa2bc8637f3fb3e8edc8c5ce7c804b9a607dd299a258602588aaf
+size 4946490800

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:600ae732306b6a4440d9c035ab824c3383128f9a86106a403888d758aa02ce6b
-size 262144128

 version https://git-lfs.github.com/spec/v1
+oid sha256:b71ef791b8de8c7cc7fea4c1d68df265468f25718fade06a8558a12e6967bd92
+size 994136032

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 15155085312
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",
@@ -62,18 +62,18 @@
     "model.layers.10.mlp.up_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.10.mlp.up_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.k_proj.base_layer.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.o_proj.base_layer.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.q_proj.base_layer.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.down_proj.base_layer.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.down_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
@@ -304,23 +304,23 @@
     "model.layers.2.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.2.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.2.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.down_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.down_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.down_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.gate_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.up_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.up_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.up_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.k_proj.base_layer.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.o_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.q_proj.base_layer.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
@@ -338,18 +338,18 @@
     "model.layers.21.mlp.up_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.mlp.up_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.k_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.21.self_attn.o_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.q_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.v_proj.base_layer.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.22.mlp.down_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.22.mlp.down_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
@@ -557,17 +557,17 @@
     "model.layers.3.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.3.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.3.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.down_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.down_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.down_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.mlp.gate_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.up_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.up_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.up_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.k_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
@@ -580,29 +580,29 @@
     "model.layers.30.self_attn.v_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.down_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.down_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.down_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.gate_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.up_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.up_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.up_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.k_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.o_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.q_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.v_proj.base_layer.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.down_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.down_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
@@ -718,17 +718,17 @@
     "model.layers.8.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.8.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.8.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.mlp.down_proj.base_layer.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.mlp.down_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.mlp.down_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.gate_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.up_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.up_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.up_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.k_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
@@ -741,6 +741,6 @@
     "model.layers.9.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
-    "model.norm.weight": "model-00003-of-00004.safetensors"
   }
 }

 {
   "metadata": {
+    "total_size": 15826173952
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",
     "model.layers.10.mlp.up_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.10.mlp.up_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.base_layer.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.base_layer.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.base_layer.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.base_layer.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.down_proj.base_layer.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.down_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.2.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.2.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.2.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.20.self_attn.k_proj.base_layer.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.20.self_attn.q_proj.base_layer.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.20.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.21.mlp.up_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.mlp.up_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.self_attn.o_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.21.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.base_layer.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.22.mlp.down_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.22.mlp.down_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.3.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.3.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.3.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
     "model.layers.30.mlp.gate_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
     "model.layers.30.self_attn.k_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.v_proj.base_layer.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00004.safetensors",
     "model.layers.30.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.base_layer.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.lora_A.default.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.lora_B.default.weight": "model-00004-of-00004.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.down_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.down_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.8.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.8.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.8.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.base_layer.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.lora_A.default.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.lora_B.default.weight": "model-00002-of-00004.safetensors",
     "model.layers.9.mlp.gate_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.up_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.up_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.mlp.up_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.9.self_attn.k_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.base_layer.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
   }
 }

runs/Jan13_23-59-25_b5637b3f66b9/events.out.tfevents.1705190375.b5637b3f66b9.92446.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8874f412db9c87f35d8ed512bcb8b617d88a7fa8ef0146836c21207630f29e23
+size 4830

runs/Jan14_00-01-54_b5637b3f66b9/events.out.tfevents.1705190524.b5637b3f66b9.97198.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fae5e1074485ffd1bf08978beaf2541d44a0ca0ab9aedf3adb717b974d6278eb
+size 5453

runs/Jan14_00-16-13_b5637b3f66b9/events.out.tfevents.1705191389.b5637b3f66b9.101961.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:870e01f6fd1473e804334e6163263ac048b9245808ef14d5523d9bbdeda2c9ae
+size 2051221

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c069c1a18c8aa647d08eab1ab70961843cfe9f48f19c1cd99bb1a4d5319fcc70
 size 4283

 version https://git-lfs.github.com/spec/v1
+oid sha256:f35dd2da756435a461f292de7f41f8f794f5bb87c3b8cf175f6493702e2c93f1
 size 4283