Model save

Files changed (6) hide show

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "k_proj",
     "o_proj",
-    "up_proj",
     "gate_proj",
-    "down_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "gate_proj",
+    "v_proj",
+    "q_proj",
+    "up_proj",
+    "k_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
     "train_loss": 6.198014577229817,
-    "train_runtime": 11.5966,
     "train_samples": 6321,
-    "train_samples_per_second": 1.035,
-    "train_steps_per_second": 0.259
 }

 {
     "epoch": 3.0,
     "train_loss": 6.198014577229817,
+    "train_runtime": 11.6256,
     "train_samples": 6321,
+    "train_samples_per_second": 1.032,
+    "train_steps_per_second": 0.258
 }

config.json ADDED Viewed

+{
+  "_name_or_path": "meta-llama/Meta-Llama-3-8B",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 8192,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.34.1",
+  "use_cache": true,
+  "vocab_size": 128256
+}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
     "train_loss": 6.198014577229817,
-    "train_runtime": 11.5966,
     "train_samples": 6321,
-    "train_samples_per_second": 1.035,
-    "train_steps_per_second": 0.259
 }

 {
     "epoch": 3.0,
     "train_loss": 6.198014577229817,
+    "train_runtime": 11.6256,
     "train_samples": 6321,
+    "train_samples_per_second": 1.032,
+    "train_steps_per_second": 0.258
 }

trainer_state.json CHANGED Viewed

@@ -19,9 +19,9 @@
       "step": 3,
       "total_flos": 4717082050560.0,
       "train_loss": 6.198014577229817,
-      "train_runtime": 11.5966,
-      "train_samples_per_second": 1.035,
-      "train_steps_per_second": 0.259
     }
   ],
   "logging_steps": 5,

       "step": 3,
       "total_flos": 4717082050560.0,
       "train_loss": 6.198014577229817,
+      "train_runtime": 11.6256,
+      "train_samples_per_second": 1.032,
+      "train_steps_per_second": 0.258
     }
   ],
   "logging_steps": 5,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb155e03a64c3b6c72db2d22f5a1e65cd490884f23d01bec7982b08fe58f39ab
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:4568e2722756d3994f84ab45d155eca91e7b85f068723f9f6a6b34a61738aa73
 size 5688