Upload LlamaForCausalLM

Browse files

Files changed (5) hide show

config.json +2 -2
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +1 -73

config.json CHANGED Viewed

@@ -14,7 +14,7 @@
   "max_sequence_length": 2048,
   "model_type": "llama",
   "num_attention_heads": 32,
-  "num_hidden_layers": 32,
   "num_key_value_heads": 32,
   "pad_token_id": 0,
   "pretraining_tp": 1,
@@ -24,6 +24,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
   "transformers_version": "4.35.2",
-  "use_cache": false,
   "vocab_size": 32000
 }

   "max_sequence_length": 2048,
   "model_type": "llama",
   "num_attention_heads": 32,
+  "num_hidden_layers": 24,
   "num_key_value_heads": 32,
   "pad_token_id": 0,
   "pretraining_tp": 1,
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
   "transformers_version": "4.35.2",
+  "use_cache": true,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db24301ee7d36660b7788461db1dca0395fe9c5acc6e582ef2c75e6f40571fe4
 size 4938985248

 version https://git-lfs.github.com/spec/v1
+oid sha256:eebc4276f927037db1652c4b4067ff5749b56fec089e0cb09de6b7ab69f2979e
 size 4938985248

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f31c03c6b3fbca42c22db0855fe40a86210bb88cc6a5cacd458353e1dc88b8a
 size 4947390768

 version https://git-lfs.github.com/spec/v1
+oid sha256:643a732453037a98006c7414491c6e305e86d8fe62fe74ba51b7dda6c1273564
 size 4947390768

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1da8afa84d40e98529d473998824435b54edfa994d8bcef617699de87aaed468
-size 3590488736

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ff11b7da9148bf631e3c0c2dd4c77c3722714ec7f3b77bddc15d725ea6a129
+size 352346664

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 13476831232
   },
   "weight_map": {
     "lm_head.weight": "model-00003-of-00003.safetensors",
@@ -158,60 +158,6 @@
     "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
@@ -221,24 +167,6 @@
     "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",

 {
   "metadata": {
+    "total_size": 10238697472
   },
   "weight_map": {
     "lm_head.weight": "model-00003-of-00003.safetensors",
     "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",