Training in progress, epoch 1

Browse files

Files changed (11) hide show

config.json +27 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +298 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +0 -0
trainer_log.jsonl +56 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "mistralai/Mistral-7B-v0.3",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.1",
+  "use_cache": false,
+  "vocab_size": 32768
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5f9db2bdf0c6aae5692a445fb103b542d481f915177f82995ecac0ab8f53c9e
+size 4949453792

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb0b7025e9ee99bc70f0fa2c08c2d136104c8a83be1b18a8ca1f5c54b77ff9b0
+size 4999819336

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a982da7efd195f07fca05b6ba4bc361008775a35cd8dc4c66b42bb517c240715
+size 4546807800

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 14496047104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37f00374dea48658ee8f5d0f21895b9bc55cb0103939607c8185bfd1c6ca1f89
+size 587404

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,56 @@

+{"current_steps": 10, "total_steps": 1578, "loss": 0.8874, "lr": 6.329113924050634e-07, "epoch": 0.019011406844106463, "percentage": 0.63, "elapsed_time": "0:00:58", "remaining_time": "2:32:27"}
+{"current_steps": 20, "total_steps": 1578, "loss": 0.791, "lr": 1.2658227848101267e-06, "epoch": 0.03802281368821293, "percentage": 1.27, "elapsed_time": "0:01:56", "remaining_time": "2:31:17"}
+{"current_steps": 30, "total_steps": 1578, "loss": 0.7354, "lr": 1.8987341772151901e-06, "epoch": 0.057034220532319393, "percentage": 1.9, "elapsed_time": "0:02:54", "remaining_time": "2:29:48"}
+{"current_steps": 40, "total_steps": 1578, "loss": 0.6972, "lr": 2.5316455696202535e-06, "epoch": 0.07604562737642585, "percentage": 2.53, "elapsed_time": "0:03:52", "remaining_time": "2:28:42"}
+{"current_steps": 50, "total_steps": 1578, "loss": 0.698, "lr": 3.164556962025317e-06, "epoch": 0.09505703422053231, "percentage": 3.17, "elapsed_time": "0:04:49", "remaining_time": "2:27:39"}
+{"current_steps": 60, "total_steps": 1578, "loss": 0.6778, "lr": 3.7974683544303802e-06, "epoch": 0.11406844106463879, "percentage": 3.8, "elapsed_time": "0:05:50", "remaining_time": "2:27:35"}
+{"current_steps": 70, "total_steps": 1578, "loss": 0.6751, "lr": 4.430379746835443e-06, "epoch": 0.13307984790874525, "percentage": 4.44, "elapsed_time": "0:06:49", "remaining_time": "2:26:55"}
+{"current_steps": 80, "total_steps": 1578, "loss": 0.6713, "lr": 4.999995058613287e-06, "epoch": 0.1520912547528517, "percentage": 5.07, "elapsed_time": "0:07:47", "remaining_time": "2:25:55"}
+{"current_steps": 90, "total_steps": 1578, "loss": 0.6671, "lr": 4.999402118469357e-06, "epoch": 0.17110266159695817, "percentage": 5.7, "elapsed_time": "0:08:47", "remaining_time": "2:25:18"}
+{"current_steps": 100, "total_steps": 1578, "loss": 0.6676, "lr": 4.997821199394829e-06, "epoch": 0.19011406844106463, "percentage": 6.34, "elapsed_time": "0:09:46", "remaining_time": "2:24:32"}
+{"current_steps": 110, "total_steps": 1578, "loss": 0.6695, "lr": 4.995252995758543e-06, "epoch": 0.20912547528517111, "percentage": 6.97, "elapsed_time": "0:10:44", "remaining_time": "2:23:27"}
+{"current_steps": 120, "total_steps": 1578, "loss": 0.6575, "lr": 4.99169863556294e-06, "epoch": 0.22813688212927757, "percentage": 7.6, "elapsed_time": "0:11:43", "remaining_time": "2:22:27"}
+{"current_steps": 130, "total_steps": 1578, "loss": 0.6612, "lr": 4.987159679948624e-06, "epoch": 0.24714828897338403, "percentage": 8.24, "elapsed_time": "0:12:41", "remaining_time": "2:21:21"}
+{"current_steps": 140, "total_steps": 1578, "loss": 0.658, "lr": 4.981638122508684e-06, "epoch": 0.2661596958174905, "percentage": 8.87, "elapsed_time": "0:13:39", "remaining_time": "2:20:15"}
+{"current_steps": 150, "total_steps": 1578, "loss": 0.6656, "lr": 4.975136388413065e-06, "epoch": 0.28517110266159695, "percentage": 9.51, "elapsed_time": "0:14:37", "remaining_time": "2:19:10"}
+{"current_steps": 160, "total_steps": 1578, "loss": 0.6511, "lr": 4.967657333343394e-06, "epoch": 0.3041825095057034, "percentage": 10.14, "elapsed_time": "0:15:36", "remaining_time": "2:18:20"}
+{"current_steps": 170, "total_steps": 1578, "loss": 0.6573, "lr": 4.959204242238707e-06, "epoch": 0.3231939163498099, "percentage": 10.77, "elapsed_time": "0:16:36", "remaining_time": "2:17:29"}
+{"current_steps": 180, "total_steps": 1578, "loss": 0.6507, "lr": 4.949780827852648e-06, "epoch": 0.34220532319391633, "percentage": 11.41, "elapsed_time": "0:17:34", "remaining_time": "2:16:28"}
+{"current_steps": 190, "total_steps": 1578, "loss": 0.6523, "lr": 4.939391229122757e-06, "epoch": 0.3612167300380228, "percentage": 12.04, "elapsed_time": "0:18:34", "remaining_time": "2:15:42"}
+{"current_steps": 200, "total_steps": 1578, "loss": 0.6524, "lr": 4.928040009352568e-06, "epoch": 0.38022813688212925, "percentage": 12.67, "elapsed_time": "0:19:33", "remaining_time": "2:14:43"}
+{"current_steps": 210, "total_steps": 1578, "loss": 0.6614, "lr": 4.91573215420733e-06, "epoch": 0.39923954372623577, "percentage": 13.31, "elapsed_time": "0:20:33", "remaining_time": "2:13:58"}
+{"current_steps": 220, "total_steps": 1578, "loss": 0.6484, "lr": 4.902473069524204e-06, "epoch": 0.41825095057034223, "percentage": 13.94, "elapsed_time": "0:21:32", "remaining_time": "2:12:59"}
+{"current_steps": 230, "total_steps": 1578, "loss": 0.6508, "lr": 4.888268578937923e-06, "epoch": 0.4372623574144487, "percentage": 14.58, "elapsed_time": "0:22:31", "remaining_time": "2:11:59"}
+{"current_steps": 240, "total_steps": 1578, "loss": 0.6469, "lr": 4.873124921322945e-06, "epoch": 0.45627376425855515, "percentage": 15.21, "elapsed_time": "0:23:31", "remaining_time": "2:11:08"}
+{"current_steps": 250, "total_steps": 1578, "loss": 0.6401, "lr": 4.8570487480532196e-06, "epoch": 0.4752851711026616, "percentage": 15.84, "elapsed_time": "0:24:30", "remaining_time": "2:10:10"}
+{"current_steps": 260, "total_steps": 1578, "loss": 0.6416, "lr": 4.840047120080787e-06, "epoch": 0.49429657794676807, "percentage": 16.48, "elapsed_time": "0:25:28", "remaining_time": "2:09:09"}
+{"current_steps": 270, "total_steps": 1578, "loss": 0.6438, "lr": 4.822127504834472e-06, "epoch": 0.5133079847908745, "percentage": 17.11, "elapsed_time": "0:26:29", "remaining_time": "2:08:22"}
+{"current_steps": 280, "total_steps": 1578, "loss": 0.6506, "lr": 4.8032977729400585e-06, "epoch": 0.532319391634981, "percentage": 17.74, "elapsed_time": "0:27:28", "remaining_time": "2:07:22"}
+{"current_steps": 290, "total_steps": 1578, "loss": 0.6521, "lr": 4.783566194763359e-06, "epoch": 0.5513307984790875, "percentage": 18.38, "elapsed_time": "0:28:27", "remaining_time": "2:06:23"}
+{"current_steps": 300, "total_steps": 1578, "loss": 0.6371, "lr": 4.762941436777721e-06, "epoch": 0.5703422053231939, "percentage": 19.01, "elapsed_time": "0:29:26", "remaining_time": "2:05:24"}
+{"current_steps": 310, "total_steps": 1578, "loss": 0.6407, "lr": 4.7414325577575484e-06, "epoch": 0.5893536121673004, "percentage": 19.65, "elapsed_time": "0:30:27", "remaining_time": "2:04:34"}
+{"current_steps": 320, "total_steps": 1578, "loss": 0.6328, "lr": 4.719049004799525e-06, "epoch": 0.6083650190114068, "percentage": 20.28, "elapsed_time": "0:31:25", "remaining_time": "2:03:33"}
+{"current_steps": 330, "total_steps": 1578, "loss": 0.6526, "lr": 4.695800609173274e-06, "epoch": 0.6273764258555133, "percentage": 20.91, "elapsed_time": "0:32:24", "remaining_time": "2:02:33"}
+{"current_steps": 340, "total_steps": 1578, "loss": 0.6371, "lr": 4.671697582003279e-06, "epoch": 0.6463878326996197, "percentage": 21.55, "elapsed_time": "0:33:24", "remaining_time": "2:01:37"}
+{"current_steps": 350, "total_steps": 1578, "loss": 0.6413, "lr": 4.646750509783975e-06, "epoch": 0.6653992395437263, "percentage": 22.18, "elapsed_time": "0:34:23", "remaining_time": "2:00:38"}
+{"current_steps": 360, "total_steps": 1578, "loss": 0.638, "lr": 4.620970349729961e-06, "epoch": 0.6844106463878327, "percentage": 22.81, "elapsed_time": "0:35:22", "remaining_time": "1:59:41"}
+{"current_steps": 370, "total_steps": 1578, "loss": 0.6402, "lr": 4.594368424963392e-06, "epoch": 0.7034220532319392, "percentage": 23.45, "elapsed_time": "0:36:22", "remaining_time": "1:58:45"}
+{"current_steps": 380, "total_steps": 1578, "loss": 0.6332, "lr": 4.56695641954065e-06, "epoch": 0.7224334600760456, "percentage": 24.08, "elapsed_time": "0:37:21", "remaining_time": "1:57:45"}
+{"current_steps": 390, "total_steps": 1578, "loss": 0.6451, "lr": 4.538746373320499e-06, "epoch": 0.7414448669201521, "percentage": 24.71, "elapsed_time": "0:38:20", "remaining_time": "1:56:46"}
+{"current_steps": 400, "total_steps": 1578, "loss": 0.6398, "lr": 4.5097506766759465e-06, "epoch": 0.7604562737642585, "percentage": 25.35, "elapsed_time": "0:39:19", "remaining_time": "1:55:49"}
+{"current_steps": 410, "total_steps": 1578, "loss": 0.6333, "lr": 4.479982065052171e-06, "epoch": 0.779467680608365, "percentage": 25.98, "elapsed_time": "0:40:18", "remaining_time": "1:54:49"}
+{"current_steps": 420, "total_steps": 1578, "loss": 0.6389, "lr": 4.4494536133728754e-06, "epoch": 0.7984790874524715, "percentage": 26.62, "elapsed_time": "0:41:19", "remaining_time": "1:53:55"}
+{"current_steps": 430, "total_steps": 1578, "loss": 0.6369, "lr": 4.418178730297542e-06, "epoch": 0.8174904942965779, "percentage": 27.25, "elapsed_time": "0:42:18", "remaining_time": "1:52:55"}
+{"current_steps": 440, "total_steps": 1578, "loss": 0.6355, "lr": 4.3861711523321e-06, "epoch": 0.8365019011406845, "percentage": 27.88, "elapsed_time": "0:43:16", "remaining_time": "1:51:56"}
+{"current_steps": 450, "total_steps": 1578, "loss": 0.6337, "lr": 4.353444937795595e-06, "epoch": 0.8555133079847909, "percentage": 28.52, "elapsed_time": "0:44:15", "remaining_time": "1:50:57"}
+{"current_steps": 460, "total_steps": 1578, "loss": 0.6357, "lr": 4.320014460645523e-06, "epoch": 0.8745247148288974, "percentage": 29.15, "elapsed_time": "0:45:15", "remaining_time": "1:50:00"}
+{"current_steps": 470, "total_steps": 1578, "loss": 0.6308, "lr": 4.2858944041645196e-06, "epoch": 0.8935361216730038, "percentage": 29.78, "elapsed_time": "0:46:15", "remaining_time": "1:49:02"}
+{"current_steps": 480, "total_steps": 1578, "loss": 0.633, "lr": 4.251099754511189e-06, "epoch": 0.9125475285171103, "percentage": 30.42, "elapsed_time": "0:47:14", "remaining_time": "1:48:03"}
+{"current_steps": 490, "total_steps": 1578, "loss": 0.637, "lr": 4.2156457941379095e-06, "epoch": 0.9315589353612167, "percentage": 31.05, "elapsed_time": "0:48:12", "remaining_time": "1:47:02"}
+{"current_steps": 500, "total_steps": 1578, "loss": 0.6315, "lr": 4.179548095078498e-06, "epoch": 0.9505703422053232, "percentage": 31.69, "elapsed_time": "0:49:13", "remaining_time": "1:46:07"}
+{"current_steps": 510, "total_steps": 1578, "loss": 0.632, "lr": 4.142822512108683e-06, "epoch": 0.9695817490494296, "percentage": 32.32, "elapsed_time": "0:50:11", "remaining_time": "1:45:07"}
+{"current_steps": 520, "total_steps": 1578, "loss": 0.6226, "lr": 4.105485175782396e-06, "epoch": 0.9885931558935361, "percentage": 32.95, "elapsed_time": "0:51:10", "remaining_time": "1:44:07"}
+{"current_steps": 526, "total_steps": 1578, "eval_loss": 0.6353716254234314, "epoch": 1.0, "percentage": 33.33, "elapsed_time": "0:52:36", "remaining_time": "1:45:12"}
+{"current_steps": 530, "total_steps": 1578, "loss": 0.5901, "lr": 4.067552485346939e-06, "epoch": 1.0076045627376427, "percentage": 33.59, "elapsed_time": "0:53:56", "remaining_time": "1:46:39"}
+{"current_steps": 540, "total_steps": 1578, "loss": 0.546, "lr": 4.029041101540122e-06, "epoch": 1.026615969581749, "percentage": 34.22, "elapsed_time": "0:54:58", "remaining_time": "1:45:41"}
+{"current_steps": 550, "total_steps": 1578, "loss": 0.5434, "lr": 3.989967939272569e-06, "epoch": 1.0456273764258555, "percentage": 34.85, "elapsed_time": "0:55:59", "remaining_time": "1:44:38"}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8189220ea72bb1707be423a922b093d1ed9596c81d2e390c40bc95084b9d67e5
+size 7352