First model version

Files changed (11) hide show

config.json +23 -0
generation_config.json +7 -0
pytorch_model-00001-of-00003.bin +3 -0
pytorch_model-00002-of-00003.bin +3 -0
pytorch_model-00003-of-00003.bin +3 -0
pytorch_model.bin.index.json +330 -0
special_tokens_map.json +24 -0
tokenizer.model +3 -0
tokenizer_config.json +34 -0
trainer_state.json +955 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "_name_or_path": "weights/vicuna-7b-v1.3",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-06,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

pytorch_model-00001-of-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4c8bf934b9402257924ce1d773e28eedcf79216ab54691c5adb5bb6827e00ae
+size 9877988050

pytorch_model-00002-of-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20601c9af4ec4495de02963b15516589904aae2661eaefc1f51781e85e3f24d2
+size 9894799542

pytorch_model-00003-of-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93b10ff8536b63cd52ad503518da70b20c6d75be55971f541c59be780b3b63da
+size 7180989689

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,330 @@

+{
+  "metadata": {
+    "total_size": 26953666560
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00003-of-00003.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.norm.weight": "pytorch_model-00003-of-00003.bin"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 2048,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,955 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.940239043824701,
+  "global_step": 155,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.5408,
+      "step": 1
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.5325,
+      "step": 2
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.2e-05,
+      "loss": 1.3657,
+      "step": 3
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.252,
+      "step": 4
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2e-05,
+      "loss": 1.2032,
+      "step": 5
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 1.9997806834748455e-05,
+      "loss": 1.2058,
+      "step": 6
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.9991228300988586e-05,
+      "loss": 1.2201,
+      "step": 7
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.9980267284282718e-05,
+      "loss": 1.2061,
+      "step": 8
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.9964928592495046e-05,
+      "loss": 1.1772,
+      "step": 9
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.9945218953682736e-05,
+      "loss": 1.2083,
+      "step": 10
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9921147013144782e-05,
+      "loss": 1.1869,
+      "step": 11
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.9892723329629885e-05,
+      "loss": 1.1922,
+      "step": 12
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.985996037070505e-05,
+      "loss": 1.1684,
+      "step": 13
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.982287250728689e-05,
+      "loss": 1.1837,
+      "step": 14
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.9781476007338058e-05,
+      "loss": 1.2066,
+      "step": 15
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.9735789028731603e-05,
+      "loss": 1.1756,
+      "step": 16
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 1.9685831611286312e-05,
+      "loss": 1.1691,
+      "step": 17
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.9631625667976584e-05,
+      "loss": 1.1279,
+      "step": 18
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9573194975320672e-05,
+      "loss": 1.1877,
+      "step": 19
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 1.1589,
+      "step": 20
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.944376370237481e-05,
+      "loss": 1.1814,
+      "step": 21
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.937281989491892e-05,
+      "loss": 1.1699,
+      "step": 22
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.9297764858882516e-05,
+      "loss": 1.1599,
+      "step": 23
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.9218631515885007e-05,
+      "loss": 1.1633,
+      "step": 24
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.913545457642601e-05,
+      "loss": 1.1612,
+      "step": 25
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.9048270524660197e-05,
+      "loss": 1.1473,
+      "step": 26
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.895711760239413e-05,
+      "loss": 1.169,
+      "step": 27
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.8862035792312148e-05,
+      "loss": 1.1441,
+      "step": 28
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.8763066800438638e-05,
+      "loss": 1.155,
+      "step": 29
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 1.1732,
+      "step": 30
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.855364260160507e-05,
+      "loss": 1.1098,
+      "step": 31
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.8443279255020153e-05,
+      "loss": 1.0098,
+      "step": 32
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1.8329212407100996e-05,
+      "loss": 0.8869,
+      "step": 33
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1.821149209133704e-05,
+      "loss": 0.8692,
+      "step": 34
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.8768,
+      "step": 35
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.7965299180241963e-05,
+      "loss": 0.8635,
+      "step": 36
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.78369345732584e-05,
+      "loss": 0.8652,
+      "step": 37
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.7705132427757895e-05,
+      "loss": 0.8364,
+      "step": 38
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.7569950556517566e-05,
+      "loss": 0.8503,
+      "step": 39
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.8596,
+      "step": 40
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.7289686274214116e-05,
+      "loss": 0.8346,
+      "step": 41
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7144726796328034e-05,
+      "loss": 0.8106,
+      "step": 42
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.6996633405133656e-05,
+      "loss": 0.804,
+      "step": 43
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.684547105928689e-05,
+      "loss": 0.8157,
+      "step": 44
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.818,
+      "step": 45
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.6534206039901057e-05,
+      "loss": 0.8114,
+      "step": 46
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.63742398974869e-05,
+      "loss": 0.8251,
+      "step": 47
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.6211477802783105e-05,
+      "loss": 0.7848,
+      "step": 48
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1.6045991148623752e-05,
+      "loss": 0.8214,
+      "step": 49
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.8144,
+      "step": 50
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.570713567684432e-05,
+      "loss": 0.7869,
+      "step": 51
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.553391549243344e-05,
+      "loss": 0.8001,
+      "step": 52
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.5358267949789968e-05,
+      "loss": 0.7745,
+      "step": 53
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1.5180270093731305e-05,
+      "loss": 0.7956,
+      "step": 54
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.7533,
+      "step": 55
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.4817536741017153e-05,
+      "loss": 0.7999,
+      "step": 56
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.463296035119862e-05,
+      "loss": 0.7687,
+      "step": 57
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1.4446351791849276e-05,
+      "loss": 0.7923,
+      "step": 58
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.4257792915650728e-05,
+      "loss": 0.7656,
+      "step": 59
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.7918,
+      "step": 60
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.3875155864521031e-05,
+      "loss": 0.7896,
+      "step": 61
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.3681245526846782e-05,
+      "loss": 0.7963,
+      "step": 62
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 1.3485720473218153e-05,
+      "loss": 0.7249,
+      "step": 63
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.3288666467385834e-05,
+      "loss": 0.5293,
+      "step": 64
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.5171,
+      "step": 65
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 1.2890317969444716e-05,
+      "loss": 0.4998,
+      "step": 66
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.2689198206152657e-05,
+      "loss": 0.5097,
+      "step": 67
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.2486898871648552e-05,
+      "loss": 0.5191,
+      "step": 68
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.2283508701106559e-05,
+      "loss": 0.4657,
+      "step": 69
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.4907,
+      "step": 70
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.187381314585725e-05,
+      "loss": 0.4736,
+      "step": 71
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.1667687467161025e-05,
+      "loss": 0.4697,
+      "step": 72
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 1.1460830285624119e-05,
+      "loss": 0.4852,
+      "step": 73
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.1253332335643043e-05,
+      "loss": 0.4746,
+      "step": 74
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 1.1045284632676535e-05,
+      "loss": 0.4672,
+      "step": 75
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.083677843332316e-05,
+      "loss": 0.4719,
+      "step": 76
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.0627905195293135e-05,
+      "loss": 0.4554,
+      "step": 77
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.0418756537291996e-05,
+      "loss": 0.4635,
+      "step": 78
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.0209424198833571e-05,
+      "loss": 0.4437,
+      "step": 79
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1e-05,
+      "loss": 0.4477,
+      "step": 80
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 9.790575801166432e-06,
+      "loss": 0.4759,
+      "step": 81
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 9.581243462708007e-06,
+      "loss": 0.4585,
+      "step": 82
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 9.372094804706867e-06,
+      "loss": 0.4806,
+      "step": 83
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 9.163221566676847e-06,
+      "loss": 0.4631,
+      "step": 84
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 8.954715367323468e-06,
+      "loss": 0.4499,
+      "step": 85
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 8.746667664356957e-06,
+      "loss": 0.4515,
+      "step": 86
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 8.539169714375885e-06,
+      "loss": 0.4545,
+      "step": 87
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 8.332312532838978e-06,
+      "loss": 0.4663,
+      "step": 88
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 8.126186854142752e-06,
+      "loss": 0.4719,
+      "step": 89
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 7.92088309182241e-06,
+      "loss": 0.4786,
+      "step": 90
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 7.716491298893443e-06,
+      "loss": 0.4372,
+      "step": 91
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 7.513101128351454e-06,
+      "loss": 0.456,
+      "step": 92
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 7.310801793847344e-06,
+      "loss": 0.4401,
+      "step": 93
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 7.109682030555283e-06,
+      "loss": 0.4378,
+      "step": 94
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 0.3223,
+      "step": 95
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 6.711333532614168e-06,
+      "loss": 0.2842,
+      "step": 96
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 6.5142795267818505e-06,
+      "loss": 0.2608,
+      "step": 97
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 6.318754473153221e-06,
+      "loss": 0.2539,
+      "step": 98
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 6.124844135478971e-06,
+      "loss": 0.2546,
+      "step": 99
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 5.932633569242e-06,
+      "loss": 0.2395,
+      "step": 100
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 5.742207084349274e-06,
+      "loss": 0.2318,
+      "step": 101
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 5.553648208150728e-06,
+      "loss": 0.2453,
+      "step": 102
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 5.367039648801386e-06,
+      "loss": 0.2352,
+      "step": 103
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 5.1824632589828465e-06,
+      "loss": 0.2479,
+      "step": 104
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.2275,
+      "step": 105
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.8197299062687e-06,
+      "loss": 0.2278,
+      "step": 106
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 4.641732050210032e-06,
+      "loss": 0.2424,
+      "step": 107
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 4.46608450756656e-06,
+      "loss": 0.227,
+      "step": 108
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 4.292864323155684e-06,
+      "loss": 0.2296,
+      "step": 109
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 4.12214747707527e-06,
+      "loss": 0.238,
+      "step": 110
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 3.954008851376252e-06,
+      "loss": 0.2315,
+      "step": 111
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 3.7885221972168974e-06,
+      "loss": 0.2286,
+      "step": 112
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 3.625760102513103e-06,
+      "loss": 0.2415,
+      "step": 113
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 3.4657939600989453e-06,
+      "loss": 0.225,
+      "step": 114
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 3.308693936411421e-06,
+      "loss": 0.2289,
+      "step": 115
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 3.1545289407131128e-06,
+      "loss": 0.2285,
+      "step": 116
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 3.003366594866345e-06,
+      "loss": 0.2052,
+      "step": 117
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 2.855273203671969e-06,
+      "loss": 0.2238,
+      "step": 118
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 2.7103137257858867e-06,
+      "loss": 0.2247,
+      "step": 119
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 2.5685517452260566e-06,
+      "loss": 0.2351,
+      "step": 120
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 2.4300494434824373e-06,
+      "loss": 0.2273,
+      "step": 121
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 2.2948675722421086e-06,
+      "loss": 0.2345,
+      "step": 122
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 2.163065426741603e-06,
+      "loss": 0.231,
+      "step": 123
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 2.0347008197580376e-06,
+      "loss": 0.2161,
+      "step": 124
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 1.9098300562505266e-06,
+      "loss": 0.2182,
+      "step": 125
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 1.7885079086629598e-06,
+      "loss": 0.1844,
+      "step": 126
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 1.6707875928990059e-06,
+      "loss": 0.1413,
+      "step": 127
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.5567207449798517e-06,
+      "loss": 0.1598,
+      "step": 128
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 1.446357398394934e-06,
+      "loss": 0.1468,
+      "step": 129
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 1.339745962155613e-06,
+      "loss": 0.1438,
+      "step": 130
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 1.2369331995613664e-06,
+      "loss": 0.1346,
+      "step": 131
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.1379642076878528e-06,
+      "loss": 0.14,
+      "step": 132
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 1.042882397605871e-06,
+      "loss": 0.1283,
+      "step": 133
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 9.517294753398066e-07,
+      "loss": 0.1469,
+      "step": 134
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 8.645454235739903e-07,
+      "loss": 0.1283,
+      "step": 135
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 7.81368484114996e-07,
+      "loss": 0.1308,
+      "step": 136
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 7.022351411174866e-07,
+      "loss": 0.1377,
+      "step": 137
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 6.271801050810856e-07,
+      "loss": 0.1303,
+      "step": 138
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 5.562362976251901e-07,
+      "loss": 0.1324,
+      "step": 139
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 4.894348370484648e-07,
+      "loss": 0.1349,
+      "step": 140
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 4.268050246793276e-07,
+      "loss": 0.1436,
+      "step": 141
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 3.68374332023419e-07,
+      "loss": 0.1379,
+      "step": 142
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 3.1416838871368925e-07,
+      "loss": 0.1305,
+      "step": 143
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 2.6421097126839714e-07,
+      "loss": 0.1447,
+      "step": 144
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 2.1852399266194312e-07,
+      "loss": 0.1392,
+      "step": 145
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 1.7712749271311392e-07,
+      "loss": 0.1374,
+      "step": 146
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 1.400396292949513e-07,
+      "loss": 0.1344,
+      "step": 147
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 1.0727667037011668e-07,
+      "loss": 0.1362,
+      "step": 148
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 7.885298685522235e-08,
+      "loss": 0.1388,
+      "step": 149
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 5.4781046317267103e-08,
+      "loss": 0.138,
+      "step": 150
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 3.50714075049563e-08,
+      "loss": 0.1313,
+      "step": 151
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 1.973271571728441e-08,
+      "loss": 0.1269,
+      "step": 152
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 8.771699011416169e-09,
+      "loss": 0.1342,
+      "step": 153
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 2.193165251545004e-09,
+      "loss": 0.1314,
+      "step": 154
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 0.0,
+      "loss": 0.1295,
+      "step": 155
+    },
+    {
+      "epoch": 4.94,
+      "step": 155,
+      "total_flos": 3.9440033991622656e+17,
+      "train_loss": 0.5788933105045749,
+      "train_runtime": 3929.4287,
+      "train_samples_per_second": 10.209,
+      "train_steps_per_second": 0.039
+    }
+  ],
+  "max_steps": 155,
+  "num_train_epochs": 5,
+  "total_flos": 3.9440033991622656e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f15c852293f2ecbd5fd66946578a812b628b11ddf1bc94bee165c4d3d6d857ae
+size 3771