hyungjoochae commited on Feb 13

Commit

4bac5de

verified ·

1 Parent(s): 36f705d

Upload folder using huggingface_hub

Browse files

Files changed (19) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
config.json +28 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +208 -0
trainer_state.json +2473 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-7B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151665
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.47.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03e06e1864c6157e2d404ef47f96df486344f0fbfa4afe537aab2e8750ff45c0
+size 4970967152

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0beeaa0e02ee1859f9d3f8ecbebc6fa27f60314a6c31d79152e84c7f638ca0bc
+size 4778622352

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:512bcc94d9ed62285238ed9188c26790516d821c68c3e0adf8e42d1220b2dc4e
+size 4932743960

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08b18641b061de30acbb90488a7d316582881ac297ed3e9e8c456b89e92fd690
+size 4932743992

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a83eca8a565b11b7b73466515629673a08f2abe3352648ed43fd4cb9dcea14e2
+size 4998852296

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68c3641ae05a106c11af61a63b98ec2a8537020c89b6d582b3a8b1306befdd74
+size 3662865184

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbc487c99613dd7a643a1115132e844758f0df3d1d1c9e11adfb1cb6c2f20ace
+size 2174269568

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 30451025920
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2473 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 7.90282131661442,
+  "eval_steps": 10,
+  "global_step": 312,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.025078369905956112,
+      "grad_norm": 6.280787944793701,
+      "learning_rate": 2.5000000000000004e-07,
+      "loss": 0.8488,
+      "step": 1
+    },
+    {
+      "epoch": 0.025078369905956112,
+      "eval_loss": 0.8714172840118408,
+      "eval_runtime": 56.3493,
+      "eval_samples_per_second": 4.49,
+      "eval_steps_per_second": 1.136,
+      "step": 1
+    },
+    {
+      "epoch": 0.050156739811912224,
+      "grad_norm": 6.242363452911377,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.8613,
+      "step": 2
+    },
+    {
+      "epoch": 0.07523510971786834,
+      "grad_norm": 6.350436687469482,
+      "learning_rate": 7.5e-07,
+      "loss": 0.8226,
+      "step": 3
+    },
+    {
+      "epoch": 0.10031347962382445,
+      "grad_norm": 6.300597667694092,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.8508,
+      "step": 4
+    },
+    {
+      "epoch": 0.12539184952978055,
+      "grad_norm": 6.260216236114502,
+      "learning_rate": 1.25e-06,
+      "loss": 0.8631,
+      "step": 5
+    },
+    {
+      "epoch": 0.15047021943573669,
+      "grad_norm": 5.663886547088623,
+      "learning_rate": 1.5e-06,
+      "loss": 0.859,
+      "step": 6
+    },
+    {
+      "epoch": 0.1755485893416928,
+      "grad_norm": 5.788787841796875,
+      "learning_rate": 1.75e-06,
+      "loss": 0.8445,
+      "step": 7
+    },
+    {
+      "epoch": 0.2006269592476489,
+      "grad_norm": 4.644798278808594,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.8056,
+      "step": 8
+    },
+    {
+      "epoch": 0.22570532915360503,
+      "grad_norm": 4.4070305824279785,
+      "learning_rate": 2.25e-06,
+      "loss": 0.8105,
+      "step": 9
+    },
+    {
+      "epoch": 0.2507836990595611,
+      "grad_norm": 2.863910436630249,
+      "learning_rate": 2.5e-06,
+      "loss": 0.7289,
+      "step": 10
+    },
+    {
+      "epoch": 0.2507836990595611,
+      "eval_loss": 0.7435150146484375,
+      "eval_runtime": 57.8024,
+      "eval_samples_per_second": 4.377,
+      "eval_steps_per_second": 1.107,
+      "step": 10
+    },
+    {
+      "epoch": 0.27586206896551724,
+      "grad_norm": 2.6041078567504883,
+      "learning_rate": 2.7500000000000004e-06,
+      "loss": 0.7398,
+      "step": 11
+    },
+    {
+      "epoch": 0.30094043887147337,
+      "grad_norm": 2.1565794944763184,
+      "learning_rate": 3e-06,
+      "loss": 0.7174,
+      "step": 12
+    },
+    {
+      "epoch": 0.32601880877742945,
+      "grad_norm": 2.090147018432617,
+      "learning_rate": 3.2500000000000002e-06,
+      "loss": 0.6602,
+      "step": 13
+    },
+    {
+      "epoch": 0.3510971786833856,
+      "grad_norm": 2.6575822830200195,
+      "learning_rate": 3.5e-06,
+      "loss": 0.7189,
+      "step": 14
+    },
+    {
+      "epoch": 0.3761755485893417,
+      "grad_norm": 2.396695613861084,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.692,
+      "step": 15
+    },
+    {
+      "epoch": 0.4012539184952978,
+      "grad_norm": 2.1986083984375,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7125,
+      "step": 16
+    },
+    {
+      "epoch": 0.4263322884012539,
+      "grad_norm": 1.5976613759994507,
+      "learning_rate": 4.25e-06,
+      "loss": 0.6533,
+      "step": 17
+    },
+    {
+      "epoch": 0.45141065830721006,
+      "grad_norm": 1.310275912284851,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6814,
+      "step": 18
+    },
+    {
+      "epoch": 0.47648902821316613,
+      "grad_norm": 1.2808138132095337,
+      "learning_rate": 4.75e-06,
+      "loss": 0.627,
+      "step": 19
+    },
+    {
+      "epoch": 0.5015673981191222,
+      "grad_norm": 1.3704053163528442,
+      "learning_rate": 5e-06,
+      "loss": 0.6573,
+      "step": 20
+    },
+    {
+      "epoch": 0.5015673981191222,
+      "eval_loss": 0.6507061719894409,
+      "eval_runtime": 56.9306,
+      "eval_samples_per_second": 4.444,
+      "eval_steps_per_second": 1.124,
+      "step": 20
+    },
+    {
+      "epoch": 0.5266457680250783,
+      "grad_norm": 1.4106298685073853,
+      "learning_rate": 4.999855309550366e-06,
+      "loss": 0.6348,
+      "step": 21
+    },
+    {
+      "epoch": 0.5517241379310345,
+      "grad_norm": 1.2755047082901,
+      "learning_rate": 4.999421254949728e-06,
+      "loss": 0.6468,
+      "step": 22
+    },
+    {
+      "epoch": 0.5768025078369906,
+      "grad_norm": 1.2730042934417725,
+      "learning_rate": 4.998697886440927e-06,
+      "loss": 0.6529,
+      "step": 23
+    },
+    {
+      "epoch": 0.6018808777429467,
+      "grad_norm": 0.9642966389656067,
+      "learning_rate": 4.9976852877555755e-06,
+      "loss": 0.6163,
+      "step": 24
+    },
+    {
+      "epoch": 0.6269592476489029,
+      "grad_norm": 1.0537285804748535,
+      "learning_rate": 4.996383576104362e-06,
+      "loss": 0.6551,
+      "step": 25
+    },
+    {
+      "epoch": 0.6520376175548589,
+      "grad_norm": 0.9145538806915283,
+      "learning_rate": 4.9947929021634815e-06,
+      "loss": 0.627,
+      "step": 26
+    },
+    {
+      "epoch": 0.677115987460815,
+      "grad_norm": 0.9813326597213745,
+      "learning_rate": 4.9929134500571954e-06,
+      "loss": 0.6207,
+      "step": 27
+    },
+    {
+      "epoch": 0.7021943573667712,
+      "grad_norm": 0.9403784275054932,
+      "learning_rate": 4.99074543733652e-06,
+      "loss": 0.6247,
+      "step": 28
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 0.8840904235839844,
+      "learning_rate": 4.988289114954045e-06,
+      "loss": 0.6138,
+      "step": 29
+    },
+    {
+      "epoch": 0.7523510971786834,
+      "grad_norm": 1.0203614234924316,
+      "learning_rate": 4.98554476723488e-06,
+      "loss": 0.6228,
+      "step": 30
+    },
+    {
+      "epoch": 0.7523510971786834,
+      "eval_loss": 0.6285660862922668,
+      "eval_runtime": 56.7744,
+      "eval_samples_per_second": 4.456,
+      "eval_steps_per_second": 1.127,
+      "step": 30
+    },
+    {
+      "epoch": 0.7774294670846394,
+      "grad_norm": 0.892383337020874,
+      "learning_rate": 4.982512711843753e-06,
+      "loss": 0.5994,
+      "step": 31
+    },
+    {
+      "epoch": 0.8025078369905956,
+      "grad_norm": 0.744002640247345,
+      "learning_rate": 4.979193299748225e-06,
+      "loss": 0.6018,
+      "step": 32
+    },
+    {
+      "epoch": 0.8275862068965517,
+      "grad_norm": 0.7385317087173462,
+      "learning_rate": 4.975586915178084e-06,
+      "loss": 0.6403,
+      "step": 33
+    },
+    {
+      "epoch": 0.8526645768025078,
+      "grad_norm": 0.7468766570091248,
+      "learning_rate": 4.971693975580851e-06,
+      "loss": 0.6116,
+      "step": 34
+    },
+    {
+      "epoch": 0.877742946708464,
+      "grad_norm": 0.8766655921936035,
+      "learning_rate": 4.967514931573473e-06,
+      "loss": 0.6485,
+      "step": 35
+    },
+    {
+      "epoch": 0.9028213166144201,
+      "grad_norm": 0.6684965491294861,
+      "learning_rate": 4.963050266890152e-06,
+      "loss": 0.5938,
+      "step": 36
+    },
+    {
+      "epoch": 0.9278996865203761,
+      "grad_norm": 0.6450899243354797,
+      "learning_rate": 4.958300498326363e-06,
+      "loss": 0.584,
+      "step": 37
+    },
+    {
+      "epoch": 0.9529780564263323,
+      "grad_norm": 0.6198697090148926,
+      "learning_rate": 4.953266175679023e-06,
+      "loss": 0.597,
+      "step": 38
+    },
+    {
+      "epoch": 0.9780564263322884,
+      "grad_norm": 0.6586700677871704,
+      "learning_rate": 4.947947881682861e-06,
+      "loss": 0.5868,
+      "step": 39
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.7111836671829224,
+      "learning_rate": 4.942346231942955e-06,
+      "loss": 0.6001,
+      "step": 40
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.619744598865509,
+      "eval_runtime": 58.0285,
+      "eval_samples_per_second": 4.36,
+      "eval_steps_per_second": 1.103,
+      "step": 40
+    },
+    {
+      "epoch": 1.025078369905956,
+      "grad_norm": 0.6828199028968811,
+      "learning_rate": 4.9364618748634794e-06,
+      "loss": 0.6068,
+      "step": 41
+    },
+    {
+      "epoch": 1.0501567398119123,
+      "grad_norm": 0.6952019333839417,
+      "learning_rate": 4.9302954915726535e-06,
+      "loss": 0.6022,
+      "step": 42
+    },
+    {
+      "epoch": 1.0752351097178683,
+      "grad_norm": 0.6920235753059387,
+      "learning_rate": 4.923847795843894e-06,
+      "loss": 0.6057,
+      "step": 43
+    },
+    {
+      "epoch": 1.1003134796238245,
+      "grad_norm": 0.6816275119781494,
+      "learning_rate": 4.917119534013194e-06,
+      "loss": 0.6033,
+      "step": 44
+    },
+    {
+      "epoch": 1.1253918495297806,
+      "grad_norm": 0.6140997409820557,
+      "learning_rate": 4.91011148489274e-06,
+      "loss": 0.6075,
+      "step": 45
+    },
+    {
+      "epoch": 1.1504702194357366,
+      "grad_norm": 0.7131819128990173,
+      "learning_rate": 4.9028244596807525e-06,
+      "loss": 0.6167,
+      "step": 46
+    },
+    {
+      "epoch": 1.1755485893416928,
+      "grad_norm": 0.7282701730728149,
+      "learning_rate": 4.8952593018675955e-06,
+      "loss": 0.5543,
+      "step": 47
+    },
+    {
+      "epoch": 1.2006269592476488,
+      "grad_norm": 0.6887822151184082,
+      "learning_rate": 4.887416887138139e-06,
+      "loss": 0.5939,
+      "step": 48
+    },
+    {
+      "epoch": 1.225705329153605,
+      "grad_norm": 0.6386746764183044,
+      "learning_rate": 4.879298123270391e-06,
+      "loss": 0.5744,
+      "step": 49
+    },
+    {
+      "epoch": 1.250783699059561,
+      "grad_norm": 0.5356111526489258,
+      "learning_rate": 4.870903950030429e-06,
+      "loss": 0.5966,
+      "step": 50
+    },
+    {
+      "epoch": 1.250783699059561,
+      "eval_loss": 0.6154619455337524,
+      "eval_runtime": 57.4912,
+      "eval_samples_per_second": 4.401,
+      "eval_steps_per_second": 1.113,
+      "step": 50
+    },
+    {
+      "epoch": 1.2758620689655173,
+      "grad_norm": 0.6823127865791321,
+      "learning_rate": 4.862235339063613e-06,
+      "loss": 0.5822,
+      "step": 51
+    },
+    {
+      "epoch": 1.3009404388714734,
+      "grad_norm": 0.6357265114784241,
+      "learning_rate": 4.853293293782118e-06,
+      "loss": 0.5842,
+      "step": 52
+    },
+    {
+      "epoch": 1.3260188087774294,
+      "grad_norm": 0.653724730014801,
+      "learning_rate": 4.844078849248785e-06,
+      "loss": 0.5818,
+      "step": 53
+    },
+    {
+      "epoch": 1.3510971786833856,
+      "grad_norm": 0.5702041983604431,
+      "learning_rate": 4.834593072057313e-06,
+      "loss": 0.5714,
+      "step": 54
+    },
+    {
+      "epoch": 1.3761755485893417,
+      "grad_norm": 0.6664108037948608,
+      "learning_rate": 4.8248370602087954e-06,
+      "loss": 0.5952,
+      "step": 55
+    },
+    {
+      "epoch": 1.4012539184952977,
+      "grad_norm": 0.6102452278137207,
+      "learning_rate": 4.814811942984625e-06,
+      "loss": 0.5686,
+      "step": 56
+    },
+    {
+      "epoch": 1.426332288401254,
+      "grad_norm": 0.5584444403648376,
+      "learning_rate": 4.804518880815776e-06,
+      "loss": 0.5728,
+      "step": 57
+    },
+    {
+      "epoch": 1.4514106583072102,
+      "grad_norm": 0.6079468727111816,
+      "learning_rate": 4.793959065148484e-06,
+      "loss": 0.5924,
+      "step": 58
+    },
+    {
+      "epoch": 1.4764890282131662,
+      "grad_norm": 0.5955600142478943,
+      "learning_rate": 4.783133718306331e-06,
+      "loss": 0.5826,
+      "step": 59
+    },
+    {
+      "epoch": 1.5015673981191222,
+      "grad_norm": 0.6018550992012024,
+      "learning_rate": 4.772044093348757e-06,
+      "loss": 0.589,
+      "step": 60
+    },
+    {
+      "epoch": 1.5015673981191222,
+      "eval_loss": 0.6126804351806641,
+      "eval_runtime": 57.1924,
+      "eval_samples_per_second": 4.424,
+      "eval_steps_per_second": 1.119,
+      "step": 60
+    },
+    {
+      "epoch": 1.5266457680250785,
+      "grad_norm": 0.5484575033187866,
+      "learning_rate": 4.760691473926021e-06,
+      "loss": 0.5824,
+      "step": 61
+    },
+    {
+      "epoch": 1.5517241379310345,
+      "grad_norm": 0.5567229986190796,
+      "learning_rate": 4.749077174130609e-06,
+      "loss": 0.5863,
+      "step": 62
+    },
+    {
+      "epoch": 1.5768025078369905,
+      "grad_norm": 0.5353906154632568,
+      "learning_rate": 4.7372025383451285e-06,
+      "loss": 0.5602,
+      "step": 63
+    },
+    {
+      "epoch": 1.6018808777429467,
+      "grad_norm": 0.5622440576553345,
+      "learning_rate": 4.725068941086693e-06,
+      "loss": 0.58,
+      "step": 64
+    },
+    {
+      "epoch": 1.626959247648903,
+      "grad_norm": 0.5957438945770264,
+      "learning_rate": 4.712677786847814e-06,
+      "loss": 0.5896,
+      "step": 65
+    },
+    {
+      "epoch": 1.6520376175548588,
+      "grad_norm": 0.5416698455810547,
+      "learning_rate": 4.70003050993384e-06,
+      "loss": 0.5326,
+      "step": 66
+    },
+    {
+      "epoch": 1.677115987460815,
+      "grad_norm": 0.5526486039161682,
+      "learning_rate": 4.687128574296912e-06,
+      "loss": 0.5786,
+      "step": 67
+    },
+    {
+      "epoch": 1.7021943573667713,
+      "grad_norm": 0.5449246168136597,
+      "learning_rate": 4.6739734733665275e-06,
+      "loss": 0.5847,
+      "step": 68
+    },
+    {
+      "epoch": 1.7272727272727273,
+      "grad_norm": 0.5739784240722656,
+      "learning_rate": 4.660566729876661e-06,
+      "loss": 0.6141,
+      "step": 69
+    },
+    {
+      "epoch": 1.7523510971786833,
+      "grad_norm": 0.5566856265068054,
+      "learning_rate": 4.646909895689508e-06,
+      "loss": 0.5647,
+      "step": 70
+    },
+    {
+      "epoch": 1.7523510971786833,
+      "eval_loss": 0.6108464002609253,
+      "eval_runtime": 57.1647,
+      "eval_samples_per_second": 4.426,
+      "eval_steps_per_second": 1.12,
+      "step": 70
+    },
+    {
+      "epoch": 1.7774294670846396,
+      "grad_norm": 0.5969553589820862,
+      "learning_rate": 4.633004551615851e-06,
+      "loss": 0.5984,
+      "step": 71
+    },
+    {
+      "epoch": 1.8025078369905956,
+      "grad_norm": 0.5127418637275696,
+      "learning_rate": 4.618852307232078e-06,
+      "loss": 0.5658,
+      "step": 72
+    },
+    {
+      "epoch": 1.8275862068965516,
+      "grad_norm": 0.5816674828529358,
+      "learning_rate": 4.604454800693874e-06,
+      "loss": 0.5696,
+      "step": 73
+    },
+    {
+      "epoch": 1.8526645768025078,
+      "grad_norm": 0.6066269278526306,
+      "learning_rate": 4.589813698546592e-06,
+      "loss": 0.5868,
+      "step": 74
+    },
+    {
+      "epoch": 1.877742946708464,
+      "grad_norm": 0.5260308384895325,
+      "learning_rate": 4.574930695532357e-06,
+      "loss": 0.5729,
+      "step": 75
+    },
+    {
+      "epoch": 1.90282131661442,
+      "grad_norm": 0.5949568152427673,
+      "learning_rate": 4.5598075143938855e-06,
+      "loss": 0.5765,
+      "step": 76
+    },
+    {
+      "epoch": 1.9278996865203761,
+      "grad_norm": 0.540968656539917,
+      "learning_rate": 4.544445905675082e-06,
+      "loss": 0.5631,
+      "step": 77
+    },
+    {
+      "epoch": 1.9529780564263324,
+      "grad_norm": 0.5915561318397522,
+      "learning_rate": 4.528847647518403e-06,
+      "loss": 0.5832,
+      "step": 78
+    },
+    {
+      "epoch": 1.9780564263322884,
+      "grad_norm": 0.5680689811706543,
+      "learning_rate": 4.513014545459038e-06,
+      "loss": 0.5864,
+      "step": 79
+    },
+    {
+      "epoch": 2.0250783699059562,
+      "grad_norm": 0.5871730446815491,
+      "learning_rate": 4.4969484322159125e-06,
+      "loss": 1.1281,
+      "step": 80
+    },
+    {
+      "epoch": 2.0250783699059562,
+      "eval_loss": 0.6094232201576233,
+      "eval_runtime": 56.6168,
+      "eval_samples_per_second": 4.469,
+      "eval_steps_per_second": 1.13,
+      "step": 80
+    },
+    {
+      "epoch": 2.050156739811912,
+      "grad_norm": 0.4961514174938202,
+      "learning_rate": 4.480651167479545e-06,
+      "loss": 0.5208,
+      "step": 81
+    },
+    {
+      "epoch": 2.0752351097178683,
+      "grad_norm": 0.5264574289321899,
+      "learning_rate": 4.464124637696786e-06,
+      "loss": 0.5737,
+      "step": 82
+    },
+    {
+      "epoch": 2.1003134796238245,
+      "grad_norm": 0.5269911289215088,
+      "learning_rate": 4.4473707558524555e-06,
+      "loss": 0.5341,
+      "step": 83
+    },
+    {
+      "epoch": 2.1253918495297803,
+      "grad_norm": 0.6064315438270569,
+      "learning_rate": 4.430391461247911e-06,
+      "loss": 0.5727,
+      "step": 84
+    },
+    {
+      "epoch": 2.1504702194357366,
+      "grad_norm": 0.578746497631073,
+      "learning_rate": 4.413188719276569e-06,
+      "loss": 0.5567,
+      "step": 85
+    },
+    {
+      "epoch": 2.175548589341693,
+      "grad_norm": 0.5594313144683838,
+      "learning_rate": 4.3957645211964065e-06,
+      "loss": 0.5394,
+      "step": 86
+    },
+    {
+      "epoch": 2.200626959247649,
+      "grad_norm": 0.5283300876617432,
+      "learning_rate": 4.378120883899467e-06,
+      "loss": 0.5434,
+      "step": 87
+    },
+    {
+      "epoch": 2.225705329153605,
+      "grad_norm": 0.6010631322860718,
+      "learning_rate": 4.360259849678402e-06,
+      "loss": 0.5338,
+      "step": 88
+    },
+    {
+      "epoch": 2.250783699059561,
+      "grad_norm": 0.5411279797554016,
+      "learning_rate": 4.3421834859900695e-06,
+      "loss": 0.5771,
+      "step": 89
+    },
+    {
+      "epoch": 2.2758620689655173,
+      "grad_norm": 0.5841116905212402,
+      "learning_rate": 4.3238938852162195e-06,
+      "loss": 0.5332,
+      "step": 90
+    },
+    {
+      "epoch": 2.2758620689655173,
+      "eval_loss": 0.6116988062858582,
+      "eval_runtime": 56.36,
+      "eval_samples_per_second": 4.489,
+      "eval_steps_per_second": 1.136,
+      "step": 90
+    },
+    {
+      "epoch": 2.300940438871473,
+      "grad_norm": 0.5811100602149963,
+      "learning_rate": 4.305393164421301e-06,
+      "loss": 0.5639,
+      "step": 91
+    },
+    {
+      "epoch": 2.3260188087774294,
+      "grad_norm": 0.5464845299720764,
+      "learning_rate": 4.286683465107403e-06,
+      "loss": 0.5174,
+      "step": 92
+    },
+    {
+      "epoch": 2.3510971786833856,
+      "grad_norm": 0.5783210396766663,
+      "learning_rate": 4.267766952966369e-06,
+      "loss": 0.5418,
+      "step": 93
+    },
+    {
+      "epoch": 2.376175548589342,
+      "grad_norm": 0.5762320160865784,
+      "learning_rate": 4.2486458176291176e-06,
+      "loss": 0.5376,
+      "step": 94
+    },
+    {
+      "epoch": 2.4012539184952977,
+      "grad_norm": 0.5974652171134949,
+      "learning_rate": 4.2293222724121855e-06,
+      "loss": 0.5725,
+      "step": 95
+    },
+    {
+      "epoch": 2.426332288401254,
+      "grad_norm": 0.5476479530334473,
+      "learning_rate": 4.209798554061527e-06,
+      "loss": 0.5342,
+      "step": 96
+    },
+    {
+      "epoch": 2.45141065830721,
+      "grad_norm": 0.545107364654541,
+      "learning_rate": 4.1900769224936125e-06,
+      "loss": 0.5402,
+      "step": 97
+    },
+    {
+      "epoch": 2.476489028213166,
+      "grad_norm": 0.5558952689170837,
+      "learning_rate": 4.170159660533834e-06,
+      "loss": 0.5313,
+      "step": 98
+    },
+    {
+      "epoch": 2.501567398119122,
+      "grad_norm": 0.5344138145446777,
+      "learning_rate": 4.150049073652262e-06,
+      "loss": 0.5608,
+      "step": 99
+    },
+    {
+      "epoch": 2.5266457680250785,
+      "grad_norm": 0.5411354303359985,
+      "learning_rate": 4.129747489696781e-06,
+      "loss": 0.5411,
+      "step": 100
+    },
+    {
+      "epoch": 2.5266457680250785,
+      "eval_loss": 0.6111965179443359,
+      "eval_runtime": 56.3453,
+      "eval_samples_per_second": 4.49,
+      "eval_steps_per_second": 1.136,
+      "step": 100
+    },
+    {
+      "epoch": 2.5517241379310347,
+      "grad_norm": 0.5531957745552063,
+      "learning_rate": 4.109257258623644e-06,
+      "loss": 0.5377,
+      "step": 101
+    },
+    {
+      "epoch": 2.5768025078369905,
+      "grad_norm": 0.6287798285484314,
+      "learning_rate": 4.0885807522254435e-06,
+      "loss": 0.5411,
+      "step": 102
+    },
+    {
+      "epoch": 2.6018808777429467,
+      "grad_norm": 0.5560362935066223,
+      "learning_rate": 4.0677203638565895e-06,
+      "loss": 0.5755,
+      "step": 103
+    },
+    {
+      "epoch": 2.626959247648903,
+      "grad_norm": 0.511307418346405,
+      "learning_rate": 4.046678508156259e-06,
+      "loss": 0.5283,
+      "step": 104
+    },
+    {
+      "epoch": 2.652037617554859,
+      "grad_norm": 0.5462407469749451,
+      "learning_rate": 4.025457620768901e-06,
+      "loss": 0.5499,
+      "step": 105
+    },
+    {
+      "epoch": 2.677115987460815,
+      "grad_norm": 0.5515374541282654,
+      "learning_rate": 4.004060158062306e-06,
+      "loss": 0.5559,
+      "step": 106
+    },
+    {
+      "epoch": 2.7021943573667713,
+      "grad_norm": 0.6017235517501831,
+      "learning_rate": 3.982488596843276e-06,
+      "loss": 0.5232,
+      "step": 107
+    },
+    {
+      "epoch": 2.7272727272727275,
+      "grad_norm": 0.5844964385032654,
+      "learning_rate": 3.9607454340709215e-06,
+      "loss": 0.5573,
+      "step": 108
+    },
+    {
+      "epoch": 2.7523510971786833,
+      "grad_norm": 0.5593999624252319,
+      "learning_rate": 3.9388331865676436e-06,
+      "loss": 0.5981,
+      "step": 109
+    },
+    {
+      "epoch": 2.7774294670846396,
+      "grad_norm": 0.5903000831604004,
+      "learning_rate": 3.916754390727795e-06,
+      "loss": 0.5631,
+      "step": 110
+    },
+    {
+      "epoch": 2.7774294670846396,
+      "eval_loss": 0.6109482049942017,
+      "eval_runtime": 57.2203,
+      "eval_samples_per_second": 4.422,
+      "eval_steps_per_second": 1.118,
+      "step": 110
+    },
+    {
+      "epoch": 2.8025078369905954,
+      "grad_norm": 0.5573733448982239,
+      "learning_rate": 3.8945116022240945e-06,
+      "loss": 0.5519,
+      "step": 111
+    },
+    {
+      "epoch": 2.8275862068965516,
+      "grad_norm": 0.5351065993309021,
+      "learning_rate": 3.872107395711799e-06,
+      "loss": 0.5789,
+      "step": 112
+    },
+    {
+      "epoch": 2.852664576802508,
+      "grad_norm": 0.542198896408081,
+      "learning_rate": 3.849544364530678e-06,
+      "loss": 0.5593,
+      "step": 113
+    },
+    {
+      "epoch": 2.877742946708464,
+      "grad_norm": 0.5060754418373108,
+      "learning_rate": 3.8268251204048335e-06,
+      "loss": 0.5249,
+      "step": 114
+    },
+    {
+      "epoch": 2.9028213166144203,
+      "grad_norm": 0.5365764498710632,
+      "learning_rate": 3.803952293140385e-06,
+      "loss": 0.5198,
+      "step": 115
+    },
+    {
+      "epoch": 2.927899686520376,
+      "grad_norm": 0.5608472228050232,
+      "learning_rate": 3.78092853032106e-06,
+      "loss": 0.541,
+      "step": 116
+    },
+    {
+      "epoch": 2.9529780564263324,
+      "grad_norm": 0.5199534296989441,
+      "learning_rate": 3.7577564970017338e-06,
+      "loss": 0.5245,
+      "step": 117
+    },
+    {
+      "epoch": 2.978056426332288,
+      "grad_norm": 0.5103073716163635,
+      "learning_rate": 3.7344388753999434e-06,
+      "loss": 0.533,
+      "step": 118
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.5939333438873291,
+      "learning_rate": 3.7109783645854116e-06,
+      "loss": 0.5705,
+      "step": 119
+    },
+    {
+      "epoch": 3.0250783699059562,
+      "grad_norm": 0.5306328535079956,
+      "learning_rate": 3.6873776801676265e-06,
+      "loss": 0.5176,
+      "step": 120
+    },
+    {
+      "epoch": 3.0250783699059562,
+      "eval_loss": 0.611231803894043,
+      "eval_runtime": 56.8144,
+      "eval_samples_per_second": 4.453,
+      "eval_steps_per_second": 1.126,
+      "step": 120
+    },
+    {
+      "epoch": 3.050156739811912,
+      "grad_norm": 0.5840681791305542,
+      "learning_rate": 3.6636395539814975e-06,
+      "loss": 0.5279,
+      "step": 121
+    },
+    {
+      "epoch": 3.0752351097178683,
+      "grad_norm": 0.5132699012756348,
+      "learning_rate": 3.6397667337711475e-06,
+      "loss": 0.5053,
+      "step": 122
+    },
+    {
+      "epoch": 3.1003134796238245,
+      "grad_norm": 0.5169897079467773,
+      "learning_rate": 3.6157619828718477e-06,
+      "loss": 0.5396,
+      "step": 123
+    },
+    {
+      "epoch": 3.1253918495297803,
+      "grad_norm": 0.5502941012382507,
+      "learning_rate": 3.5916280798901604e-06,
+      "loss": 0.5293,
+      "step": 124
+    },
+    {
+      "epoch": 3.1504702194357366,
+      "grad_norm": 0.5080646872520447,
+      "learning_rate": 3.567367818382303e-06,
+      "loss": 0.5425,
+      "step": 125
+    },
+    {
+      "epoch": 3.175548589341693,
+      "grad_norm": 0.5357327461242676,
+      "learning_rate": 3.5429840065307924e-06,
+      "loss": 0.5088,
+      "step": 126
+    },
+    {
+      "epoch": 3.200626959247649,
+      "grad_norm": 0.5295804142951965,
+      "learning_rate": 3.5184794668193893e-06,
+      "loss": 0.5174,
+      "step": 127
+    },
+    {
+      "epoch": 3.225705329153605,
+      "grad_norm": 0.5532645583152771,
+      "learning_rate": 3.4938570357063906e-06,
+      "loss": 0.5207,
+      "step": 128
+    },
+    {
+      "epoch": 3.250783699059561,
+      "grad_norm": 0.49190568923950195,
+      "learning_rate": 3.469119563296296e-06,
+      "loss": 0.5213,
+      "step": 129
+    },
+    {
+      "epoch": 3.2758620689655173,
+      "grad_norm": 0.5915364623069763,
+      "learning_rate": 3.444269913009912e-06,
+      "loss": 0.5325,
+      "step": 130
+    },
+    {
+      "epoch": 3.2758620689655173,
+      "eval_loss": 0.6168193817138672,
+      "eval_runtime": 56.8317,
+      "eval_samples_per_second": 4.452,
+      "eval_steps_per_second": 1.126,
+      "step": 130
+    },
+    {
+      "epoch": 3.300940438871473,
+      "grad_norm": 0.5586272478103638,
+      "learning_rate": 3.4193109612528972e-06,
+      "loss": 0.5246,
+      "step": 131
+    },
+    {
+      "epoch": 3.3260188087774294,
+      "grad_norm": 0.537169337272644,
+      "learning_rate": 3.3942455970828146e-06,
+      "loss": 0.5258,
+      "step": 132
+    },
+    {
+      "epoch": 3.3510971786833856,
+      "grad_norm": 0.5035713911056519,
+      "learning_rate": 3.3690767218747104e-06,
+      "loss": 0.4922,
+      "step": 133
+    },
+    {
+      "epoch": 3.376175548589342,
+      "grad_norm": 0.5386229157447815,
+      "learning_rate": 3.3438072489852837e-06,
+      "loss": 0.5073,
+      "step": 134
+    },
+    {
+      "epoch": 3.4012539184952977,
+      "grad_norm": 0.5263192057609558,
+      "learning_rate": 3.318440103415649e-06,
+      "loss": 0.4908,
+      "step": 135
+    },
+    {
+      "epoch": 3.426332288401254,
+      "grad_norm": 0.5167001485824585,
+      "learning_rate": 3.2929782214727657e-06,
+      "loss": 0.5257,
+      "step": 136
+    },
+    {
+      "epoch": 3.45141065830721,
+      "grad_norm": 0.5184784531593323,
+      "learning_rate": 3.2674245504295505e-06,
+      "loss": 0.5258,
+      "step": 137
+    },
+    {
+      "epoch": 3.476489028213166,
+      "grad_norm": 0.5444779396057129,
+      "learning_rate": 3.241782048183726e-06,
+      "loss": 0.5351,
+      "step": 138
+    },
+    {
+      "epoch": 3.501567398119122,
+      "grad_norm": 0.4975223243236542,
+      "learning_rate": 3.216053682915436e-06,
+      "loss": 0.4897,
+      "step": 139
+    },
+    {
+      "epoch": 3.5266457680250785,
+      "grad_norm": 0.523763120174408,
+      "learning_rate": 3.190242432743673e-06,
+      "loss": 0.5086,
+      "step": 140
+    },
+    {
+      "epoch": 3.5266457680250785,
+      "eval_loss": 0.6170360445976257,
+      "eval_runtime": 56.1315,
+      "eval_samples_per_second": 4.507,
+      "eval_steps_per_second": 1.14,
+      "step": 140
+    },
+    {
+      "epoch": 3.5517241379310347,
+      "grad_norm": 0.47848424315452576,
+      "learning_rate": 3.164351285381549e-06,
+      "loss": 0.5182,
+      "step": 141
+    },
+    {
+      "epoch": 3.5768025078369905,
+      "grad_norm": 0.5615228414535522,
+      "learning_rate": 3.1383832377904676e-06,
+      "loss": 0.531,
+      "step": 142
+    },
+    {
+      "epoch": 3.6018808777429467,
+      "grad_norm": 0.5262857675552368,
+      "learning_rate": 3.1123412958332155e-06,
+      "loss": 0.4921,
+      "step": 143
+    },
+    {
+      "epoch": 3.626959247648903,
+      "grad_norm": 0.5268239974975586,
+      "learning_rate": 3.0862284739260247e-06,
+      "loss": 0.512,
+      "step": 144
+    },
+    {
+      "epoch": 3.652037617554859,
+      "grad_norm": 0.5254887342453003,
+      "learning_rate": 3.0600477946896494e-06,
+      "loss": 0.5287,
+      "step": 145
+    },
+    {
+      "epoch": 3.677115987460815,
+      "grad_norm": 0.5037873387336731,
+      "learning_rate": 3.0338022885994904e-06,
+      "loss": 0.5042,
+      "step": 146
+    },
+    {
+      "epoch": 3.7021943573667713,
+      "grad_norm": 0.5312690138816833,
+      "learning_rate": 3.0074949936348084e-06,
+      "loss": 0.5258,
+      "step": 147
+    },
+    {
+      "epoch": 3.7272727272727275,
+      "grad_norm": 0.5280077457427979,
+      "learning_rate": 2.981128954927075e-06,
+      "loss": 0.5202,
+      "step": 148
+    },
+    {
+      "epoch": 3.7523510971786833,
+      "grad_norm": 0.5025335550308228,
+      "learning_rate": 2.9547072244074853e-06,
+      "loss": 0.5188,
+      "step": 149
+    },
+    {
+      "epoch": 3.7774294670846396,
+      "grad_norm": 0.4929148554801941,
+      "learning_rate": 2.928232860453694e-06,
+      "loss": 0.4978,
+      "step": 150
+    },
+    {
+      "epoch": 3.7774294670846396,
+      "eval_loss": 0.6169312596321106,
+      "eval_runtime": 56.4401,
+      "eval_samples_per_second": 4.483,
+      "eval_steps_per_second": 1.134,
+      "step": 150
+    },
+    {
+      "epoch": 3.8025078369905954,
+      "grad_norm": 0.49332642555236816,
+      "learning_rate": 2.9017089275358017e-06,
+      "loss": 0.5027,
+      "step": 151
+    },
+    {
+      "epoch": 3.8275862068965516,
+      "grad_norm": 0.5339496731758118,
+      "learning_rate": 2.8751384958616318e-06,
+      "loss": 0.5255,
+      "step": 152
+    },
+    {
+      "epoch": 3.852664576802508,
+      "grad_norm": 0.5038976073265076,
+      "learning_rate": 2.8485246410213497e-06,
+      "loss": 0.4974,
+      "step": 153
+    },
+    {
+      "epoch": 3.877742946708464,
+      "grad_norm": 0.5113703012466431,
+      "learning_rate": 2.8218704436314525e-06,
+      "loss": 0.5176,
+      "step": 154
+    },
+    {
+      "epoch": 3.9028213166144203,
+      "grad_norm": 0.5277018547058105,
+      "learning_rate": 2.795178988978185e-06,
+      "loss": 0.5535,
+      "step": 155
+    },
+    {
+      "epoch": 3.927899686520376,
+      "grad_norm": 0.48161235451698303,
+      "learning_rate": 2.768453366660408e-06,
+      "loss": 0.5013,
+      "step": 156
+    },
+    {
+      "epoch": 3.9529780564263324,
+      "grad_norm": 0.482977032661438,
+      "learning_rate": 2.741696670231969e-06,
+      "loss": 0.5053,
+      "step": 157
+    },
+    {
+      "epoch": 3.978056426332288,
+      "grad_norm": 0.50677090883255,
+      "learning_rate": 2.714911996843617e-06,
+      "loss": 0.5223,
+      "step": 158
+    },
+    {
+      "epoch": 4.025078369905956,
+      "grad_norm": 0.5266062021255493,
+      "learning_rate": 2.6881024468845e-06,
+      "loss": 0.9743,
+      "step": 159
+    },
+    {
+      "epoch": 4.0501567398119125,
+      "grad_norm": 0.5032053589820862,
+      "learning_rate": 2.6612711236232915e-06,
+      "loss": 0.4673,
+      "step": 160
+    },
+    {
+      "epoch": 4.0501567398119125,
+      "eval_loss": 0.6193890571594238,
+      "eval_runtime": 57.5792,
+      "eval_samples_per_second": 4.394,
+      "eval_steps_per_second": 1.112,
+      "step": 160
+    },
+    {
+      "epoch": 4.075235109717869,
+      "grad_norm": 0.48601508140563965,
+      "learning_rate": 2.63442113284897e-06,
+      "loss": 0.4914,
+      "step": 161
+    },
+    {
+      "epoch": 4.100313479623824,
+      "grad_norm": 0.4935976266860962,
+      "learning_rate": 2.6075555825113265e-06,
+      "loss": 0.4907,
+      "step": 162
+    },
+    {
+      "epoch": 4.12539184952978,
+      "grad_norm": 0.5397103428840637,
+      "learning_rate": 2.580677582361208e-06,
+      "loss": 0.492,
+      "step": 163
+    },
+    {
+      "epoch": 4.150470219435737,
+      "grad_norm": 0.526796817779541,
+      "learning_rate": 2.553790243590556e-06,
+      "loss": 0.4948,
+      "step": 164
+    },
+    {
+      "epoch": 4.175548589341693,
+      "grad_norm": 0.5091374516487122,
+      "learning_rate": 2.5268966784722792e-06,
+      "loss": 0.4969,
+      "step": 165
+    },
+    {
+      "epoch": 4.200626959247649,
+      "grad_norm": 0.5171266198158264,
+      "learning_rate": 2.5e-06,
+      "loss": 0.4798,
+      "step": 166
+    },
+    {
+      "epoch": 4.225705329153605,
+      "grad_norm": 0.5639492273330688,
+      "learning_rate": 2.4731033215277216e-06,
+      "loss": 0.5155,
+      "step": 167
+    },
+    {
+      "epoch": 4.250783699059561,
+      "grad_norm": 0.5235718488693237,
+      "learning_rate": 2.446209756409445e-06,
+      "loss": 0.4782,
+      "step": 168
+    },
+    {
+      "epoch": 4.275862068965517,
+      "grad_norm": 0.5384584665298462,
+      "learning_rate": 2.4193224176387926e-06,
+      "loss": 0.4979,
+      "step": 169
+    },
+    {
+      "epoch": 4.300940438871473,
+      "grad_norm": 0.46974828839302063,
+      "learning_rate": 2.3924444174886735e-06,
+      "loss": 0.4688,
+      "step": 170
+    },
+    {
+      "epoch": 4.300940438871473,
+      "eval_loss": 0.6262617707252502,
+      "eval_runtime": 57.1262,
+      "eval_samples_per_second": 4.429,
+      "eval_steps_per_second": 1.12,
+      "step": 170
+    },
+    {
+      "epoch": 4.326018808777429,
+      "grad_norm": 0.5155596137046814,
+      "learning_rate": 2.3655788671510314e-06,
+      "loss": 0.5004,
+      "step": 171
+    },
+    {
+      "epoch": 4.351097178683386,
+      "grad_norm": 0.5163206458091736,
+      "learning_rate": 2.3387288763767097e-06,
+      "loss": 0.458,
+      "step": 172
+    },
+    {
+      "epoch": 4.376175548589342,
+      "grad_norm": 0.48360857367515564,
+      "learning_rate": 2.3118975531155003e-06,
+      "loss": 0.4878,
+      "step": 173
+    },
+    {
+      "epoch": 4.401253918495298,
+      "grad_norm": 0.4765293300151825,
+      "learning_rate": 2.2850880031563845e-06,
+      "loss": 0.4912,
+      "step": 174
+    },
+    {
+      "epoch": 4.4263322884012535,
+      "grad_norm": 0.47843828797340393,
+      "learning_rate": 2.2583033297680316e-06,
+      "loss": 0.4832,
+      "step": 175
+    },
+    {
+      "epoch": 4.45141065830721,
+      "grad_norm": 0.5208138227462769,
+      "learning_rate": 2.2315466333395927e-06,
+      "loss": 0.5059,
+      "step": 176
+    },
+    {
+      "epoch": 4.476489028213166,
+      "grad_norm": 0.5437580347061157,
+      "learning_rate": 2.204821011021815e-06,
+      "loss": 0.4661,
+      "step": 177
+    },
+    {
+      "epoch": 4.501567398119122,
+      "grad_norm": 0.504819393157959,
+      "learning_rate": 2.178129556368548e-06,
+      "loss": 0.494,
+      "step": 178
+    },
+    {
+      "epoch": 4.5266457680250785,
+      "grad_norm": 0.538536012172699,
+      "learning_rate": 2.151475358978652e-06,
+      "loss": 0.5305,
+      "step": 179
+    },
+    {
+      "epoch": 4.551724137931035,
+      "grad_norm": 0.49628424644470215,
+      "learning_rate": 2.1248615041383686e-06,
+      "loss": 0.4868,
+      "step": 180
+    },
+    {
+      "epoch": 4.551724137931035,
+      "eval_loss": 0.6257670521736145,
+      "eval_runtime": 56.375,
+      "eval_samples_per_second": 4.488,
+      "eval_steps_per_second": 1.135,
+      "step": 180
+    },
+    {
+      "epoch": 4.576802507836991,
+      "grad_norm": 0.4986979067325592,
+      "learning_rate": 2.098291072464199e-06,
+      "loss": 0.4931,
+      "step": 181
+    },
+    {
+      "epoch": 4.601880877742946,
+      "grad_norm": 0.49360722303390503,
+      "learning_rate": 2.0717671395463063e-06,
+      "loss": 0.4904,
+      "step": 182
+    },
+    {
+      "epoch": 4.6269592476489025,
+      "grad_norm": 0.5362194776535034,
+      "learning_rate": 2.0452927755925155e-06,
+      "loss": 0.4745,
+      "step": 183
+    },
+    {
+      "epoch": 4.652037617554859,
+      "grad_norm": 0.5167081356048584,
+      "learning_rate": 2.0188710450729255e-06,
+      "loss": 0.4891,
+      "step": 184
+    },
+    {
+      "epoch": 4.677115987460815,
+      "grad_norm": 0.5023466348648071,
+      "learning_rate": 1.992505006365191e-06,
+      "loss": 0.4969,
+      "step": 185
+    },
+    {
+      "epoch": 4.702194357366771,
+      "grad_norm": 0.5295052528381348,
+      "learning_rate": 1.96619771140051e-06,
+      "loss": 0.5019,
+      "step": 186
+    },
+    {
+      "epoch": 4.7272727272727275,
+      "grad_norm": 0.48868805170059204,
+      "learning_rate": 1.9399522053103514e-06,
+      "loss": 0.4975,
+      "step": 187
+    },
+    {
+      "epoch": 4.752351097178684,
+      "grad_norm": 0.5087363719940186,
+      "learning_rate": 1.913771526073976e-06,
+      "loss": 0.5022,
+      "step": 188
+    },
+    {
+      "epoch": 4.777429467084639,
+      "grad_norm": 0.46865835785865784,
+      "learning_rate": 1.8876587041667855e-06,
+      "loss": 0.4715,
+      "step": 189
+    },
+    {
+      "epoch": 4.802507836990595,
+      "grad_norm": 0.5035328269004822,
+      "learning_rate": 1.8616167622095328e-06,
+      "loss": 0.4899,
+      "step": 190
+    },
+    {
+      "epoch": 4.802507836990595,
+      "eval_loss": 0.6252163052558899,
+      "eval_runtime": 56.9535,
+      "eval_samples_per_second": 4.442,
+      "eval_steps_per_second": 1.124,
+      "step": 190
+    },
+    {
+      "epoch": 4.827586206896552,
+      "grad_norm": 0.48162513971328735,
+      "learning_rate": 1.8356487146184517e-06,
+      "loss": 0.4987,
+      "step": 191
+    },
+    {
+      "epoch": 4.852664576802508,
+      "grad_norm": 0.5139642953872681,
+      "learning_rate": 1.8097575672563278e-06,
+      "loss": 0.4912,
+      "step": 192
+    },
+    {
+      "epoch": 4.877742946708464,
+      "grad_norm": 0.47054630517959595,
+      "learning_rate": 1.7839463170845641e-06,
+      "loss": 0.4745,
+      "step": 193
+    },
+    {
+      "epoch": 4.90282131661442,
+      "grad_norm": 0.514910876750946,
+      "learning_rate": 1.7582179518162742e-06,
+      "loss": 0.4986,
+      "step": 194
+    },
+    {
+      "epoch": 4.927899686520377,
+      "grad_norm": 0.4938299059867859,
+      "learning_rate": 1.7325754495704508e-06,
+      "loss": 0.4923,
+      "step": 195
+    },
+    {
+      "epoch": 4.952978056426332,
+      "grad_norm": 0.5183097720146179,
+      "learning_rate": 1.7070217785272354e-06,
+      "loss": 0.4818,
+      "step": 196
+    },
+    {
+      "epoch": 4.978056426332288,
+      "grad_norm": 0.4973090887069702,
+      "learning_rate": 1.681559896584352e-06,
+      "loss": 0.4842,
+      "step": 197
+    },
+    {
+      "epoch": 5.025078369905956,
+      "grad_norm": 0.4977633059024811,
+      "learning_rate": 1.6561927510147172e-06,
+      "loss": 0.9977,
+      "step": 198
+    },
+    {
+      "epoch": 5.0501567398119125,
+      "grad_norm": 0.47913163900375366,
+      "learning_rate": 1.63092327812529e-06,
+      "loss": 0.4499,
+      "step": 199
+    },
+    {
+      "epoch": 5.075235109717869,
+      "grad_norm": 0.4838247299194336,
+      "learning_rate": 1.6057544029171863e-06,
+      "loss": 0.4595,
+      "step": 200
+    },
+    {
+      "epoch": 5.075235109717869,
+      "eval_loss": 0.6296561360359192,
+      "eval_runtime": 57.6955,
+      "eval_samples_per_second": 4.385,
+      "eval_steps_per_second": 1.109,
+      "step": 200
+    },
+    {
+      "epoch": 5.100313479623824,
+      "grad_norm": 0.4970836043357849,
+      "learning_rate": 1.5806890387471025e-06,
+      "loss": 0.4674,
+      "step": 201
+    },
+    {
+      "epoch": 5.12539184952978,
+      "grad_norm": 0.47701337933540344,
+      "learning_rate": 1.5557300869900876e-06,
+      "loss": 0.4681,
+      "step": 202
+    },
+    {
+      "epoch": 5.150470219435737,
+      "grad_norm": 0.49156317114830017,
+      "learning_rate": 1.530880436703705e-06,
+      "loss": 0.4795,
+      "step": 203
+    },
+    {
+      "epoch": 5.175548589341693,
+      "grad_norm": 0.5332761406898499,
+      "learning_rate": 1.5061429642936107e-06,
+      "loss": 0.4721,
+      "step": 204
+    },
+    {
+      "epoch": 5.200626959247649,
+      "grad_norm": 0.4674208164215088,
+      "learning_rate": 1.4815205331806113e-06,
+      "loss": 0.4781,
+      "step": 205
+    },
+    {
+      "epoch": 5.225705329153605,
+      "grad_norm": 0.5014224648475647,
+      "learning_rate": 1.4570159934692085e-06,
+      "loss": 0.4882,
+      "step": 206
+    },
+    {
+      "epoch": 5.250783699059561,
+      "grad_norm": 0.4830178916454315,
+      "learning_rate": 1.432632181617698e-06,
+      "loss": 0.4684,
+      "step": 207
+    },
+    {
+      "epoch": 5.275862068965517,
+      "grad_norm": 0.4632755219936371,
+      "learning_rate": 1.4083719201098404e-06,
+      "loss": 0.4496,
+      "step": 208
+    },
+    {
+      "epoch": 5.300940438871473,
+      "grad_norm": 0.5023832321166992,
+      "learning_rate": 1.3842380171281522e-06,
+      "loss": 0.48,
+      "step": 209
+    },
+    {
+      "epoch": 5.326018808777429,
+      "grad_norm": 0.4804396629333496,
+      "learning_rate": 1.3602332662288536e-06,
+      "loss": 0.4725,
+      "step": 210
+    },
+    {
+      "epoch": 5.326018808777429,
+      "eval_loss": 0.6335753798484802,
+      "eval_runtime": 56.2923,
+      "eval_samples_per_second": 4.494,
+      "eval_steps_per_second": 1.137,
+      "step": 210
+    },
+    {
+      "epoch": 5.351097178683386,
+      "grad_norm": 0.49800384044647217,
+      "learning_rate": 1.3363604460185031e-06,
+      "loss": 0.4919,
+      "step": 211
+    },
+    {
+      "epoch": 5.376175548589342,
+      "grad_norm": 0.47596463561058044,
+      "learning_rate": 1.3126223198323752e-06,
+      "loss": 0.4686,
+      "step": 212
+    },
+    {
+      "epoch": 5.401253918495298,
+      "grad_norm": 0.48869046568870544,
+      "learning_rate": 1.289021635414589e-06,
+      "loss": 0.4463,
+      "step": 213
+    },
+    {
+      "epoch": 5.4263322884012535,
+      "grad_norm": 0.481625497341156,
+      "learning_rate": 1.265561124600057e-06,
+      "loss": 0.4813,
+      "step": 214
+    },
+    {
+      "epoch": 5.45141065830721,
+      "grad_norm": 0.4792800545692444,
+      "learning_rate": 1.2422435029982669e-06,
+      "loss": 0.4654,
+      "step": 215
+    },
+    {
+      "epoch": 5.476489028213166,
+      "grad_norm": 0.48400136828422546,
+      "learning_rate": 1.219071469678941e-06,
+      "loss": 0.4807,
+      "step": 216
+    },
+    {
+      "epoch": 5.501567398119122,
+      "grad_norm": 0.48213228583335876,
+      "learning_rate": 1.1960477068596155e-06,
+      "loss": 0.4588,
+      "step": 217
+    },
+    {
+      "epoch": 5.5266457680250785,
+      "grad_norm": 0.48570042848587036,
+      "learning_rate": 1.173174879595166e-06,
+      "loss": 0.4716,
+      "step": 218
+    },
+    {
+      "epoch": 5.551724137931035,
+      "grad_norm": 0.4814903140068054,
+      "learning_rate": 1.1504556354693227e-06,
+      "loss": 0.4838,
+      "step": 219
+    },
+    {
+      "epoch": 5.576802507836991,
+      "grad_norm": 0.4814509451389313,
+      "learning_rate": 1.1278926042882026e-06,
+      "loss": 0.4541,
+      "step": 220
+    },
+    {
+      "epoch": 5.576802507836991,
+      "eval_loss": 0.634424090385437,
+      "eval_runtime": 55.8801,
+      "eval_samples_per_second": 4.528,
+      "eval_steps_per_second": 1.145,
+      "step": 220
+    },
+    {
+      "epoch": 5.601880877742946,
+      "grad_norm": 0.4842045307159424,
+      "learning_rate": 1.1054883977759067e-06,
+      "loss": 0.4627,
+      "step": 221
+    },
+    {
+      "epoch": 5.6269592476489025,
+      "grad_norm": 0.5608236193656921,
+      "learning_rate": 1.0832456092722063e-06,
+      "loss": 0.4934,
+      "step": 222
+    },
+    {
+      "epoch": 5.652037617554859,
+      "grad_norm": 0.5030038356781006,
+      "learning_rate": 1.0611668134323577e-06,
+      "loss": 0.4618,
+      "step": 223
+    },
+    {
+      "epoch": 5.677115987460815,
+      "grad_norm": 0.47379574179649353,
+      "learning_rate": 1.0392545659290789e-06,
+      "loss": 0.4652,
+      "step": 224
+    },
+    {
+      "epoch": 5.702194357366771,
+      "grad_norm": 0.48055994510650635,
+      "learning_rate": 1.0175114031567246e-06,
+      "loss": 0.4824,
+      "step": 225
+    },
+    {
+      "epoch": 5.7272727272727275,
+      "grad_norm": 0.4654151499271393,
+      "learning_rate": 9.95939841937693e-07,
+      "loss": 0.4558,
+      "step": 226
+    },
+    {
+      "epoch": 5.752351097178684,
+      "grad_norm": 0.4990993142127991,
+      "learning_rate": 9.745423792310996e-07,
+      "loss": 0.4544,
+      "step": 227
+    },
+    {
+      "epoch": 5.777429467084639,
+      "grad_norm": 0.5094314217567444,
+      "learning_rate": 9.533214918437422e-07,
+      "loss": 0.4627,
+      "step": 228
+    },
+    {
+      "epoch": 5.802507836990595,
+      "grad_norm": 0.4542681872844696,
+      "learning_rate": 9.322796361434111e-07,
+      "loss": 0.4357,
+      "step": 229
+    },
+    {
+      "epoch": 5.827586206896552,
+      "grad_norm": 0.4947759807109833,
+      "learning_rate": 9.114192477745568e-07,
+      "loss": 0.4886,
+      "step": 230
+    },
+    {
+      "epoch": 5.827586206896552,
+      "eval_loss": 0.6360123157501221,
+      "eval_runtime": 56.051,
+      "eval_samples_per_second": 4.514,
+      "eval_steps_per_second": 1.142,
+      "step": 230
+    },
+    {
+      "epoch": 5.852664576802508,
+      "grad_norm": 0.48139122128486633,
+      "learning_rate": 8.907427413763572e-07,
+      "loss": 0.4606,
+      "step": 231
+    },
+    {
+      "epoch": 5.877742946708464,
+      "grad_norm": 0.4991190731525421,
+      "learning_rate": 8.702525103032186e-07,
+      "loss": 0.4747,
+      "step": 232
+    },
+    {
+      "epoch": 5.90282131661442,
+      "grad_norm": 0.46218883991241455,
+      "learning_rate": 8.499509263477388e-07,
+      "loss": 0.4574,
+      "step": 233
+    },
+    {
+      "epoch": 5.927899686520377,
+      "grad_norm": 0.48925334215164185,
+      "learning_rate": 8.298403394661658e-07,
+      "loss": 0.4904,
+      "step": 234
+    },
+    {
+      "epoch": 5.952978056426332,
+      "grad_norm": 0.45885229110717773,
+      "learning_rate": 8.099230775063879e-07,
+      "loss": 0.4468,
+      "step": 235
+    },
+    {
+      "epoch": 5.978056426332288,
+      "grad_norm": 0.4861123561859131,
+      "learning_rate": 7.902014459384744e-07,
+      "loss": 0.482,
+      "step": 236
+    },
+    {
+      "epoch": 6.025078369905956,
+      "grad_norm": 0.47465991973876953,
+      "learning_rate": 7.706777275878161e-07,
+      "loss": 0.9372,
+      "step": 237
+    },
+    {
+      "epoch": 6.0501567398119125,
+      "grad_norm": 0.4628162682056427,
+      "learning_rate": 7.513541823708828e-07,
+      "loss": 0.4445,
+      "step": 238
+    },
+    {
+      "epoch": 6.075235109717869,
+      "grad_norm": 0.4928613305091858,
+      "learning_rate": 7.322330470336314e-07,
+      "loss": 0.4697,
+      "step": 239
+    },
+    {
+      "epoch": 6.100313479623824,
+      "grad_norm": 0.47990211844444275,
+      "learning_rate": 7.133165348925978e-07,
+      "loss": 0.4767,
+      "step": 240
+    },
+    {
+      "epoch": 6.100313479623824,
+      "eval_loss": 0.6384997963905334,
+      "eval_runtime": 56.4615,
+      "eval_samples_per_second": 4.481,
+      "eval_steps_per_second": 1.134,
+      "step": 240
+    },
+    {
+      "epoch": 6.12539184952978,
+      "grad_norm": 0.4767267405986786,
+      "learning_rate": 6.946068355786992e-07,
+      "loss": 0.4786,
+      "step": 241
+    },
+    {
+      "epoch": 6.150470219435737,
+      "grad_norm": 0.4771179258823395,
+      "learning_rate": 6.761061147837808e-07,
+      "loss": 0.4473,
+      "step": 242
+    },
+    {
+      "epoch": 6.175548589341693,
+      "grad_norm": 0.47165676951408386,
+      "learning_rate": 6.578165140099318e-07,
+      "loss": 0.4594,
+      "step": 243
+    },
+    {
+      "epoch": 6.200626959247649,
+      "grad_norm": 0.5090299248695374,
+      "learning_rate": 6.397401503215992e-07,
+      "loss": 0.4475,
+      "step": 244
+    },
+    {
+      "epoch": 6.225705329153605,
+      "grad_norm": 0.4800550937652588,
+      "learning_rate": 6.218791161005336e-07,
+      "loss": 0.4539,
+      "step": 245
+    },
+    {
+      "epoch": 6.250783699059561,
+      "grad_norm": 0.4877106845378876,
+      "learning_rate": 6.042354788035943e-07,
+      "loss": 0.4738,
+      "step": 246
+    },
+    {
+      "epoch": 6.275862068965517,
+      "grad_norm": 0.4640342593193054,
+      "learning_rate": 5.868112807234313e-07,
+      "loss": 0.4428,
+      "step": 247
+    },
+    {
+      "epoch": 6.300940438871473,
+      "grad_norm": 0.48421865701675415,
+      "learning_rate": 5.696085387520894e-07,
+      "loss": 0.4709,
+      "step": 248
+    },
+    {
+      "epoch": 6.326018808777429,
+      "grad_norm": 0.4513491094112396,
+      "learning_rate": 5.526292441475448e-07,
+      "loss": 0.4299,
+      "step": 249
+    },
+    {
+      "epoch": 6.351097178683386,
+      "grad_norm": 0.474386990070343,
+      "learning_rate": 5.358753623032137e-07,
+      "loss": 0.4475,
+      "step": 250
+    },
+    {
+      "epoch": 6.351097178683386,
+      "eval_loss": 0.6422795653343201,
+      "eval_runtime": 57.1042,
+      "eval_samples_per_second": 4.43,
+      "eval_steps_per_second": 1.121,
+      "step": 250
+    },
+    {
+      "epoch": 6.376175548589342,
+      "grad_norm": 0.47453391551971436,
+      "learning_rate": 5.193488325204551e-07,
+      "loss": 0.441,
+      "step": 251
+    },
+    {
+      "epoch": 6.401253918495298,
+      "grad_norm": 0.46377652883529663,
+      "learning_rate": 5.030515677840883e-07,
+      "loss": 0.4453,
+      "step": 252
+    },
+    {
+      "epoch": 6.4263322884012535,
+      "grad_norm": 0.48753175139427185,
+      "learning_rate": 4.869854545409627e-07,
+      "loss": 0.4435,
+      "step": 253
+    },
+    {
+      "epoch": 6.45141065830721,
+      "grad_norm": 0.47570592164993286,
+      "learning_rate": 4.711523524815978e-07,
+      "loss": 0.4753,
+      "step": 254
+    },
+    {
+      "epoch": 6.476489028213166,
+      "grad_norm": 0.4843435287475586,
+      "learning_rate": 4.555540943249187e-07,
+      "loss": 0.4856,
+      "step": 255
+    },
+    {
+      "epoch": 6.501567398119122,
+      "grad_norm": 0.47495031356811523,
+      "learning_rate": 4.401924856061146e-07,
+      "loss": 0.4414,
+      "step": 256
+    },
+    {
+      "epoch": 6.5266457680250785,
+      "grad_norm": 0.47989776730537415,
+      "learning_rate": 4.250693044676429e-07,
+      "loss": 0.4597,
+      "step": 257
+    },
+    {
+      "epoch": 6.551724137931035,
+      "grad_norm": 0.46793535351753235,
+      "learning_rate": 4.1018630145340744e-07,
+      "loss": 0.4569,
+      "step": 258
+    },
+    {
+      "epoch": 6.576802507836991,
+      "grad_norm": 0.44232016801834106,
+      "learning_rate": 3.9554519930612683e-07,
+      "loss": 0.4361,
+      "step": 259
+    },
+    {
+      "epoch": 6.601880877742946,
+      "grad_norm": 0.5010823607444763,
+      "learning_rate": 3.811476927679228e-07,
+      "loss": 0.485,
+      "step": 260
+    },
+    {
+      "epoch": 6.601880877742946,
+      "eval_loss": 0.6418638229370117,
+      "eval_runtime": 55.8574,
+      "eval_samples_per_second": 4.529,
+      "eval_steps_per_second": 1.146,
+      "step": 260
+    },
+    {
+      "epoch": 6.6269592476489025,
+      "grad_norm": 0.47801274061203003,
+      "learning_rate": 3.6699544838415035e-07,
+      "loss": 0.454,
+      "step": 261
+    },
+    {
+      "epoch": 6.652037617554859,
+      "grad_norm": 0.4686381220817566,
+      "learning_rate": 3.5309010431049284e-07,
+      "loss": 0.4542,
+      "step": 262
+    },
+    {
+      "epoch": 6.677115987460815,
+      "grad_norm": 0.47706976532936096,
+      "learning_rate": 3.394332701233391e-07,
+      "loss": 0.4647,
+      "step": 263
+    },
+    {
+      "epoch": 6.702194357366771,
+      "grad_norm": 0.45616254210472107,
+      "learning_rate": 3.260265266334725e-07,
+      "loss": 0.4441,
+      "step": 264
+    },
+    {
+      "epoch": 6.7272727272727275,
+      "grad_norm": 0.46625563502311707,
+      "learning_rate": 3.128714257030882e-07,
+      "loss": 0.4587,
+      "step": 265
+    },
+    {
+      "epoch": 6.752351097178684,
+      "grad_norm": 0.4949757754802704,
+      "learning_rate": 2.9996949006616096e-07,
+      "loss": 0.4495,
+      "step": 266
+    },
+    {
+      "epoch": 6.777429467084639,
+      "grad_norm": 0.5077168941497803,
+      "learning_rate": 2.8732221315218576e-07,
+      "loss": 0.4665,
+      "step": 267
+    },
+    {
+      "epoch": 6.802507836990595,
+      "grad_norm": 0.4737371504306793,
+      "learning_rate": 2.7493105891330837e-07,
+      "loss": 0.4627,
+      "step": 268
+    },
+    {
+      "epoch": 6.827586206896552,
+      "grad_norm": 0.4775864779949188,
+      "learning_rate": 2.6279746165487256e-07,
+      "loss": 0.4589,
+      "step": 269
+    },
+    {
+      "epoch": 6.852664576802508,
+      "grad_norm": 0.470553994178772,
+      "learning_rate": 2.5092282586939187e-07,
+      "loss": 0.4616,
+      "step": 270
+    },
+    {
+      "epoch": 6.852664576802508,
+      "eval_loss": 0.6420106887817383,
+      "eval_runtime": 55.4322,
+      "eval_samples_per_second": 4.564,
+      "eval_steps_per_second": 1.155,
+      "step": 270
+    },
+    {
+      "epoch": 6.877742946708464,
+      "grad_norm": 0.4560844898223877,
+      "learning_rate": 2.393085260739794e-07,
+      "loss": 0.4308,
+      "step": 271
+    },
+    {
+      "epoch": 6.90282131661442,
+      "grad_norm": 0.47051987051963806,
+      "learning_rate": 2.2795590665124267e-07,
+      "loss": 0.4592,
+      "step": 272
+    },
+    {
+      "epoch": 6.927899686520377,
+      "grad_norm": 0.47819966077804565,
+      "learning_rate": 2.1686628169366923e-07,
+      "loss": 0.4676,
+      "step": 273
+    },
+    {
+      "epoch": 6.952978056426332,
+      "grad_norm": 0.4643998444080353,
+      "learning_rate": 2.0604093485151548e-07,
+      "loss": 0.4615,
+      "step": 274
+    },
+    {
+      "epoch": 6.978056426332288,
+      "grad_norm": 0.466310977935791,
+      "learning_rate": 1.95481119184224e-07,
+      "loss": 0.4479,
+      "step": 275
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.4989880323410034,
+      "learning_rate": 1.851880570153755e-07,
+      "loss": 0.4429,
+      "step": 276
+    },
+    {
+      "epoch": 7.025078369905956,
+      "grad_norm": 0.48817238211631775,
+      "learning_rate": 1.7516293979120525e-07,
+      "loss": 0.4341,
+      "step": 277
+    },
+    {
+      "epoch": 7.0501567398119125,
+      "grad_norm": 0.47130873799324036,
+      "learning_rate": 1.654069279426873e-07,
+      "loss": 0.4514,
+      "step": 278
+    },
+    {
+      "epoch": 7.075235109717869,
+      "grad_norm": 0.4512508809566498,
+      "learning_rate": 1.5592115075121512e-07,
+      "loss": 0.4578,
+      "step": 279
+    },
+    {
+      "epoch": 7.100313479623824,
+      "grad_norm": 0.47895804047584534,
+      "learning_rate": 1.467067062178823e-07,
+      "loss": 0.4624,
+      "step": 280
+    },
+    {
+      "epoch": 7.100313479623824,
+      "eval_loss": 0.6423701047897339,
+      "eval_runtime": 56.8668,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 1.125,
+      "step": 280
+    },
+    {
+      "epoch": 7.12539184952978,
+      "grad_norm": 0.45263463258743286,
+      "learning_rate": 1.3776466093638696e-07,
+      "loss": 0.4496,
+      "step": 281
+    },
+    {
+      "epoch": 7.150470219435737,
+      "grad_norm": 0.4779822826385498,
+      "learning_rate": 1.2909604996957093e-07,
+      "loss": 0.4545,
+      "step": 282
+    },
+    {
+      "epoch": 7.175548589341693,
+      "grad_norm": 0.4571331739425659,
+      "learning_rate": 1.2070187672960948e-07,
+      "loss": 0.4491,
+      "step": 283
+    },
+    {
+      "epoch": 7.200626959247649,
+      "grad_norm": 0.4415135681629181,
+      "learning_rate": 1.1258311286186208e-07,
+      "loss": 0.4451,
+      "step": 284
+    },
+    {
+      "epoch": 7.225705329153605,
+      "grad_norm": 0.4885166883468628,
+      "learning_rate": 1.0474069813240505e-07,
+      "loss": 0.4763,
+      "step": 285
+    },
+    {
+      "epoch": 7.250783699059561,
+      "grad_norm": 0.4898928999900818,
+      "learning_rate": 9.717554031924842e-08,
+      "loss": 0.4565,
+      "step": 286
+    },
+    {
+      "epoch": 7.275862068965517,
+      "grad_norm": 0.47242534160614014,
+      "learning_rate": 8.988851510726093e-08,
+      "loss": 0.4348,
+      "step": 287
+    },
+    {
+      "epoch": 7.300940438871473,
+      "grad_norm": 0.4512430429458618,
+      "learning_rate": 8.288046598680627e-08,
+      "loss": 0.4475,
+      "step": 288
+    },
+    {
+      "epoch": 7.326018808777429,
+      "grad_norm": 0.4652940630912781,
+      "learning_rate": 7.61522041561069e-08,
+      "loss": 0.4459,
+      "step": 289
+    },
+    {
+      "epoch": 7.351097178683386,
+      "grad_norm": 0.4555583894252777,
+      "learning_rate": 6.97045084273465e-08,
+      "loss": 0.4291,
+      "step": 290
+    },
+    {
+      "epoch": 7.351097178683386,
+      "eval_loss": 0.643901526927948,
+      "eval_runtime": 56.3602,
+      "eval_samples_per_second": 4.489,
+      "eval_steps_per_second": 1.136,
+      "step": 290
+    },
+    {
+      "epoch": 7.376175548589342,
+      "grad_norm": 0.4740995764732361,
+      "learning_rate": 6.353812513652052e-08,
+      "loss": 0.4461,
+      "step": 291
+    },
+    {
+      "epoch": 7.401253918495298,
+      "grad_norm": 0.4538453221321106,
+      "learning_rate": 5.7653768057045757e-08,
+      "loss": 0.429,
+      "step": 292
+    },
+    {
+      "epoch": 7.4263322884012535,
+      "grad_norm": 0.44932106137275696,
+      "learning_rate": 5.205211831713935e-08,
+      "loss": 0.4637,
+      "step": 293
+    },
+    {
+      "epoch": 7.45141065830721,
+      "grad_norm": 0.46008631587028503,
+      "learning_rate": 4.6733824320976674e-08,
+      "loss": 0.459,
+      "step": 294
+    },
+    {
+      "epoch": 7.476489028213166,
+      "grad_norm": 0.479729562997818,
+      "learning_rate": 4.169950167363768e-08,
+      "loss": 0.4457,
+      "step": 295
+    },
+    {
+      "epoch": 7.501567398119122,
+      "grad_norm": 0.44909724593162537,
+      "learning_rate": 3.6949733109848395e-08,
+      "loss": 0.4424,
+      "step": 296
+    },
+    {
+      "epoch": 7.5266457680250785,
+      "grad_norm": 0.47101134061813354,
+      "learning_rate": 3.248506842652793e-08,
+      "loss": 0.4783,
+      "step": 297
+    },
+    {
+      "epoch": 7.551724137931035,
+      "grad_norm": 0.45717012882232666,
+      "learning_rate": 2.8306024419148814e-08,
+      "loss": 0.4492,
+      "step": 298
+    },
+    {
+      "epoch": 7.576802507836991,
+      "grad_norm": 0.4484281837940216,
+      "learning_rate": 2.4413084821916232e-08,
+      "loss": 0.4626,
+      "step": 299
+    },
+    {
+      "epoch": 7.601880877742946,
+      "grad_norm": 0.4468236565589905,
+      "learning_rate": 2.0806700251775057e-08,
+      "loss": 0.4477,
+      "step": 300
+    },
+    {
+      "epoch": 7.601880877742946,
+      "eval_loss": 0.6443831324577332,
+      "eval_runtime": 56.663,
+      "eval_samples_per_second": 4.465,
+      "eval_steps_per_second": 1.129,
+      "step": 300
+    },
+    {
+      "epoch": 7.6269592476489025,
+      "grad_norm": 0.47829484939575195,
+      "learning_rate": 1.7487288156248782e-08,
+      "loss": 0.4718,
+      "step": 301
+    },
+    {
+      "epoch": 7.652037617554859,
+      "grad_norm": 0.4460832178592682,
+      "learning_rate": 1.4455232765120397e-08,
+      "loss": 0.4471,
+      "step": 302
+    },
+    {
+      "epoch": 7.677115987460815,
+      "grad_norm": 0.4570693075656891,
+      "learning_rate": 1.1710885045956022e-08,
+      "loss": 0.4315,
+      "step": 303
+    },
+    {
+      "epoch": 7.702194357366771,
+      "grad_norm": 0.44009798765182495,
+      "learning_rate": 9.25456266348046e-09,
+      "loss": 0.4543,
+      "step": 304
+    },
+    {
+      "epoch": 7.7272727272727275,
+      "grad_norm": 0.49832943081855774,
+      "learning_rate": 7.086549942805499e-09,
+      "loss": 0.4623,
+      "step": 305
+    },
+    {
+      "epoch": 7.752351097178684,
+      "grad_norm": 0.46736541390419006,
+      "learning_rate": 5.20709783651957e-09,
+      "loss": 0.4585,
+      "step": 306
+    },
+    {
+      "epoch": 7.777429467084639,
+      "grad_norm": 0.43822190165519714,
+      "learning_rate": 3.6164238956384878e-09,
+      "loss": 0.4426,
+      "step": 307
+    },
+    {
+      "epoch": 7.802507836990595,
+      "grad_norm": 0.4685412645339966,
+      "learning_rate": 2.3147122444250327e-09,
+      "loss": 0.4467,
+      "step": 308
+    },
+    {
+      "epoch": 7.827586206896552,
+      "grad_norm": 0.4809519052505493,
+      "learning_rate": 1.3021135590740585e-09,
+      "loss": 0.4776,
+      "step": 309
+    },
+    {
+      "epoch": 7.852664576802508,
+      "grad_norm": 0.4518226385116577,
+      "learning_rate": 5.787450502728331e-10,
+      "loss": 0.4309,
+      "step": 310
+    },
+    {
+      "epoch": 7.852664576802508,
+      "eval_loss": 0.6443580985069275,
+      "eval_runtime": 56.8348,
+      "eval_samples_per_second": 4.452,
+      "eval_steps_per_second": 1.126,
+      "step": 310
+    },
+    {
+      "epoch": 7.877742946708464,
+      "grad_norm": 0.4624005854129791,
+      "learning_rate": 1.446904496335555e-10,
+      "loss": 0.4485,
+      "step": 311
+    },
+    {
+      "epoch": 7.90282131661442,
+      "grad_norm": 0.4496374726295471,
+      "learning_rate": 0.0,
+      "loss": 0.4416,
+      "step": 312
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 312,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 39,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.418166330416169e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eed502296b47fb9879a7308df0b45230806bda5cc2357dc213063e76307c0ae2
+size 6840

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff