Yhhhhhhhhh commited on Nov 9, 2024

Commit

7baf389

verified ·

1 Parent(s): ad86dc3

Upload folder using huggingface_hub

Browse files

Files changed (19) hide show

README.md +60 -3
all_results.json +12 -0
config.json +33 -0
eval_results.json +7 -0
generation_config.json +6 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +226 -0
runs/Nov02_06-14-55_4f46b773fafb/events.out.tfevents.1730528175.4f46b773fafb.8588.0 +3 -0
runs/Nov02_06-21-02_4f46b773fafb/events.out.tfevents.1730528471.4f46b773fafb.10778.0 +3 -0
runs/Nov02_06-21-02_4f46b773fafb/events.out.tfevents.1730531283.4f46b773fafb.10778.1 +3 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer_config.json +196 -0
train_results.json +8 -0
trainer_log.jsonl +237 -0
trainer_state.json +1694 -0
training_args.bin +3 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,60 @@
----
-license: apache-2.0
----

+---
+library_name: transformers
+license: other
+base_model: deepseek-ai/deepseek-coder-1.3b-instruct
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: OtherEfficode_final_sft_deepseek-coder-1.3b-instruct
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# OtherEfficode_final_sft_deepseek-coder-1.3b-instruct
+This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-instruct](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-instruct) on the output dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2046
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 8
+- eval_batch_size: 1
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 4.0
+### Training results
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.5.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 4.0,
+    "eval_loss": 0.20462052524089813,
+    "eval_runtime": 0.9103,
+    "eval_samples_per_second": 1.099,
+    "eval_steps_per_second": 1.099,
+    "total_flos": 1.5782755510340813e+17,
+    "train_loss": 0.13063472979615384,
+    "train_runtime": 2788.0875,
+    "train_samples_per_second": 13.558,
+    "train_steps_per_second": 0.848
+}

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "deepseek-ai/deepseek-coder-1.3b-instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5504,
+  "max_position_embeddings": 16384,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "rope_type": "linear",
+    "type": "linear"
+  },
+  "rope_theta": 100000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "vocab_size": 32256
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 4.0,
+    "eval_loss": 0.20462052524089813,
+    "eval_runtime": 0.9103,
+    "eval_samples_per_second": 1.099,
+    "eval_steps_per_second": 1.099
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.44.2"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc3c7cac7f1587894884aafa8d56c0a68ab2bc86df173544a0060494ea59a36f
+size 4986380064

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:486c724e95f1e46dae42005996bb62718319e2a9e2cbeed6ec9a7e47c1e06760
+size 399532808

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "metadata": {
+    "total_size": 5385887744
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

runs/Nov02_06-14-55_4f46b773fafb/events.out.tfevents.1730528175.4f46b773fafb.8588.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6680b7328d5fd8fbcbb831b120e748859d4b78d5d5961a407b1cdcf06102612a
+size 5355

runs/Nov02_06-21-02_4f46b773fafb/events.out.tfevents.1730528471.4f46b773fafb.10778.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb8d3bf0955415daabc32f2fa4746ef01a2375d53e60c549e9f10f3bc7185b5f
+size 55457

runs/Nov02_06-21-02_4f46b773fafb/events.out.tfevents.1730531283.4f46b773fafb.10778.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e36a128ed6e54abb97dffc54d5d14572553e18f984e5edd9a4858d7d075a7bc
+size 359

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|EOT|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,196 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "32000": {
+      "content": "õ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32001": {
+      "content": "÷",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32002": {
+      "content": "Á",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32003": {
+      "content": "ý",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32004": {
+      "content": "À",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32005": {
+      "content": "ÿ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32006": {
+      "content": "ø",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32007": {
+      "content": "ú",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32008": {
+      "content": "þ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32009": {
+      "content": "ü",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32010": {
+      "content": "ù",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32011": {
+      "content": "ö",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32012": {
+      "content": "û",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32013": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<｜fim▁hole｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32016": {
+      "content": "<｜fim▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32017": {
+      "content": "<｜fim▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32018": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32019": {
+      "content": "<|User|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32020": {
+      "content": "<|Assistant|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32021": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{{ '<｜begin▁of▁sentence｜>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ 'Please continue to complete the function. You are not allowed to modify the given code and do the completion only. Please return all completed function in a codeblock. Here is the given code to do completion:\n```python\n' + content + '\n' }}{% elif message['role'] == 'assistant' %}{{ '\n' + content + '\n```<|EOT|>' + '\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|EOT|>",
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "total_flos": 1.5782755510340813e+17,
+    "train_loss": 0.13063472979615384,
+    "train_runtime": 2788.0875,
+    "train_samples_per_second": 13.558,
+    "train_steps_per_second": 0.848
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,237 @@

+{"current_steps": 10, "total_steps": 2364, "loss": 0.6706, "learning_rate": 7.042253521126762e-07, "epoch": 0.01692047377326565, "percentage": 0.42, "elapsed_time": "0:00:24", "remaining_time": "1:37:48"}
+{"current_steps": 20, "total_steps": 2364, "loss": 0.6483, "learning_rate": 1.4084507042253523e-06, "epoch": 0.0338409475465313, "percentage": 0.85, "elapsed_time": "0:00:42", "remaining_time": "1:22:04"}
+{"current_steps": 30, "total_steps": 2364, "loss": 0.5231, "learning_rate": 2.1126760563380285e-06, "epoch": 0.050761421319796954, "percentage": 1.27, "elapsed_time": "0:01:01", "remaining_time": "1:19:08"}
+{"current_steps": 40, "total_steps": 2364, "loss": 0.3641, "learning_rate": 2.8169014084507046e-06, "epoch": 0.0676818950930626, "percentage": 1.69, "elapsed_time": "0:01:20", "remaining_time": "1:17:46"}
+{"current_steps": 50, "total_steps": 2364, "loss": 0.2923, "learning_rate": 3.5211267605633804e-06, "epoch": 0.08460236886632826, "percentage": 2.12, "elapsed_time": "0:01:37", "remaining_time": "1:15:20"}
+{"current_steps": 60, "total_steps": 2364, "loss": 0.2632, "learning_rate": 4.225352112676057e-06, "epoch": 0.10152284263959391, "percentage": 2.54, "elapsed_time": "0:01:54", "remaining_time": "1:13:34"}
+{"current_steps": 70, "total_steps": 2364, "loss": 0.2672, "learning_rate": 4.929577464788733e-06, "epoch": 0.11844331641285956, "percentage": 2.96, "elapsed_time": "0:02:11", "remaining_time": "1:12:01"}
+{"current_steps": 80, "total_steps": 2364, "loss": 0.2208, "learning_rate": 4.999809944183634e-06, "epoch": 0.1353637901861252, "percentage": 3.38, "elapsed_time": "0:02:27", "remaining_time": "1:10:17"}
+{"current_steps": 90, "total_steps": 2364, "loss": 0.252, "learning_rate": 4.999152998213973e-06, "epoch": 0.15228426395939088, "percentage": 3.81, "elapsed_time": "0:02:38", "remaining_time": "1:06:53"}
+{"current_steps": 100, "total_steps": 2364, "loss": 0.2468, "learning_rate": 4.998026939008151e-06, "epoch": 0.1692047377326565, "percentage": 4.23, "elapsed_time": "0:02:48", "remaining_time": "1:03:45"}
+{"current_steps": 110, "total_steps": 2364, "loss": 0.2468, "learning_rate": 4.996431977937491e-06, "epoch": 0.18612521150592218, "percentage": 4.65, "elapsed_time": "0:03:03", "remaining_time": "1:02:34"}
+{"current_steps": 120, "total_steps": 2364, "loss": 0.2068, "learning_rate": 4.994368414390368e-06, "epoch": 0.20304568527918782, "percentage": 5.08, "elapsed_time": "0:03:15", "remaining_time": "1:00:50"}
+{"current_steps": 130, "total_steps": 2364, "loss": 0.233, "learning_rate": 4.991836635716003e-06, "epoch": 0.21996615905245348, "percentage": 5.5, "elapsed_time": "0:03:29", "remaining_time": "0:59:54"}
+{"current_steps": 140, "total_steps": 2364, "loss": 0.2153, "learning_rate": 4.988837117151762e-06, "epoch": 0.23688663282571912, "percentage": 5.92, "elapsed_time": "0:03:40", "remaining_time": "0:58:28"}
+{"current_steps": 150, "total_steps": 2364, "loss": 0.2316, "learning_rate": 4.985370421733948e-06, "epoch": 0.25380710659898476, "percentage": 6.35, "elapsed_time": "0:03:51", "remaining_time": "0:56:58"}
+{"current_steps": 160, "total_steps": 2364, "loss": 0.215, "learning_rate": 4.981437200192111e-06, "epoch": 0.2707275803722504, "percentage": 6.77, "elapsed_time": "0:04:08", "remaining_time": "0:57:01"}
+{"current_steps": 170, "total_steps": 2364, "loss": 0.2366, "learning_rate": 4.9770381908269005e-06, "epoch": 0.2876480541455161, "percentage": 7.19, "elapsed_time": "0:04:19", "remaining_time": "0:55:51"}
+{"current_steps": 180, "total_steps": 2364, "loss": 0.2443, "learning_rate": 4.972174219371484e-06, "epoch": 0.30456852791878175, "percentage": 7.61, "elapsed_time": "0:04:29", "remaining_time": "0:54:29"}
+{"current_steps": 190, "total_steps": 2364, "loss": 0.2226, "learning_rate": 4.966846198836546e-06, "epoch": 0.32148900169204736, "percentage": 8.04, "elapsed_time": "0:04:38", "remaining_time": "0:53:07"}
+{"current_steps": 200, "total_steps": 2364, "loss": 0.2231, "learning_rate": 4.96105512933891e-06, "epoch": 0.338409475465313, "percentage": 8.46, "elapsed_time": "0:04:49", "remaining_time": "0:52:07"}
+{"current_steps": 210, "total_steps": 2364, "loss": 0.2193, "learning_rate": 4.954802097913804e-06, "epoch": 0.3553299492385787, "percentage": 8.88, "elapsed_time": "0:05:00", "remaining_time": "0:51:24"}
+{"current_steps": 220, "total_steps": 2364, "loss": 0.2534, "learning_rate": 4.94808827831082e-06, "epoch": 0.37225042301184436, "percentage": 9.31, "elapsed_time": "0:05:13", "remaining_time": "0:50:52"}
+{"current_steps": 230, "total_steps": 2364, "loss": 0.2283, "learning_rate": 4.9409149307735835e-06, "epoch": 0.38917089678510997, "percentage": 9.73, "elapsed_time": "0:05:24", "remaining_time": "0:50:11"}
+{"current_steps": 240, "total_steps": 2364, "loss": 0.2594, "learning_rate": 4.9332834018032025e-06, "epoch": 0.40609137055837563, "percentage": 10.15, "elapsed_time": "0:05:32", "remaining_time": "0:49:06"}
+{"current_steps": 250, "total_steps": 2364, "loss": 0.2262, "learning_rate": 4.925195123905513e-06, "epoch": 0.4230118443316413, "percentage": 10.58, "elapsed_time": "0:05:41", "remaining_time": "0:48:04"}
+{"current_steps": 260, "total_steps": 2364, "loss": 0.2093, "learning_rate": 4.916651615322182e-06, "epoch": 0.43993231810490696, "percentage": 11.0, "elapsed_time": "0:05:52", "remaining_time": "0:47:32"}
+{"current_steps": 270, "total_steps": 2364, "loss": 0.2101, "learning_rate": 4.907654479745726e-06, "epoch": 0.45685279187817257, "percentage": 11.42, "elapsed_time": "0:06:01", "remaining_time": "0:46:41"}
+{"current_steps": 280, "total_steps": 2364, "loss": 0.2462, "learning_rate": 4.89820540601848e-06, "epoch": 0.47377326565143824, "percentage": 11.84, "elapsed_time": "0:06:10", "remaining_time": "0:45:56"}
+{"current_steps": 290, "total_steps": 2364, "loss": 0.2051, "learning_rate": 4.8883061678155905e-06, "epoch": 0.4906937394247039, "percentage": 12.27, "elapsed_time": "0:06:19", "remaining_time": "0:45:17"}
+{"current_steps": 300, "total_steps": 2364, "loss": 0.2531, "learning_rate": 4.877958623312076e-06, "epoch": 0.5076142131979695, "percentage": 12.69, "elapsed_time": "0:06:30", "remaining_time": "0:44:45"}
+{"current_steps": 310, "total_steps": 2364, "loss": 0.2484, "learning_rate": 4.8671647148340304e-06, "epoch": 0.5245346869712352, "percentage": 13.11, "elapsed_time": "0:06:41", "remaining_time": "0:44:21"}
+{"current_steps": 320, "total_steps": 2364, "loss": 0.2121, "learning_rate": 4.855926468494039e-06, "epoch": 0.5414551607445008, "percentage": 13.54, "elapsed_time": "0:06:50", "remaining_time": "0:43:44"}
+{"current_steps": 330, "total_steps": 2364, "loss": 0.237, "learning_rate": 4.844245993810852e-06, "epoch": 0.5583756345177665, "percentage": 13.96, "elapsed_time": "0:07:01", "remaining_time": "0:43:16"}
+{"current_steps": 340, "total_steps": 2364, "loss": 0.2126, "learning_rate": 4.832125483313411e-06, "epoch": 0.5752961082910322, "percentage": 14.38, "elapsed_time": "0:07:15", "remaining_time": "0:43:10"}
+{"current_steps": 350, "total_steps": 2364, "loss": 0.2491, "learning_rate": 4.819567212129292e-06, "epoch": 0.5922165820642978, "percentage": 14.81, "elapsed_time": "0:07:26", "remaining_time": "0:42:52"}
+{"current_steps": 360, "total_steps": 2364, "loss": 0.2359, "learning_rate": 4.806573537557643e-06, "epoch": 0.6091370558375635, "percentage": 15.23, "elapsed_time": "0:07:35", "remaining_time": "0:42:18"}
+{"current_steps": 370, "total_steps": 2364, "loss": 0.2363, "learning_rate": 4.7931468986267014e-06, "epoch": 0.626057529610829, "percentage": 15.65, "elapsed_time": "0:07:45", "remaining_time": "0:41:50"}
+{"current_steps": 380, "total_steps": 2364, "loss": 0.2132, "learning_rate": 4.779289815635961e-06, "epoch": 0.6429780033840947, "percentage": 16.07, "elapsed_time": "0:07:58", "remaining_time": "0:41:37"}
+{"current_steps": 390, "total_steps": 2364, "loss": 0.2307, "learning_rate": 4.765004889683096e-06, "epoch": 0.6598984771573604, "percentage": 16.5, "elapsed_time": "0:08:08", "remaining_time": "0:41:13"}
+{"current_steps": 400, "total_steps": 2364, "loss": 0.2237, "learning_rate": 4.750294802175703e-06, "epoch": 0.676818950930626, "percentage": 16.92, "elapsed_time": "0:08:18", "remaining_time": "0:40:46"}
+{"current_steps": 410, "total_steps": 2364, "loss": 0.2299, "learning_rate": 4.735162314327987e-06, "epoch": 0.6937394247038917, "percentage": 17.34, "elapsed_time": "0:08:30", "remaining_time": "0:40:30"}
+{"current_steps": 420, "total_steps": 2364, "loss": 0.23, "learning_rate": 4.71961026664245e-06, "epoch": 0.7106598984771574, "percentage": 17.77, "elapsed_time": "0:08:39", "remaining_time": "0:40:06"}
+{"current_steps": 430, "total_steps": 2364, "loss": 0.1979, "learning_rate": 4.703641578376706e-06, "epoch": 0.727580372250423, "percentage": 18.19, "elapsed_time": "0:08:50", "remaining_time": "0:39:46"}
+{"current_steps": 440, "total_steps": 2364, "loss": 0.2358, "learning_rate": 4.687259246995512e-06, "epoch": 0.7445008460236887, "percentage": 18.61, "elapsed_time": "0:09:00", "remaining_time": "0:39:25"}
+{"current_steps": 450, "total_steps": 2364, "loss": 0.2382, "learning_rate": 4.670466347608109e-06, "epoch": 0.7614213197969543, "percentage": 19.04, "elapsed_time": "0:09:14", "remaining_time": "0:39:17"}
+{"current_steps": 460, "total_steps": 2364, "loss": 0.1786, "learning_rate": 4.65326603239101e-06, "epoch": 0.7783417935702199, "percentage": 19.46, "elapsed_time": "0:09:26", "remaining_time": "0:39:03"}
+{"current_steps": 470, "total_steps": 2364, "loss": 0.2109, "learning_rate": 4.6356615299963e-06, "epoch": 0.7952622673434856, "percentage": 19.88, "elapsed_time": "0:09:36", "remaining_time": "0:38:41"}
+{"current_steps": 480, "total_steps": 2364, "loss": 0.2296, "learning_rate": 4.617656144945584e-06, "epoch": 0.8121827411167513, "percentage": 20.3, "elapsed_time": "0:09:47", "remaining_time": "0:38:27"}
+{"current_steps": 490, "total_steps": 2364, "loss": 0.21, "learning_rate": 4.599253257009716e-06, "epoch": 0.8291032148900169, "percentage": 20.73, "elapsed_time": "0:09:59", "remaining_time": "0:38:11"}
+{"current_steps": 500, "total_steps": 2364, "loss": 0.1935, "learning_rate": 4.580456320574367e-06, "epoch": 0.8460236886632826, "percentage": 21.15, "elapsed_time": "0:10:09", "remaining_time": "0:37:51"}
+{"current_steps": 510, "total_steps": 2364, "loss": 0.2246, "learning_rate": 4.561268863991618e-06, "epoch": 0.8629441624365483, "percentage": 21.57, "elapsed_time": "0:11:08", "remaining_time": "0:40:28"}
+{"current_steps": 520, "total_steps": 2364, "loss": 0.2234, "learning_rate": 4.541694488917654e-06, "epoch": 0.8798646362098139, "percentage": 22.0, "elapsed_time": "0:11:21", "remaining_time": "0:40:15"}
+{"current_steps": 530, "total_steps": 2364, "loss": 0.2423, "learning_rate": 4.521736869636699e-06, "epoch": 0.8967851099830795, "percentage": 22.42, "elapsed_time": "0:11:31", "remaining_time": "0:39:53"}
+{"current_steps": 540, "total_steps": 2364, "loss": 0.2384, "learning_rate": 4.501399752371323e-06, "epoch": 0.9137055837563451, "percentage": 22.84, "elapsed_time": "0:11:41", "remaining_time": "0:39:29"}
+{"current_steps": 550, "total_steps": 2364, "loss": 0.2208, "learning_rate": 4.480686954579241e-06, "epoch": 0.9306260575296108, "percentage": 23.27, "elapsed_time": "0:11:49", "remaining_time": "0:39:00"}
+{"current_steps": 560, "total_steps": 2364, "loss": 0.2421, "learning_rate": 4.459602364236743e-06, "epoch": 0.9475465313028765, "percentage": 23.69, "elapsed_time": "0:12:00", "remaining_time": "0:38:40"}
+{"current_steps": 570, "total_steps": 2364, "loss": 0.2117, "learning_rate": 4.438149939108887e-06, "epoch": 0.9644670050761421, "percentage": 24.11, "elapsed_time": "0:12:11", "remaining_time": "0:38:21"}
+{"current_steps": 580, "total_steps": 2364, "loss": 0.2395, "learning_rate": 4.4163337060065895e-06, "epoch": 0.9813874788494078, "percentage": 24.53, "elapsed_time": "0:12:22", "remaining_time": "0:38:04"}
+{"current_steps": 590, "total_steps": 2364, "loss": 0.2414, "learning_rate": 4.394157760030756e-06, "epoch": 0.9983079526226735, "percentage": 24.96, "elapsed_time": "0:12:33", "remaining_time": "0:37:45"}
+{"current_steps": 600, "total_steps": 2364, "loss": 0.1639, "learning_rate": 4.371626263803601e-06, "epoch": 1.015228426395939, "percentage": 25.38, "elapsed_time": "0:12:43", "remaining_time": "0:37:25"}
+{"current_steps": 610, "total_steps": 2364, "loss": 0.1606, "learning_rate": 4.348743446687279e-06, "epoch": 1.0321489001692048, "percentage": 25.8, "elapsed_time": "0:12:55", "remaining_time": "0:37:08"}
+{"current_steps": 620, "total_steps": 2364, "loss": 0.1373, "learning_rate": 4.325513603989998e-06, "epoch": 1.0490693739424704, "percentage": 26.23, "elapsed_time": "0:13:04", "remaining_time": "0:36:46"}
+{"current_steps": 630, "total_steps": 2364, "loss": 0.151, "learning_rate": 4.301941096159757e-06, "epoch": 1.0659898477157361, "percentage": 26.65, "elapsed_time": "0:13:15", "remaining_time": "0:36:28"}
+{"current_steps": 640, "total_steps": 2364, "loss": 0.1567, "learning_rate": 4.278030347965842e-06, "epoch": 1.0829103214890017, "percentage": 27.07, "elapsed_time": "0:13:25", "remaining_time": "0:36:10"}
+{"current_steps": 650, "total_steps": 2364, "loss": 0.1412, "learning_rate": 4.253785847668264e-06, "epoch": 1.0998307952622675, "percentage": 27.5, "elapsed_time": "0:13:35", "remaining_time": "0:35:50"}
+{"current_steps": 660, "total_steps": 2364, "loss": 0.1249, "learning_rate": 4.229212146175273e-06, "epoch": 1.116751269035533, "percentage": 27.92, "elapsed_time": "0:13:45", "remaining_time": "0:35:32"}
+{"current_steps": 670, "total_steps": 2364, "loss": 0.1697, "learning_rate": 4.2043138561891086e-06, "epoch": 1.1336717428087986, "percentage": 28.34, "elapsed_time": "0:13:54", "remaining_time": "0:35:11"}
+{"current_steps": 680, "total_steps": 2364, "loss": 0.1429, "learning_rate": 4.179095651340155e-06, "epoch": 1.1505922165820643, "percentage": 28.76, "elapsed_time": "0:14:05", "remaining_time": "0:34:53"}
+{"current_steps": 690, "total_steps": 2364, "loss": 0.1196, "learning_rate": 4.153562265309662e-06, "epoch": 1.16751269035533, "percentage": 29.19, "elapsed_time": "0:14:14", "remaining_time": "0:34:34"}
+{"current_steps": 700, "total_steps": 2364, "loss": 0.1512, "learning_rate": 4.1277184909411885e-06, "epoch": 1.1844331641285957, "percentage": 29.61, "elapsed_time": "0:14:24", "remaining_time": "0:34:15"}
+{"current_steps": 710, "total_steps": 2364, "loss": 0.1795, "learning_rate": 4.101569179340946e-06, "epoch": 1.2013536379018612, "percentage": 30.03, "elapsed_time": "0:14:35", "remaining_time": "0:33:59"}
+{"current_steps": 720, "total_steps": 2364, "loss": 0.1353, "learning_rate": 4.075119238967196e-06, "epoch": 1.218274111675127, "percentage": 30.46, "elapsed_time": "0:14:45", "remaining_time": "0:33:41"}
+{"current_steps": 730, "total_steps": 2364, "loss": 0.1452, "learning_rate": 4.048373634708899e-06, "epoch": 1.2351945854483926, "percentage": 30.88, "elapsed_time": "0:14:55", "remaining_time": "0:33:24"}
+{"current_steps": 740, "total_steps": 2364, "loss": 0.1498, "learning_rate": 4.0213373869537504e-06, "epoch": 1.252115059221658, "percentage": 31.3, "elapsed_time": "0:15:05", "remaining_time": "0:33:07"}
+{"current_steps": 750, "total_steps": 2364, "loss": 0.1221, "learning_rate": 3.994015570645818e-06, "epoch": 1.2690355329949239, "percentage": 31.73, "elapsed_time": "0:15:18", "remaining_time": "0:32:55"}
+{"current_steps": 760, "total_steps": 2364, "loss": 0.1436, "learning_rate": 3.966413314332924e-06, "epoch": 1.2859560067681894, "percentage": 32.15, "elapsed_time": "0:15:27", "remaining_time": "0:32:36"}
+{"current_steps": 770, "total_steps": 2364, "loss": 0.1456, "learning_rate": 3.938535799203971e-06, "epoch": 1.3028764805414552, "percentage": 32.57, "elapsed_time": "0:15:38", "remaining_time": "0:32:23"}
+{"current_steps": 780, "total_steps": 2364, "loss": 0.1329, "learning_rate": 3.91038825811639e-06, "epoch": 1.3197969543147208, "percentage": 32.99, "elapsed_time": "0:15:48", "remaining_time": "0:32:06"}
+{"current_steps": 790, "total_steps": 2364, "loss": 0.1636, "learning_rate": 3.881975974613888e-06, "epoch": 1.3367174280879865, "percentage": 33.42, "elapsed_time": "0:15:58", "remaining_time": "0:31:50"}
+{"current_steps": 800, "total_steps": 2364, "loss": 0.1291, "learning_rate": 3.85330428193467e-06, "epoch": 1.353637901861252, "percentage": 33.84, "elapsed_time": "0:16:08", "remaining_time": "0:31:33"}
+{"current_steps": 810, "total_steps": 2364, "loss": 0.1292, "learning_rate": 3.824378562010358e-06, "epoch": 1.3705583756345177, "percentage": 34.26, "elapsed_time": "0:16:17", "remaining_time": "0:31:15"}
+{"current_steps": 820, "total_steps": 2364, "loss": 0.158, "learning_rate": 3.7952042444557396e-06, "epoch": 1.3874788494077834, "percentage": 34.69, "elapsed_time": "0:16:28", "remaining_time": "0:31:00"}
+{"current_steps": 830, "total_steps": 2364, "loss": 0.146, "learning_rate": 3.7657868055495917e-06, "epoch": 1.404399323181049, "percentage": 35.11, "elapsed_time": "0:16:38", "remaining_time": "0:30:45"}
+{"current_steps": 840, "total_steps": 2364, "loss": 0.1572, "learning_rate": 3.736131767206727e-06, "epoch": 1.4213197969543148, "percentage": 35.53, "elapsed_time": "0:16:50", "remaining_time": "0:30:33"}
+{"current_steps": 850, "total_steps": 2364, "loss": 0.1274, "learning_rate": 3.706244695941489e-06, "epoch": 1.4382402707275803, "percentage": 35.96, "elapsed_time": "0:17:01", "remaining_time": "0:30:18"}
+{"current_steps": 860, "total_steps": 2364, "loss": 0.1582, "learning_rate": 3.6761312018228597e-06, "epoch": 1.455160744500846, "percentage": 36.38, "elapsed_time": "0:17:11", "remaining_time": "0:30:03"}
+{"current_steps": 870, "total_steps": 2364, "loss": 0.1197, "learning_rate": 3.645796937421406e-06, "epoch": 1.4720812182741116, "percentage": 36.8, "elapsed_time": "0:17:21", "remaining_time": "0:29:48"}
+{"current_steps": 880, "total_steps": 2364, "loss": 0.1392, "learning_rate": 3.6152475967482393e-06, "epoch": 1.4890016920473772, "percentage": 37.23, "elapsed_time": "0:17:31", "remaining_time": "0:29:33"}
+{"current_steps": 890, "total_steps": 2364, "loss": 0.1334, "learning_rate": 3.5844889141861977e-06, "epoch": 1.505922165820643, "percentage": 37.65, "elapsed_time": "0:17:40", "remaining_time": "0:29:16"}
+{"current_steps": 900, "total_steps": 2364, "loss": 0.1325, "learning_rate": 3.5535266634134556e-06, "epoch": 1.5228426395939088, "percentage": 38.07, "elapsed_time": "0:17:51", "remaining_time": "0:29:02"}
+{"current_steps": 910, "total_steps": 2364, "loss": 0.1315, "learning_rate": 3.522366656319748e-06, "epoch": 1.5397631133671743, "percentage": 38.49, "elapsed_time": "0:18:02", "remaining_time": "0:28:49"}
+{"current_steps": 920, "total_steps": 2364, "loss": 0.1464, "learning_rate": 3.4910147419154306e-06, "epoch": 1.5566835871404399, "percentage": 38.92, "elapsed_time": "0:18:11", "remaining_time": "0:28:33"}
+{"current_steps": 930, "total_steps": 2364, "loss": 0.132, "learning_rate": 3.459476805233567e-06, "epoch": 1.5736040609137056, "percentage": 39.34, "elapsed_time": "0:18:20", "remaining_time": "0:28:16"}
+{"current_steps": 940, "total_steps": 2364, "loss": 0.1348, "learning_rate": 3.427758766225257e-06, "epoch": 1.5905245346869712, "percentage": 39.76, "elapsed_time": "0:18:31", "remaining_time": "0:28:03"}
+{"current_steps": 950, "total_steps": 2364, "loss": 0.1343, "learning_rate": 3.3958665786484063e-06, "epoch": 1.6074450084602367, "percentage": 40.19, "elapsed_time": "0:18:40", "remaining_time": "0:27:47"}
+{"current_steps": 960, "total_steps": 2364, "loss": 0.1381, "learning_rate": 3.3638062289501584e-06, "epoch": 1.6243654822335025, "percentage": 40.61, "elapsed_time": "0:18:51", "remaining_time": "0:27:34"}
+{"current_steps": 970, "total_steps": 2364, "loss": 0.1642, "learning_rate": 3.331583735143179e-06, "epoch": 1.6412859560067683, "percentage": 41.03, "elapsed_time": "0:19:01", "remaining_time": "0:27:21"}
+{"current_steps": 980, "total_steps": 2364, "loss": 0.1479, "learning_rate": 3.2992051456760242e-06, "epoch": 1.6582064297800339, "percentage": 41.46, "elapsed_time": "0:19:11", "remaining_time": "0:27:06"}
+{"current_steps": 990, "total_steps": 2364, "loss": 0.1564, "learning_rate": 3.266676538297797e-06, "epoch": 1.6751269035532994, "percentage": 41.88, "elapsed_time": "0:19:23", "remaining_time": "0:26:54"}
+{"current_steps": 1000, "total_steps": 2364, "loss": 0.1496, "learning_rate": 3.234004018917293e-06, "epoch": 1.6920473773265652, "percentage": 42.3, "elapsed_time": "0:19:32", "remaining_time": "0:26:39"}
+{"current_steps": 1010, "total_steps": 2364, "loss": 0.1535, "learning_rate": 3.20119372045687e-06, "epoch": 1.708967851099831, "percentage": 42.72, "elapsed_time": "0:20:37", "remaining_time": "0:27:38"}
+{"current_steps": 1020, "total_steps": 2364, "loss": 0.1273, "learning_rate": 3.1682518017012452e-06, "epoch": 1.7258883248730963, "percentage": 43.15, "elapsed_time": "0:20:47", "remaining_time": "0:27:23"}
+{"current_steps": 1030, "total_steps": 2364, "loss": 0.15, "learning_rate": 3.1351844461414348e-06, "epoch": 1.742808798646362, "percentage": 43.57, "elapsed_time": "0:20:56", "remaining_time": "0:27:07"}
+{"current_steps": 1040, "total_steps": 2364, "loss": 0.1387, "learning_rate": 3.1019978608140584e-06, "epoch": 1.7597292724196278, "percentage": 43.99, "elapsed_time": "0:21:07", "remaining_time": "0:26:54"}
+{"current_steps": 1050, "total_steps": 2364, "loss": 0.1261, "learning_rate": 3.0686982751362234e-06, "epoch": 1.7766497461928934, "percentage": 44.42, "elapsed_time": "0:21:18", "remaining_time": "0:26:39"}
+{"current_steps": 1060, "total_steps": 2364, "loss": 0.1492, "learning_rate": 3.0352919397362064e-06, "epoch": 1.793570219966159, "percentage": 44.84, "elapsed_time": "0:21:28", "remaining_time": "0:26:25"}
+{"current_steps": 1070, "total_steps": 2364, "loss": 0.1401, "learning_rate": 3.0017851252801574e-06, "epoch": 1.8104906937394247, "percentage": 45.26, "elapsed_time": "0:21:40", "remaining_time": "0:26:12"}
+{"current_steps": 1080, "total_steps": 2364, "loss": 0.1327, "learning_rate": 2.968184121295038e-06, "epoch": 1.8274111675126905, "percentage": 45.69, "elapsed_time": "0:21:50", "remaining_time": "0:25:58"}
+{"current_steps": 1090, "total_steps": 2364, "loss": 0.1501, "learning_rate": 2.93449523498802e-06, "epoch": 1.844331641285956, "percentage": 46.11, "elapsed_time": "0:22:01", "remaining_time": "0:25:44"}
+{"current_steps": 1100, "total_steps": 2364, "loss": 0.1294, "learning_rate": 2.900724790062571e-06, "epoch": 1.8612521150592216, "percentage": 46.53, "elapsed_time": "0:22:10", "remaining_time": "0:25:28"}
+{"current_steps": 1110, "total_steps": 2364, "loss": 0.1286, "learning_rate": 2.866879125531437e-06, "epoch": 1.8781725888324874, "percentage": 46.95, "elapsed_time": "0:22:21", "remaining_time": "0:25:15"}
+{"current_steps": 1120, "total_steps": 2364, "loss": 0.1617, "learning_rate": 2.832964594526748e-06, "epoch": 1.895093062605753, "percentage": 47.38, "elapsed_time": "0:22:31", "remaining_time": "0:25:01"}
+{"current_steps": 1130, "total_steps": 2364, "loss": 0.1467, "learning_rate": 2.798987563107488e-06, "epoch": 1.9120135363790185, "percentage": 47.8, "elapsed_time": "0:22:41", "remaining_time": "0:24:46"}
+{"current_steps": 1140, "total_steps": 2364, "loss": 0.156, "learning_rate": 2.7649544090645226e-06, "epoch": 1.9289340101522843, "percentage": 48.22, "elapsed_time": "0:22:51", "remaining_time": "0:24:32"}
+{"current_steps": 1150, "total_steps": 2364, "loss": 0.1377, "learning_rate": 2.7308715207234326e-06, "epoch": 1.94585448392555, "percentage": 48.65, "elapsed_time": "0:23:00", "remaining_time": "0:24:16"}
+{"current_steps": 1160, "total_steps": 2364, "loss": 0.141, "learning_rate": 2.69674529574537e-06, "epoch": 1.9627749576988156, "percentage": 49.07, "elapsed_time": "0:23:09", "remaining_time": "0:24:02"}
+{"current_steps": 1170, "total_steps": 2364, "loss": 0.1578, "learning_rate": 2.6625821399261562e-06, "epoch": 1.9796954314720812, "percentage": 49.49, "elapsed_time": "0:23:20", "remaining_time": "0:23:48"}
+{"current_steps": 1180, "total_steps": 2364, "loss": 0.172, "learning_rate": 2.628388465993864e-06, "epoch": 1.996615905245347, "percentage": 49.92, "elapsed_time": "0:23:30", "remaining_time": "0:23:35"}
+{"current_steps": 1190, "total_steps": 2364, "loss": 0.1007, "learning_rate": 2.594170692405083e-06, "epoch": 2.0135363790186127, "percentage": 50.34, "elapsed_time": "0:23:41", "remaining_time": "0:23:22"}
+{"current_steps": 1200, "total_steps": 2364, "loss": 0.0863, "learning_rate": 2.559935242140125e-06, "epoch": 2.030456852791878, "percentage": 50.76, "elapsed_time": "0:23:51", "remaining_time": "0:23:08"}
+{"current_steps": 1210, "total_steps": 2364, "loss": 0.0815, "learning_rate": 2.5256885414973715e-06, "epoch": 2.047377326565144, "percentage": 51.18, "elapsed_time": "0:24:02", "remaining_time": "0:22:56"}
+{"current_steps": 1220, "total_steps": 2364, "loss": 0.0924, "learning_rate": 2.491437018886998e-06, "epoch": 2.0642978003384096, "percentage": 51.61, "elapsed_time": "0:24:14", "remaining_time": "0:22:43"}
+{"current_steps": 1230, "total_steps": 2364, "loss": 0.0843, "learning_rate": 2.457187103624308e-06, "epoch": 2.081218274111675, "percentage": 52.03, "elapsed_time": "0:24:24", "remaining_time": "0:22:29"}
+{"current_steps": 1240, "total_steps": 2364, "loss": 0.0712, "learning_rate": 2.4229452247228895e-06, "epoch": 2.0981387478849407, "percentage": 52.45, "elapsed_time": "0:24:35", "remaining_time": "0:22:17"}
+{"current_steps": 1250, "total_steps": 2364, "loss": 0.0883, "learning_rate": 2.3887178096878363e-06, "epoch": 2.1150592216582065, "percentage": 52.88, "elapsed_time": "0:24:46", "remaining_time": "0:22:04"}
+{"current_steps": 1260, "total_steps": 2364, "loss": 0.0706, "learning_rate": 2.354511283309244e-06, "epoch": 2.1319796954314723, "percentage": 53.3, "elapsed_time": "0:24:55", "remaining_time": "0:21:50"}
+{"current_steps": 1270, "total_steps": 2364, "loss": 0.077, "learning_rate": 2.320332066456224e-06, "epoch": 2.1489001692047376, "percentage": 53.72, "elapsed_time": "0:25:04", "remaining_time": "0:21:36"}
+{"current_steps": 1280, "total_steps": 2364, "loss": 0.0864, "learning_rate": 2.2861865748716448e-06, "epoch": 2.1658206429780034, "percentage": 54.15, "elapsed_time": "0:25:14", "remaining_time": "0:21:22"}
+{"current_steps": 1290, "total_steps": 2364, "loss": 0.0783, "learning_rate": 2.2520812179678422e-06, "epoch": 2.182741116751269, "percentage": 54.57, "elapsed_time": "0:25:24", "remaining_time": "0:21:09"}
+{"current_steps": 1300, "total_steps": 2364, "loss": 0.075, "learning_rate": 2.218022397623517e-06, "epoch": 2.199661590524535, "percentage": 54.99, "elapsed_time": "0:25:33", "remaining_time": "0:20:55"}
+{"current_steps": 1310, "total_steps": 2364, "loss": 0.0745, "learning_rate": 2.1840165069820434e-06, "epoch": 2.2165820642978002, "percentage": 55.41, "elapsed_time": "0:25:45", "remaining_time": "0:20:43"}
+{"current_steps": 1320, "total_steps": 2364, "loss": 0.0652, "learning_rate": 2.150069929251419e-06, "epoch": 2.233502538071066, "percentage": 55.84, "elapsed_time": "0:25:55", "remaining_time": "0:20:30"}
+{"current_steps": 1330, "total_steps": 2364, "loss": 0.0842, "learning_rate": 2.1161890365060838e-06, "epoch": 2.250423011844332, "percentage": 56.26, "elapsed_time": "0:26:05", "remaining_time": "0:20:17"}
+{"current_steps": 1340, "total_steps": 2364, "loss": 0.0824, "learning_rate": 2.082380188490817e-06, "epoch": 2.267343485617597, "percentage": 56.68, "elapsed_time": "0:26:15", "remaining_time": "0:20:03"}
+{"current_steps": 1350, "total_steps": 2364, "loss": 0.0861, "learning_rate": 2.048649731426965e-06, "epoch": 2.284263959390863, "percentage": 57.11, "elapsed_time": "0:26:25", "remaining_time": "0:19:50"}
+{"current_steps": 1360, "total_steps": 2364, "loss": 0.0793, "learning_rate": 2.0150039968211958e-06, "epoch": 2.3011844331641287, "percentage": 57.53, "elapsed_time": "0:26:34", "remaining_time": "0:19:36"}
+{"current_steps": 1370, "total_steps": 2364, "loss": 0.0761, "learning_rate": 1.9814493002770186e-06, "epoch": 2.3181049069373945, "percentage": 57.95, "elapsed_time": "0:26:44", "remaining_time": "0:19:24"}
+{"current_steps": 1380, "total_steps": 2364, "loss": 0.0802, "learning_rate": 1.9479919403092863e-06, "epoch": 2.33502538071066, "percentage": 58.38, "elapsed_time": "0:26:54", "remaining_time": "0:19:11"}
+{"current_steps": 1390, "total_steps": 2364, "loss": 0.0804, "learning_rate": 1.914638197161914e-06, "epoch": 2.3519458544839256, "percentage": 58.8, "elapsed_time": "0:27:05", "remaining_time": "0:18:58"}
+{"current_steps": 1400, "total_steps": 2364, "loss": 0.08, "learning_rate": 1.8813943316290177e-06, "epoch": 2.3688663282571913, "percentage": 59.22, "elapsed_time": "0:27:15", "remaining_time": "0:18:46"}
+{"current_steps": 1410, "total_steps": 2364, "loss": 0.0958, "learning_rate": 1.8482665838797087e-06, "epoch": 2.3857868020304567, "percentage": 59.64, "elapsed_time": "0:27:26", "remaining_time": "0:18:33"}
+{"current_steps": 1420, "total_steps": 2364, "loss": 0.0772, "learning_rate": 1.8152611722867575e-06, "epoch": 2.4027072758037225, "percentage": 60.07, "elapsed_time": "0:27:36", "remaining_time": "0:18:21"}
+{"current_steps": 1430, "total_steps": 2364, "loss": 0.0794, "learning_rate": 1.78238429225935e-06, "epoch": 2.4196277495769882, "percentage": 60.49, "elapsed_time": "0:27:45", "remaining_time": "0:18:07"}
+{"current_steps": 1440, "total_steps": 2364, "loss": 0.1038, "learning_rate": 1.7496421150801547e-06, "epoch": 2.436548223350254, "percentage": 60.91, "elapsed_time": "0:27:56", "remaining_time": "0:17:55"}
+{"current_steps": 1450, "total_steps": 2364, "loss": 0.0854, "learning_rate": 1.7170407867469185e-06, "epoch": 2.4534686971235193, "percentage": 61.34, "elapsed_time": "0:28:06", "remaining_time": "0:17:43"}
+{"current_steps": 1460, "total_steps": 2364, "loss": 0.0722, "learning_rate": 1.6845864268188073e-06, "epoch": 2.470389170896785, "percentage": 61.76, "elapsed_time": "0:28:18", "remaining_time": "0:17:31"}
+{"current_steps": 1470, "total_steps": 2364, "loss": 0.0662, "learning_rate": 1.6522851272677126e-06, "epoch": 2.487309644670051, "percentage": 62.18, "elapsed_time": "0:28:28", "remaining_time": "0:17:19"}
+{"current_steps": 1480, "total_steps": 2364, "loss": 0.0949, "learning_rate": 1.6201429513347275e-06, "epoch": 2.504230118443316, "percentage": 62.61, "elapsed_time": "0:28:38", "remaining_time": "0:17:06"}
+{"current_steps": 1490, "total_steps": 2364, "loss": 0.069, "learning_rate": 1.5881659323920329e-06, "epoch": 2.521150592216582, "percentage": 63.03, "elapsed_time": "0:28:48", "remaining_time": "0:16:53"}
+{"current_steps": 1500, "total_steps": 2364, "loss": 0.0822, "learning_rate": 1.556360072810371e-06, "epoch": 2.5380710659898478, "percentage": 63.45, "elapsed_time": "0:28:57", "remaining_time": "0:16:40"}
+{"current_steps": 1510, "total_steps": 2364, "loss": 0.0739, "learning_rate": 1.5247313428323521e-06, "epoch": 2.5549915397631136, "percentage": 63.87, "elapsed_time": "0:30:01", "remaining_time": "0:16:59"}
+{"current_steps": 1520, "total_steps": 2364, "loss": 0.0701, "learning_rate": 1.4932856794517828e-06, "epoch": 2.571912013536379, "percentage": 64.3, "elapsed_time": "0:30:11", "remaining_time": "0:16:45"}
+{"current_steps": 1530, "total_steps": 2364, "loss": 0.0765, "learning_rate": 1.4620289852992436e-06, "epoch": 2.5888324873096447, "percentage": 64.72, "elapsed_time": "0:30:21", "remaining_time": "0:16:33"}
+{"current_steps": 1540, "total_steps": 2364, "loss": 0.0733, "learning_rate": 1.4309671275341115e-06, "epoch": 2.6057529610829104, "percentage": 65.14, "elapsed_time": "0:30:33", "remaining_time": "0:16:20"}
+{"current_steps": 1550, "total_steps": 2364, "loss": 0.0759, "learning_rate": 1.4001059367432387e-06, "epoch": 2.6226734348561758, "percentage": 65.57, "elapsed_time": "0:30:42", "remaining_time": "0:16:07"}
+{"current_steps": 1560, "total_steps": 2364, "loss": 0.0731, "learning_rate": 1.3694512058465064e-06, "epoch": 2.6395939086294415, "percentage": 65.99, "elapsed_time": "0:30:51", "remaining_time": "0:15:54"}
+{"current_steps": 1570, "total_steps": 2364, "loss": 0.0826, "learning_rate": 1.3390086890094346e-06, "epoch": 2.6565143824027073, "percentage": 66.41, "elapsed_time": "0:31:01", "remaining_time": "0:15:41"}
+{"current_steps": 1580, "total_steps": 2364, "loss": 0.0753, "learning_rate": 1.3087841005630774e-06, "epoch": 2.673434856175973, "percentage": 66.84, "elapsed_time": "0:31:12", "remaining_time": "0:15:29"}
+{"current_steps": 1590, "total_steps": 2364, "loss": 0.0942, "learning_rate": 1.2787831139313957e-06, "epoch": 2.6903553299492384, "percentage": 67.26, "elapsed_time": "0:31:22", "remaining_time": "0:15:16"}
+{"current_steps": 1600, "total_steps": 2364, "loss": 0.083, "learning_rate": 1.249011360566301e-06, "epoch": 2.707275803722504, "percentage": 67.68, "elapsed_time": "0:31:31", "remaining_time": "0:15:03"}
+{"current_steps": 1610, "total_steps": 2364, "loss": 0.087, "learning_rate": 1.2194744288905807e-06, "epoch": 2.72419627749577, "percentage": 68.1, "elapsed_time": "0:31:40", "remaining_time": "0:14:50"}
+{"current_steps": 1620, "total_steps": 2364, "loss": 0.0793, "learning_rate": 1.1901778632489037e-06, "epoch": 2.7411167512690353, "percentage": 68.53, "elapsed_time": "0:31:51", "remaining_time": "0:14:37"}
+{"current_steps": 1630, "total_steps": 2364, "loss": 0.0802, "learning_rate": 1.1611271628671e-06, "epoch": 2.758037225042301, "percentage": 68.95, "elapsed_time": "0:32:02", "remaining_time": "0:14:25"}
+{"current_steps": 1640, "total_steps": 2364, "loss": 0.0789, "learning_rate": 1.132327780819901e-06, "epoch": 2.774957698815567, "percentage": 69.37, "elapsed_time": "0:32:13", "remaining_time": "0:14:13"}
+{"current_steps": 1650, "total_steps": 2364, "loss": 0.0779, "learning_rate": 1.1037851230073563e-06, "epoch": 2.7918781725888326, "percentage": 69.8, "elapsed_time": "0:32:22", "remaining_time": "0:14:00"}
+{"current_steps": 1660, "total_steps": 2364, "loss": 0.0813, "learning_rate": 1.0755045471400897e-06, "epoch": 2.808798646362098, "percentage": 70.22, "elapsed_time": "0:32:32", "remaining_time": "0:13:47"}
+{"current_steps": 1670, "total_steps": 2364, "loss": 0.0763, "learning_rate": 1.0474913617336184e-06, "epoch": 2.8257191201353637, "percentage": 70.64, "elapsed_time": "0:32:43", "remaining_time": "0:13:36"}
+{"current_steps": 1680, "total_steps": 2364, "loss": 0.0731, "learning_rate": 1.0197508251118892e-06, "epoch": 2.8426395939086295, "percentage": 71.07, "elapsed_time": "0:32:54", "remaining_time": "0:13:23"}
+{"current_steps": 1690, "total_steps": 2364, "loss": 0.0861, "learning_rate": 9.922881444202514e-07, "epoch": 2.859560067681895, "percentage": 71.49, "elapsed_time": "0:33:04", "remaining_time": "0:13:11"}
+{"current_steps": 1700, "total_steps": 2364, "loss": 0.078, "learning_rate": 9.651084746480229e-07, "epoch": 2.8764805414551606, "percentage": 71.91, "elapsed_time": "0:33:15", "remaining_time": "0:12:59"}
+{"current_steps": 1710, "total_steps": 2364, "loss": 0.0807, "learning_rate": 9.382169176608568e-07, "epoch": 2.8934010152284264, "percentage": 72.34, "elapsed_time": "0:33:24", "remaining_time": "0:12:46"}
+{"current_steps": 1720, "total_steps": 2364, "loss": 0.0866, "learning_rate": 9.116185212430765e-07, "epoch": 2.910321489001692, "percentage": 72.76, "elapsed_time": "0:33:34", "remaining_time": "0:12:34"}
+{"current_steps": 1730, "total_steps": 2364, "loss": 0.0728, "learning_rate": 8.853182781501598e-07, "epoch": 2.927241962774958, "percentage": 73.18, "elapsed_time": "0:33:46", "remaining_time": "0:12:22"}
+{"current_steps": 1740, "total_steps": 2364, "loss": 0.0726, "learning_rate": 8.593211251715533e-07, "epoch": 2.9441624365482233, "percentage": 73.6, "elapsed_time": "0:33:55", "remaining_time": "0:12:09"}
+{"current_steps": 1750, "total_steps": 2364, "loss": 0.0806, "learning_rate": 8.336319422039945e-07, "epoch": 2.961082910321489, "percentage": 74.03, "elapsed_time": "0:34:04", "remaining_time": "0:11:57"}
+{"current_steps": 1760, "total_steps": 2364, "loss": 0.0809, "learning_rate": 8.082555513355148e-07, "epoch": 2.9780033840947544, "percentage": 74.45, "elapsed_time": "0:34:13", "remaining_time": "0:11:44"}
+{"current_steps": 1770, "total_steps": 2364, "loss": 0.0871, "learning_rate": 7.831967159402837e-07, "epoch": 2.99492385786802, "percentage": 74.87, "elapsed_time": "0:34:24", "remaining_time": "0:11:32"}
+{"current_steps": 1780, "total_steps": 2364, "loss": 0.0494, "learning_rate": 7.584601397844882e-07, "epoch": 3.011844331641286, "percentage": 75.3, "elapsed_time": "0:34:34", "remaining_time": "0:11:20"}
+{"current_steps": 1790, "total_steps": 2364, "loss": 0.0507, "learning_rate": 7.340504661433918e-07, "epoch": 3.0287648054145517, "percentage": 75.72, "elapsed_time": "0:34:45", "remaining_time": "0:11:08"}
+{"current_steps": 1800, "total_steps": 2364, "loss": 0.0465, "learning_rate": 7.099722769297445e-07, "epoch": 3.045685279187817, "percentage": 76.14, "elapsed_time": "0:34:55", "remaining_time": "0:10:56"}
+{"current_steps": 1810, "total_steps": 2364, "loss": 0.0527, "learning_rate": 6.862300918337275e-07, "epoch": 3.062605752961083, "percentage": 76.57, "elapsed_time": "0:35:05", "remaining_time": "0:10:44"}
+{"current_steps": 1820, "total_steps": 2364, "loss": 0.0412, "learning_rate": 6.628283674745608e-07, "epoch": 3.0795262267343486, "percentage": 76.99, "elapsed_time": "0:35:16", "remaining_time": "0:10:32"}
+{"current_steps": 1830, "total_steps": 2364, "loss": 0.0557, "learning_rate": 6.397714965639556e-07, "epoch": 3.0964467005076144, "percentage": 77.41, "elapsed_time": "0:35:27", "remaining_time": "0:10:20"}
+{"current_steps": 1840, "total_steps": 2364, "loss": 0.0465, "learning_rate": 6.170638070815668e-07, "epoch": 3.1133671742808797, "percentage": 77.83, "elapsed_time": "0:35:38", "remaining_time": "0:10:09"}
+{"current_steps": 1850, "total_steps": 2364, "loss": 0.0408, "learning_rate": 5.947095614625894e-07, "epoch": 3.1302876480541455, "percentage": 78.26, "elapsed_time": "0:35:47", "remaining_time": "0:09:56"}
+{"current_steps": 1860, "total_steps": 2364, "loss": 0.0369, "learning_rate": 5.727129557976632e-07, "epoch": 3.1472081218274113, "percentage": 78.68, "elapsed_time": "0:35:57", "remaining_time": "0:09:44"}
+{"current_steps": 1870, "total_steps": 2364, "loss": 0.0413, "learning_rate": 5.510781190452299e-07, "epoch": 3.164128595600677, "percentage": 79.1, "elapsed_time": "0:36:07", "remaining_time": "0:09:32"}
+{"current_steps": 1880, "total_steps": 2364, "loss": 0.0394, "learning_rate": 5.298091122564911e-07, "epoch": 3.1810490693739424, "percentage": 79.53, "elapsed_time": "0:36:17", "remaining_time": "0:09:20"}
+{"current_steps": 1890, "total_steps": 2364, "loss": 0.0539, "learning_rate": 5.089099278131079e-07, "epoch": 3.197969543147208, "percentage": 79.95, "elapsed_time": "0:36:28", "remaining_time": "0:09:08"}
+{"current_steps": 1900, "total_steps": 2364, "loss": 0.0437, "learning_rate": 4.883844886778028e-07, "epoch": 3.214890016920474, "percentage": 80.37, "elapsed_time": "0:36:37", "remaining_time": "0:08:56"}
+{"current_steps": 1910, "total_steps": 2364, "loss": 0.0472, "learning_rate": 4.6823664765798136e-07, "epoch": 3.2318104906937393, "percentage": 80.8, "elapsed_time": "0:36:46", "remaining_time": "0:08:44"}
+{"current_steps": 1920, "total_steps": 2364, "loss": 0.0408, "learning_rate": 4.484701866825231e-07, "epoch": 3.248730964467005, "percentage": 81.22, "elapsed_time": "0:36:56", "remaining_time": "0:08:32"}
+{"current_steps": 1930, "total_steps": 2364, "loss": 0.0417, "learning_rate": 4.290888160918855e-07, "epoch": 3.265651438240271, "percentage": 81.64, "elapsed_time": "0:37:07", "remaining_time": "0:08:21"}
+{"current_steps": 1940, "total_steps": 2364, "loss": 0.0483, "learning_rate": 4.1009617394163566e-07, "epoch": 3.2825719120135366, "percentage": 82.06, "elapsed_time": "0:37:19", "remaining_time": "0:08:09"}
+{"current_steps": 1950, "total_steps": 2364, "loss": 0.0422, "learning_rate": 3.914958253195561e-07, "epoch": 3.299492385786802, "percentage": 82.49, "elapsed_time": "0:37:29", "remaining_time": "0:07:57"}
+{"current_steps": 1960, "total_steps": 2364, "loss": 0.0374, "learning_rate": 3.732912616764478e-07, "epoch": 3.3164128595600677, "percentage": 82.91, "elapsed_time": "0:37:39", "remaining_time": "0:07:45"}
+{"current_steps": 1970, "total_steps": 2364, "loss": 0.0427, "learning_rate": 3.554859001707522e-07, "epoch": 3.3333333333333335, "percentage": 83.33, "elapsed_time": "0:37:50", "remaining_time": "0:07:34"}
+{"current_steps": 1980, "total_steps": 2364, "loss": 0.0485, "learning_rate": 3.3808308302712007e-07, "epoch": 3.350253807106599, "percentage": 83.76, "elapsed_time": "0:37:58", "remaining_time": "0:07:21"}
+{"current_steps": 1990, "total_steps": 2364, "loss": 0.0465, "learning_rate": 3.2108607690904595e-07, "epoch": 3.3671742808798646, "percentage": 84.18, "elapsed_time": "0:38:08", "remaining_time": "0:07:10"}
+{"current_steps": 2000, "total_steps": 2364, "loss": 0.0424, "learning_rate": 3.044980723056884e-07, "epoch": 3.3840947546531304, "percentage": 84.6, "elapsed_time": "0:38:19", "remaining_time": "0:06:58"}
+{"current_steps": 2010, "total_steps": 2364, "loss": 0.0469, "learning_rate": 2.883221829329857e-07, "epoch": 3.401015228426396, "percentage": 85.03, "elapsed_time": "0:39:23", "remaining_time": "0:06:56"}
+{"current_steps": 2020, "total_steps": 2364, "loss": 0.0564, "learning_rate": 2.7256144514918204e-07, "epoch": 3.4179357021996615, "percentage": 85.45, "elapsed_time": "0:39:35", "remaining_time": "0:06:44"}
+{"current_steps": 2030, "total_steps": 2364, "loss": 0.0479, "learning_rate": 2.5721881738487776e-07, "epoch": 3.4348561759729273, "percentage": 85.87, "elapsed_time": "0:39:45", "remaining_time": "0:06:32"}
+{"current_steps": 2040, "total_steps": 2364, "loss": 0.0469, "learning_rate": 2.4229717958770685e-07, "epoch": 3.451776649746193, "percentage": 86.29, "elapsed_time": "0:39:54", "remaining_time": "0:06:20"}
+{"current_steps": 2050, "total_steps": 2364, "loss": 0.0733, "learning_rate": 2.277993326817421e-07, "epoch": 3.4686971235194584, "percentage": 86.72, "elapsed_time": "0:40:04", "remaining_time": "0:06:08"}
+{"current_steps": 2060, "total_steps": 2364, "loss": 0.0401, "learning_rate": 2.1372799804173894e-07, "epoch": 3.485617597292724, "percentage": 87.14, "elapsed_time": "0:40:14", "remaining_time": "0:05:56"}
+{"current_steps": 2070, "total_steps": 2364, "loss": 0.0486, "learning_rate": 2.0008581698231e-07, "epoch": 3.50253807106599, "percentage": 87.56, "elapsed_time": "0:40:23", "remaining_time": "0:05:44"}
+{"current_steps": 2080, "total_steps": 2364, "loss": 0.0448, "learning_rate": 1.8687535026212206e-07, "epoch": 3.5194585448392557, "percentage": 87.99, "elapsed_time": "0:40:34", "remaining_time": "0:05:32"}
+{"current_steps": 2090, "total_steps": 2364, "loss": 0.0462, "learning_rate": 1.740990776032256e-07, "epoch": 3.536379018612521, "percentage": 88.41, "elapsed_time": "0:40:44", "remaining_time": "0:05:20"}
+{"current_steps": 2100, "total_steps": 2364, "loss": 0.0474, "learning_rate": 1.617593972255846e-07, "epoch": 3.553299492385787, "percentage": 88.83, "elapsed_time": "0:40:53", "remaining_time": "0:05:08"}
+{"current_steps": 2110, "total_steps": 2364, "loss": 0.0506, "learning_rate": 1.4985862539691033e-07, "epoch": 3.5702199661590526, "percentage": 89.26, "elapsed_time": "0:41:04", "remaining_time": "0:04:56"}
+{"current_steps": 2120, "total_steps": 2364, "loss": 0.0563, "learning_rate": 1.3839899599787655e-07, "epoch": 3.587140439932318, "percentage": 89.68, "elapsed_time": "0:41:14", "remaining_time": "0:04:44"}
+{"current_steps": 2130, "total_steps": 2364, "loss": 0.0455, "learning_rate": 1.2738266010280275e-07, "epoch": 3.6040609137055837, "percentage": 90.1, "elapsed_time": "0:41:23", "remaining_time": "0:04:32"}
+{"current_steps": 2140, "total_steps": 2364, "loss": 0.0462, "learning_rate": 1.168116855758747e-07, "epoch": 3.6209813874788495, "percentage": 90.52, "elapsed_time": "0:41:34", "remaining_time": "0:04:21"}
+{"current_steps": 2150, "total_steps": 2364, "loss": 0.0478, "learning_rate": 1.066880566829917e-07, "epoch": 3.6379018612521152, "percentage": 90.95, "elapsed_time": "0:41:43", "remaining_time": "0:04:09"}
+{"current_steps": 2160, "total_steps": 2364, "loss": 0.0514, "learning_rate": 9.701367371930059e-08, "epoch": 3.6548223350253806, "percentage": 91.37, "elapsed_time": "0:41:53", "remaining_time": "0:03:57"}
+{"current_steps": 2170, "total_steps": 2364, "loss": 0.0509, "learning_rate": 8.779035265249064e-08, "epoch": 3.6717428087986463, "percentage": 91.79, "elapsed_time": "0:42:02", "remaining_time": "0:03:45"}
+{"current_steps": 2180, "total_steps": 2364, "loss": 0.0432, "learning_rate": 7.901982478192572e-08, "epoch": 3.688663282571912, "percentage": 92.22, "elapsed_time": "0:42:14", "remaining_time": "0:03:33"}
+{"current_steps": 2190, "total_steps": 2364, "loss": 0.0468, "learning_rate": 7.07037364136609e-08, "epoch": 3.7055837563451774, "percentage": 92.64, "elapsed_time": "0:42:24", "remaining_time": "0:03:22"}
+{"current_steps": 2200, "total_steps": 2364, "loss": 0.0451, "learning_rate": 6.2843648551415e-08, "epoch": 3.7225042301184432, "percentage": 93.06, "elapsed_time": "0:42:33", "remaining_time": "0:03:10"}
+{"current_steps": 2210, "total_steps": 2364, "loss": 0.0416, "learning_rate": 5.544103660355987e-08, "epoch": 3.739424703891709, "percentage": 93.49, "elapsed_time": "0:42:45", "remaining_time": "0:02:58"}
+{"current_steps": 2220, "total_steps": 2364, "loss": 0.0494, "learning_rate": 4.849729010616949e-08, "epoch": 3.7563451776649748, "percentage": 93.91, "elapsed_time": "0:42:54", "remaining_time": "0:02:46"}
+{"current_steps": 2230, "total_steps": 2364, "loss": 0.0411, "learning_rate": 4.201371246219388e-08, "epoch": 3.77326565143824, "percentage": 94.33, "elapsed_time": "0:43:05", "remaining_time": "0:02:35"}
+{"current_steps": 2240, "total_steps": 2364, "loss": 0.04, "learning_rate": 3.599152069679812e-08, "epoch": 3.790186125211506, "percentage": 94.75, "elapsed_time": "0:43:16", "remaining_time": "0:02:23"}
+{"current_steps": 2250, "total_steps": 2364, "loss": 0.0567, "learning_rate": 3.043184522891679e-08, "epoch": 3.8071065989847717, "percentage": 95.18, "elapsed_time": "0:43:26", "remaining_time": "0:02:12"}
+{"current_steps": 2260, "total_steps": 2364, "loss": 0.0401, "learning_rate": 2.5335729659062002e-08, "epoch": 3.824027072758037, "percentage": 95.6, "elapsed_time": "0:43:37", "remaining_time": "0:02:00"}
+{"current_steps": 2270, "total_steps": 2364, "loss": 0.0408, "learning_rate": 2.07041305734329e-08, "epoch": 3.8409475465313028, "percentage": 96.02, "elapsed_time": "0:43:47", "remaining_time": "0:01:48"}
+{"current_steps": 2280, "total_steps": 2364, "loss": 0.0379, "learning_rate": 1.6537917364354838e-08, "epoch": 3.8578680203045685, "percentage": 96.45, "elapsed_time": "0:43:59", "remaining_time": "0:01:37"}
+{"current_steps": 2290, "total_steps": 2364, "loss": 0.0454, "learning_rate": 1.2837872067085477e-08, "epoch": 3.8747884940778343, "percentage": 96.87, "elapsed_time": "0:44:09", "remaining_time": "0:01:25"}
+{"current_steps": 2300, "total_steps": 2364, "loss": 0.0558, "learning_rate": 9.604689213022767e-09, "epoch": 3.8917089678511, "percentage": 97.29, "elapsed_time": "0:44:18", "remaining_time": "0:01:13"}
+{"current_steps": 2310, "total_steps": 2364, "loss": 0.0447, "learning_rate": 6.838975699332007e-09, "epoch": 3.9086294416243654, "percentage": 97.72, "elapsed_time": "0:44:29", "remaining_time": "0:01:02"}
+{"current_steps": 2320, "total_steps": 2364, "loss": 0.0535, "learning_rate": 4.541250675028363e-09, "epoch": 3.925549915397631, "percentage": 98.14, "elapsed_time": "0:44:39", "remaining_time": "0:00:50"}
+{"current_steps": 2330, "total_steps": 2364, "loss": 0.047, "learning_rate": 2.711945443526209e-09, "epoch": 3.9424703891708965, "percentage": 98.56, "elapsed_time": "0:44:48", "remaining_time": "0:00:39"}
+{"current_steps": 2340, "total_steps": 2364, "loss": 0.0456, "learning_rate": 1.351403381680827e-09, "epoch": 3.9593908629441623, "percentage": 98.98, "elapsed_time": "0:44:57", "remaining_time": "0:00:27"}
+{"current_steps": 2350, "total_steps": 2364, "loss": 0.0413, "learning_rate": 4.598798753330247e-10, "epoch": 3.976311336717428, "percentage": 99.41, "elapsed_time": "0:45:08", "remaining_time": "0:00:16"}
+{"current_steps": 2360, "total_steps": 2364, "loss": 0.046, "learning_rate": 3.754227137081623e-11, "epoch": 3.993231810490694, "percentage": 99.83, "elapsed_time": "0:45:19", "remaining_time": "0:00:04"}
+{"current_steps": 2364, "total_steps": 2364, "epoch": 4.0, "percentage": 100.0, "elapsed_time": "0:46:17", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1694 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 50000,
+  "global_step": 2364,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01692047377326565,
+      "grad_norm": 4.428616046905518,
+      "learning_rate": 7.042253521126762e-07,
+      "loss": 0.6706,
+      "step": 10
+    },
+    {
+      "epoch": 0.0338409475465313,
+      "grad_norm": 6.486809730529785,
+      "learning_rate": 1.4084507042253523e-06,
+      "loss": 0.6483,
+      "step": 20
+    },
+    {
+      "epoch": 0.050761421319796954,
+      "grad_norm": 3.8806605339050293,
+      "learning_rate": 2.1126760563380285e-06,
+      "loss": 0.5231,
+      "step": 30
+    },
+    {
+      "epoch": 0.0676818950930626,
+      "grad_norm": 2.814377784729004,
+      "learning_rate": 2.8169014084507046e-06,
+      "loss": 0.3641,
+      "step": 40
+    },
+    {
+      "epoch": 0.08460236886632826,
+      "grad_norm": 2.3236453533172607,
+      "learning_rate": 3.5211267605633804e-06,
+      "loss": 0.2923,
+      "step": 50
+    },
+    {
+      "epoch": 0.10152284263959391,
+      "grad_norm": 1.732696294784546,
+      "learning_rate": 4.225352112676057e-06,
+      "loss": 0.2632,
+      "step": 60
+    },
+    {
+      "epoch": 0.11844331641285956,
+      "grad_norm": 1.71094810962677,
+      "learning_rate": 4.929577464788733e-06,
+      "loss": 0.2672,
+      "step": 70
+    },
+    {
+      "epoch": 0.1353637901861252,
+      "grad_norm": 2.0413691997528076,
+      "learning_rate": 4.999809944183634e-06,
+      "loss": 0.2208,
+      "step": 80
+    },
+    {
+      "epoch": 0.15228426395939088,
+      "grad_norm": 2.169725179672241,
+      "learning_rate": 4.999152998213973e-06,
+      "loss": 0.252,
+      "step": 90
+    },
+    {
+      "epoch": 0.1692047377326565,
+      "grad_norm": 1.3290756940841675,
+      "learning_rate": 4.998026939008151e-06,
+      "loss": 0.2468,
+      "step": 100
+    },
+    {
+      "epoch": 0.18612521150592218,
+      "grad_norm": 2.0767831802368164,
+      "learning_rate": 4.996431977937491e-06,
+      "loss": 0.2468,
+      "step": 110
+    },
+    {
+      "epoch": 0.20304568527918782,
+      "grad_norm": 1.3648345470428467,
+      "learning_rate": 4.994368414390368e-06,
+      "loss": 0.2068,
+      "step": 120
+    },
+    {
+      "epoch": 0.21996615905245348,
+      "grad_norm": 1.9443793296813965,
+      "learning_rate": 4.991836635716003e-06,
+      "loss": 0.233,
+      "step": 130
+    },
+    {
+      "epoch": 0.23688663282571912,
+      "grad_norm": 1.4086923599243164,
+      "learning_rate": 4.988837117151762e-06,
+      "loss": 0.2153,
+      "step": 140
+    },
+    {
+      "epoch": 0.25380710659898476,
+      "grad_norm": 1.4785760641098022,
+      "learning_rate": 4.985370421733948e-06,
+      "loss": 0.2316,
+      "step": 150
+    },
+    {
+      "epoch": 0.2707275803722504,
+      "grad_norm": 1.52463960647583,
+      "learning_rate": 4.981437200192111e-06,
+      "loss": 0.215,
+      "step": 160
+    },
+    {
+      "epoch": 0.2876480541455161,
+      "grad_norm": 1.5714839696884155,
+      "learning_rate": 4.9770381908269005e-06,
+      "loss": 0.2366,
+      "step": 170
+    },
+    {
+      "epoch": 0.30456852791878175,
+      "grad_norm": 1.8277614116668701,
+      "learning_rate": 4.972174219371484e-06,
+      "loss": 0.2443,
+      "step": 180
+    },
+    {
+      "epoch": 0.32148900169204736,
+      "grad_norm": 1.175654411315918,
+      "learning_rate": 4.966846198836546e-06,
+      "loss": 0.2226,
+      "step": 190
+    },
+    {
+      "epoch": 0.338409475465313,
+      "grad_norm": 1.5629938840866089,
+      "learning_rate": 4.96105512933891e-06,
+      "loss": 0.2231,
+      "step": 200
+    },
+    {
+      "epoch": 0.3553299492385787,
+      "grad_norm": 1.6523264646530151,
+      "learning_rate": 4.954802097913804e-06,
+      "loss": 0.2193,
+      "step": 210
+    },
+    {
+      "epoch": 0.37225042301184436,
+      "grad_norm": 1.222960114479065,
+      "learning_rate": 4.94808827831082e-06,
+      "loss": 0.2534,
+      "step": 220
+    },
+    {
+      "epoch": 0.38917089678510997,
+      "grad_norm": 1.26102614402771,
+      "learning_rate": 4.9409149307735835e-06,
+      "loss": 0.2283,
+      "step": 230
+    },
+    {
+      "epoch": 0.40609137055837563,
+      "grad_norm": 1.4353593587875366,
+      "learning_rate": 4.9332834018032025e-06,
+      "loss": 0.2594,
+      "step": 240
+    },
+    {
+      "epoch": 0.4230118443316413,
+      "grad_norm": 1.1220771074295044,
+      "learning_rate": 4.925195123905513e-06,
+      "loss": 0.2262,
+      "step": 250
+    },
+    {
+      "epoch": 0.43993231810490696,
+      "grad_norm": 1.7100379467010498,
+      "learning_rate": 4.916651615322182e-06,
+      "loss": 0.2093,
+      "step": 260
+    },
+    {
+      "epoch": 0.45685279187817257,
+      "grad_norm": 1.975794792175293,
+      "learning_rate": 4.907654479745726e-06,
+      "loss": 0.2101,
+      "step": 270
+    },
+    {
+      "epoch": 0.47377326565143824,
+      "grad_norm": 1.3200404644012451,
+      "learning_rate": 4.89820540601848e-06,
+      "loss": 0.2462,
+      "step": 280
+    },
+    {
+      "epoch": 0.4906937394247039,
+      "grad_norm": 1.254960298538208,
+      "learning_rate": 4.8883061678155905e-06,
+      "loss": 0.2051,
+      "step": 290
+    },
+    {
+      "epoch": 0.5076142131979695,
+      "grad_norm": 1.7000998258590698,
+      "learning_rate": 4.877958623312076e-06,
+      "loss": 0.2531,
+      "step": 300
+    },
+    {
+      "epoch": 0.5245346869712352,
+      "grad_norm": 1.2153050899505615,
+      "learning_rate": 4.8671647148340304e-06,
+      "loss": 0.2484,
+      "step": 310
+    },
+    {
+      "epoch": 0.5414551607445008,
+      "grad_norm": 1.4881746768951416,
+      "learning_rate": 4.855926468494039e-06,
+      "loss": 0.2121,
+      "step": 320
+    },
+    {
+      "epoch": 0.5583756345177665,
+      "grad_norm": 1.3982009887695312,
+      "learning_rate": 4.844245993810852e-06,
+      "loss": 0.237,
+      "step": 330
+    },
+    {
+      "epoch": 0.5752961082910322,
+      "grad_norm": 1.4024406671524048,
+      "learning_rate": 4.832125483313411e-06,
+      "loss": 0.2126,
+      "step": 340
+    },
+    {
+      "epoch": 0.5922165820642978,
+      "grad_norm": 1.4790270328521729,
+      "learning_rate": 4.819567212129292e-06,
+      "loss": 0.2491,
+      "step": 350
+    },
+    {
+      "epoch": 0.6091370558375635,
+      "grad_norm": 1.5148818492889404,
+      "learning_rate": 4.806573537557643e-06,
+      "loss": 0.2359,
+      "step": 360
+    },
+    {
+      "epoch": 0.626057529610829,
+      "grad_norm": 1.7280242443084717,
+      "learning_rate": 4.7931468986267014e-06,
+      "loss": 0.2363,
+      "step": 370
+    },
+    {
+      "epoch": 0.6429780033840947,
+      "grad_norm": 1.5051395893096924,
+      "learning_rate": 4.779289815635961e-06,
+      "loss": 0.2132,
+      "step": 380
+    },
+    {
+      "epoch": 0.6598984771573604,
+      "grad_norm": 2.0735015869140625,
+      "learning_rate": 4.765004889683096e-06,
+      "loss": 0.2307,
+      "step": 390
+    },
+    {
+      "epoch": 0.676818950930626,
+      "grad_norm": 1.4238276481628418,
+      "learning_rate": 4.750294802175703e-06,
+      "loss": 0.2237,
+      "step": 400
+    },
+    {
+      "epoch": 0.6937394247038917,
+      "grad_norm": 1.283726453781128,
+      "learning_rate": 4.735162314327987e-06,
+      "loss": 0.2299,
+      "step": 410
+    },
+    {
+      "epoch": 0.7106598984771574,
+      "grad_norm": 1.8388890027999878,
+      "learning_rate": 4.71961026664245e-06,
+      "loss": 0.23,
+      "step": 420
+    },
+    {
+      "epoch": 0.727580372250423,
+      "grad_norm": 1.456938624382019,
+      "learning_rate": 4.703641578376706e-06,
+      "loss": 0.1979,
+      "step": 430
+    },
+    {
+      "epoch": 0.7445008460236887,
+      "grad_norm": 1.3884906768798828,
+      "learning_rate": 4.687259246995512e-06,
+      "loss": 0.2358,
+      "step": 440
+    },
+    {
+      "epoch": 0.7614213197969543,
+      "grad_norm": 1.8143761157989502,
+      "learning_rate": 4.670466347608109e-06,
+      "loss": 0.2382,
+      "step": 450
+    },
+    {
+      "epoch": 0.7783417935702199,
+      "grad_norm": 1.3720914125442505,
+      "learning_rate": 4.65326603239101e-06,
+      "loss": 0.1786,
+      "step": 460
+    },
+    {
+      "epoch": 0.7952622673434856,
+      "grad_norm": 1.378342866897583,
+      "learning_rate": 4.6356615299963e-06,
+      "loss": 0.2109,
+      "step": 470
+    },
+    {
+      "epoch": 0.8121827411167513,
+      "grad_norm": 1.6520991325378418,
+      "learning_rate": 4.617656144945584e-06,
+      "loss": 0.2296,
+      "step": 480
+    },
+    {
+      "epoch": 0.8291032148900169,
+      "grad_norm": 1.617244839668274,
+      "learning_rate": 4.599253257009716e-06,
+      "loss": 0.21,
+      "step": 490
+    },
+    {
+      "epoch": 0.8460236886632826,
+      "grad_norm": 1.8561798334121704,
+      "learning_rate": 4.580456320574367e-06,
+      "loss": 0.1935,
+      "step": 500
+    },
+    {
+      "epoch": 0.8629441624365483,
+      "grad_norm": 2.1917858123779297,
+      "learning_rate": 4.561268863991618e-06,
+      "loss": 0.2246,
+      "step": 510
+    },
+    {
+      "epoch": 0.8798646362098139,
+      "grad_norm": 1.4701884984970093,
+      "learning_rate": 4.541694488917654e-06,
+      "loss": 0.2234,
+      "step": 520
+    },
+    {
+      "epoch": 0.8967851099830795,
+      "grad_norm": 1.3482675552368164,
+      "learning_rate": 4.521736869636699e-06,
+      "loss": 0.2423,
+      "step": 530
+    },
+    {
+      "epoch": 0.9137055837563451,
+      "grad_norm": 1.618618130683899,
+      "learning_rate": 4.501399752371323e-06,
+      "loss": 0.2384,
+      "step": 540
+    },
+    {
+      "epoch": 0.9306260575296108,
+      "grad_norm": 1.7225276231765747,
+      "learning_rate": 4.480686954579241e-06,
+      "loss": 0.2208,
+      "step": 550
+    },
+    {
+      "epoch": 0.9475465313028765,
+      "grad_norm": 1.5978412628173828,
+      "learning_rate": 4.459602364236743e-06,
+      "loss": 0.2421,
+      "step": 560
+    },
+    {
+      "epoch": 0.9644670050761421,
+      "grad_norm": 1.34050452709198,
+      "learning_rate": 4.438149939108887e-06,
+      "loss": 0.2117,
+      "step": 570
+    },
+    {
+      "epoch": 0.9813874788494078,
+      "grad_norm": 1.7396200895309448,
+      "learning_rate": 4.4163337060065895e-06,
+      "loss": 0.2395,
+      "step": 580
+    },
+    {
+      "epoch": 0.9983079526226735,
+      "grad_norm": 1.5188558101654053,
+      "learning_rate": 4.394157760030756e-06,
+      "loss": 0.2414,
+      "step": 590
+    },
+    {
+      "epoch": 1.015228426395939,
+      "grad_norm": 1.3064625263214111,
+      "learning_rate": 4.371626263803601e-06,
+      "loss": 0.1639,
+      "step": 600
+    },
+    {
+      "epoch": 1.0321489001692048,
+      "grad_norm": 1.2497655153274536,
+      "learning_rate": 4.348743446687279e-06,
+      "loss": 0.1606,
+      "step": 610
+    },
+    {
+      "epoch": 1.0490693739424704,
+      "grad_norm": 1.3260619640350342,
+      "learning_rate": 4.325513603989998e-06,
+      "loss": 0.1373,
+      "step": 620
+    },
+    {
+      "epoch": 1.0659898477157361,
+      "grad_norm": 1.7090791463851929,
+      "learning_rate": 4.301941096159757e-06,
+      "loss": 0.151,
+      "step": 630
+    },
+    {
+      "epoch": 1.0829103214890017,
+      "grad_norm": 1.4625272750854492,
+      "learning_rate": 4.278030347965842e-06,
+      "loss": 0.1567,
+      "step": 640
+    },
+    {
+      "epoch": 1.0998307952622675,
+      "grad_norm": 1.374337911605835,
+      "learning_rate": 4.253785847668264e-06,
+      "loss": 0.1412,
+      "step": 650
+    },
+    {
+      "epoch": 1.116751269035533,
+      "grad_norm": 1.326503038406372,
+      "learning_rate": 4.229212146175273e-06,
+      "loss": 0.1249,
+      "step": 660
+    },
+    {
+      "epoch": 1.1336717428087986,
+      "grad_norm": 1.2745444774627686,
+      "learning_rate": 4.2043138561891086e-06,
+      "loss": 0.1697,
+      "step": 670
+    },
+    {
+      "epoch": 1.1505922165820643,
+      "grad_norm": 1.3895198106765747,
+      "learning_rate": 4.179095651340155e-06,
+      "loss": 0.1429,
+      "step": 680
+    },
+    {
+      "epoch": 1.16751269035533,
+      "grad_norm": 1.331308126449585,
+      "learning_rate": 4.153562265309662e-06,
+      "loss": 0.1196,
+      "step": 690
+    },
+    {
+      "epoch": 1.1844331641285957,
+      "grad_norm": 1.7868833541870117,
+      "learning_rate": 4.1277184909411885e-06,
+      "loss": 0.1512,
+      "step": 700
+    },
+    {
+      "epoch": 1.2013536379018612,
+      "grad_norm": 1.2682002782821655,
+      "learning_rate": 4.101569179340946e-06,
+      "loss": 0.1795,
+      "step": 710
+    },
+    {
+      "epoch": 1.218274111675127,
+      "grad_norm": 1.1160831451416016,
+      "learning_rate": 4.075119238967196e-06,
+      "loss": 0.1353,
+      "step": 720
+    },
+    {
+      "epoch": 1.2351945854483926,
+      "grad_norm": 1.2749055624008179,
+      "learning_rate": 4.048373634708899e-06,
+      "loss": 0.1452,
+      "step": 730
+    },
+    {
+      "epoch": 1.252115059221658,
+      "grad_norm": 1.6326930522918701,
+      "learning_rate": 4.0213373869537504e-06,
+      "loss": 0.1498,
+      "step": 740
+    },
+    {
+      "epoch": 1.2690355329949239,
+      "grad_norm": 1.2723865509033203,
+      "learning_rate": 3.994015570645818e-06,
+      "loss": 0.1221,
+      "step": 750
+    },
+    {
+      "epoch": 1.2859560067681894,
+      "grad_norm": 1.4743432998657227,
+      "learning_rate": 3.966413314332924e-06,
+      "loss": 0.1436,
+      "step": 760
+    },
+    {
+      "epoch": 1.3028764805414552,
+      "grad_norm": 1.3993955850601196,
+      "learning_rate": 3.938535799203971e-06,
+      "loss": 0.1456,
+      "step": 770
+    },
+    {
+      "epoch": 1.3197969543147208,
+      "grad_norm": 1.7814866304397583,
+      "learning_rate": 3.91038825811639e-06,
+      "loss": 0.1329,
+      "step": 780
+    },
+    {
+      "epoch": 1.3367174280879865,
+      "grad_norm": 1.551604151725769,
+      "learning_rate": 3.881975974613888e-06,
+      "loss": 0.1636,
+      "step": 790
+    },
+    {
+      "epoch": 1.353637901861252,
+      "grad_norm": 1.244645118713379,
+      "learning_rate": 3.85330428193467e-06,
+      "loss": 0.1291,
+      "step": 800
+    },
+    {
+      "epoch": 1.3705583756345177,
+      "grad_norm": 1.368085503578186,
+      "learning_rate": 3.824378562010358e-06,
+      "loss": 0.1292,
+      "step": 810
+    },
+    {
+      "epoch": 1.3874788494077834,
+      "grad_norm": 1.6551761627197266,
+      "learning_rate": 3.7952042444557396e-06,
+      "loss": 0.158,
+      "step": 820
+    },
+    {
+      "epoch": 1.404399323181049,
+      "grad_norm": 1.4006320238113403,
+      "learning_rate": 3.7657868055495917e-06,
+      "loss": 0.146,
+      "step": 830
+    },
+    {
+      "epoch": 1.4213197969543148,
+      "grad_norm": 1.8334702253341675,
+      "learning_rate": 3.736131767206727e-06,
+      "loss": 0.1572,
+      "step": 840
+    },
+    {
+      "epoch": 1.4382402707275803,
+      "grad_norm": 1.3605976104736328,
+      "learning_rate": 3.706244695941489e-06,
+      "loss": 0.1274,
+      "step": 850
+    },
+    {
+      "epoch": 1.455160744500846,
+      "grad_norm": 1.306801199913025,
+      "learning_rate": 3.6761312018228597e-06,
+      "loss": 0.1582,
+      "step": 860
+    },
+    {
+      "epoch": 1.4720812182741116,
+      "grad_norm": 1.4271026849746704,
+      "learning_rate": 3.645796937421406e-06,
+      "loss": 0.1197,
+      "step": 870
+    },
+    {
+      "epoch": 1.4890016920473772,
+      "grad_norm": 1.3257379531860352,
+      "learning_rate": 3.6152475967482393e-06,
+      "loss": 0.1392,
+      "step": 880
+    },
+    {
+      "epoch": 1.505922165820643,
+      "grad_norm": 1.4457297325134277,
+      "learning_rate": 3.5844889141861977e-06,
+      "loss": 0.1334,
+      "step": 890
+    },
+    {
+      "epoch": 1.5228426395939088,
+      "grad_norm": 1.5230379104614258,
+      "learning_rate": 3.5535266634134556e-06,
+      "loss": 0.1325,
+      "step": 900
+    },
+    {
+      "epoch": 1.5397631133671743,
+      "grad_norm": 1.1343902349472046,
+      "learning_rate": 3.522366656319748e-06,
+      "loss": 0.1315,
+      "step": 910
+    },
+    {
+      "epoch": 1.5566835871404399,
+      "grad_norm": 1.58329439163208,
+      "learning_rate": 3.4910147419154306e-06,
+      "loss": 0.1464,
+      "step": 920
+    },
+    {
+      "epoch": 1.5736040609137056,
+      "grad_norm": 1.3953927755355835,
+      "learning_rate": 3.459476805233567e-06,
+      "loss": 0.132,
+      "step": 930
+    },
+    {
+      "epoch": 1.5905245346869712,
+      "grad_norm": 1.5068899393081665,
+      "learning_rate": 3.427758766225257e-06,
+      "loss": 0.1348,
+      "step": 940
+    },
+    {
+      "epoch": 1.6074450084602367,
+      "grad_norm": 1.7132457494735718,
+      "learning_rate": 3.3958665786484063e-06,
+      "loss": 0.1343,
+      "step": 950
+    },
+    {
+      "epoch": 1.6243654822335025,
+      "grad_norm": 1.1419628858566284,
+      "learning_rate": 3.3638062289501584e-06,
+      "loss": 0.1381,
+      "step": 960
+    },
+    {
+      "epoch": 1.6412859560067683,
+      "grad_norm": 1.8477777242660522,
+      "learning_rate": 3.331583735143179e-06,
+      "loss": 0.1642,
+      "step": 970
+    },
+    {
+      "epoch": 1.6582064297800339,
+      "grad_norm": 1.5605595111846924,
+      "learning_rate": 3.2992051456760242e-06,
+      "loss": 0.1479,
+      "step": 980
+    },
+    {
+      "epoch": 1.6751269035532994,
+      "grad_norm": 1.643684983253479,
+      "learning_rate": 3.266676538297797e-06,
+      "loss": 0.1564,
+      "step": 990
+    },
+    {
+      "epoch": 1.6920473773265652,
+      "grad_norm": 1.6141108274459839,
+      "learning_rate": 3.234004018917293e-06,
+      "loss": 0.1496,
+      "step": 1000
+    },
+    {
+      "epoch": 1.708967851099831,
+      "grad_norm": 1.8253343105316162,
+      "learning_rate": 3.20119372045687e-06,
+      "loss": 0.1535,
+      "step": 1010
+    },
+    {
+      "epoch": 1.7258883248730963,
+      "grad_norm": 1.3858433961868286,
+      "learning_rate": 3.1682518017012452e-06,
+      "loss": 0.1273,
+      "step": 1020
+    },
+    {
+      "epoch": 1.742808798646362,
+      "grad_norm": 1.9302154779434204,
+      "learning_rate": 3.1351844461414348e-06,
+      "loss": 0.15,
+      "step": 1030
+    },
+    {
+      "epoch": 1.7597292724196278,
+      "grad_norm": 1.4370014667510986,
+      "learning_rate": 3.1019978608140584e-06,
+      "loss": 0.1387,
+      "step": 1040
+    },
+    {
+      "epoch": 1.7766497461928934,
+      "grad_norm": 1.0620018243789673,
+      "learning_rate": 3.0686982751362234e-06,
+      "loss": 0.1261,
+      "step": 1050
+    },
+    {
+      "epoch": 1.793570219966159,
+      "grad_norm": 1.401853084564209,
+      "learning_rate": 3.0352919397362064e-06,
+      "loss": 0.1492,
+      "step": 1060
+    },
+    {
+      "epoch": 1.8104906937394247,
+      "grad_norm": 1.4132765531539917,
+      "learning_rate": 3.0017851252801574e-06,
+      "loss": 0.1401,
+      "step": 1070
+    },
+    {
+      "epoch": 1.8274111675126905,
+      "grad_norm": 1.540830373764038,
+      "learning_rate": 2.968184121295038e-06,
+      "loss": 0.1327,
+      "step": 1080
+    },
+    {
+      "epoch": 1.844331641285956,
+      "grad_norm": 1.434097170829773,
+      "learning_rate": 2.93449523498802e-06,
+      "loss": 0.1501,
+      "step": 1090
+    },
+    {
+      "epoch": 1.8612521150592216,
+      "grad_norm": 1.495847463607788,
+      "learning_rate": 2.900724790062571e-06,
+      "loss": 0.1294,
+      "step": 1100
+    },
+    {
+      "epoch": 1.8781725888324874,
+      "grad_norm": 1.7926485538482666,
+      "learning_rate": 2.866879125531437e-06,
+      "loss": 0.1286,
+      "step": 1110
+    },
+    {
+      "epoch": 1.895093062605753,
+      "grad_norm": 1.778939962387085,
+      "learning_rate": 2.832964594526748e-06,
+      "loss": 0.1617,
+      "step": 1120
+    },
+    {
+      "epoch": 1.9120135363790185,
+      "grad_norm": 1.9225724935531616,
+      "learning_rate": 2.798987563107488e-06,
+      "loss": 0.1467,
+      "step": 1130
+    },
+    {
+      "epoch": 1.9289340101522843,
+      "grad_norm": 1.0806710720062256,
+      "learning_rate": 2.7649544090645226e-06,
+      "loss": 0.156,
+      "step": 1140
+    },
+    {
+      "epoch": 1.94585448392555,
+      "grad_norm": 1.5917881727218628,
+      "learning_rate": 2.7308715207234326e-06,
+      "loss": 0.1377,
+      "step": 1150
+    },
+    {
+      "epoch": 1.9627749576988156,
+      "grad_norm": 1.3541003465652466,
+      "learning_rate": 2.69674529574537e-06,
+      "loss": 0.141,
+      "step": 1160
+    },
+    {
+      "epoch": 1.9796954314720812,
+      "grad_norm": 1.592405915260315,
+      "learning_rate": 2.6625821399261562e-06,
+      "loss": 0.1578,
+      "step": 1170
+    },
+    {
+      "epoch": 1.996615905245347,
+      "grad_norm": 1.7678178548812866,
+      "learning_rate": 2.628388465993864e-06,
+      "loss": 0.172,
+      "step": 1180
+    },
+    {
+      "epoch": 2.0135363790186127,
+      "grad_norm": 0.7831181287765503,
+      "learning_rate": 2.594170692405083e-06,
+      "loss": 0.1007,
+      "step": 1190
+    },
+    {
+      "epoch": 2.030456852791878,
+      "grad_norm": 1.5708684921264648,
+      "learning_rate": 2.559935242140125e-06,
+      "loss": 0.0863,
+      "step": 1200
+    },
+    {
+      "epoch": 2.047377326565144,
+      "grad_norm": 1.2178500890731812,
+      "learning_rate": 2.5256885414973715e-06,
+      "loss": 0.0815,
+      "step": 1210
+    },
+    {
+      "epoch": 2.0642978003384096,
+      "grad_norm": 1.4404493570327759,
+      "learning_rate": 2.491437018886998e-06,
+      "loss": 0.0924,
+      "step": 1220
+    },
+    {
+      "epoch": 2.081218274111675,
+      "grad_norm": 1.701210618019104,
+      "learning_rate": 2.457187103624308e-06,
+      "loss": 0.0843,
+      "step": 1230
+    },
+    {
+      "epoch": 2.0981387478849407,
+      "grad_norm": 1.3683816194534302,
+      "learning_rate": 2.4229452247228895e-06,
+      "loss": 0.0712,
+      "step": 1240
+    },
+    {
+      "epoch": 2.1150592216582065,
+      "grad_norm": 2.7988007068634033,
+      "learning_rate": 2.3887178096878363e-06,
+      "loss": 0.0883,
+      "step": 1250
+    },
+    {
+      "epoch": 2.1319796954314723,
+      "grad_norm": 1.0649851560592651,
+      "learning_rate": 2.354511283309244e-06,
+      "loss": 0.0706,
+      "step": 1260
+    },
+    {
+      "epoch": 2.1489001692047376,
+      "grad_norm": 2.3365893363952637,
+      "learning_rate": 2.320332066456224e-06,
+      "loss": 0.077,
+      "step": 1270
+    },
+    {
+      "epoch": 2.1658206429780034,
+      "grad_norm": 1.3339556455612183,
+      "learning_rate": 2.2861865748716448e-06,
+      "loss": 0.0864,
+      "step": 1280
+    },
+    {
+      "epoch": 2.182741116751269,
+      "grad_norm": 1.6249768733978271,
+      "learning_rate": 2.2520812179678422e-06,
+      "loss": 0.0783,
+      "step": 1290
+    },
+    {
+      "epoch": 2.199661590524535,
+      "grad_norm": 1.3000891208648682,
+      "learning_rate": 2.218022397623517e-06,
+      "loss": 0.075,
+      "step": 1300
+    },
+    {
+      "epoch": 2.2165820642978002,
+      "grad_norm": 1.5419507026672363,
+      "learning_rate": 2.1840165069820434e-06,
+      "loss": 0.0745,
+      "step": 1310
+    },
+    {
+      "epoch": 2.233502538071066,
+      "grad_norm": 1.4701499938964844,
+      "learning_rate": 2.150069929251419e-06,
+      "loss": 0.0652,
+      "step": 1320
+    },
+    {
+      "epoch": 2.250423011844332,
+      "grad_norm": 1.1285984516143799,
+      "learning_rate": 2.1161890365060838e-06,
+      "loss": 0.0842,
+      "step": 1330
+    },
+    {
+      "epoch": 2.267343485617597,
+      "grad_norm": 1.860626459121704,
+      "learning_rate": 2.082380188490817e-06,
+      "loss": 0.0824,
+      "step": 1340
+    },
+    {
+      "epoch": 2.284263959390863,
+      "grad_norm": 1.9373877048492432,
+      "learning_rate": 2.048649731426965e-06,
+      "loss": 0.0861,
+      "step": 1350
+    },
+    {
+      "epoch": 2.3011844331641287,
+      "grad_norm": 1.4356682300567627,
+      "learning_rate": 2.0150039968211958e-06,
+      "loss": 0.0793,
+      "step": 1360
+    },
+    {
+      "epoch": 2.3181049069373945,
+      "grad_norm": 1.4798492193222046,
+      "learning_rate": 1.9814493002770186e-06,
+      "loss": 0.0761,
+      "step": 1370
+    },
+    {
+      "epoch": 2.33502538071066,
+      "grad_norm": 2.065126895904541,
+      "learning_rate": 1.9479919403092863e-06,
+      "loss": 0.0802,
+      "step": 1380
+    },
+    {
+      "epoch": 2.3519458544839256,
+      "grad_norm": 1.5476558208465576,
+      "learning_rate": 1.914638197161914e-06,
+      "loss": 0.0804,
+      "step": 1390
+    },
+    {
+      "epoch": 2.3688663282571913,
+      "grad_norm": 2.891502618789673,
+      "learning_rate": 1.8813943316290177e-06,
+      "loss": 0.08,
+      "step": 1400
+    },
+    {
+      "epoch": 2.3857868020304567,
+      "grad_norm": 2.407071113586426,
+      "learning_rate": 1.8482665838797087e-06,
+      "loss": 0.0958,
+      "step": 1410
+    },
+    {
+      "epoch": 2.4027072758037225,
+      "grad_norm": 2.067172050476074,
+      "learning_rate": 1.8152611722867575e-06,
+      "loss": 0.0772,
+      "step": 1420
+    },
+    {
+      "epoch": 2.4196277495769882,
+      "grad_norm": 1.3346515893936157,
+      "learning_rate": 1.78238429225935e-06,
+      "loss": 0.0794,
+      "step": 1430
+    },
+    {
+      "epoch": 2.436548223350254,
+      "grad_norm": 1.4311262369155884,
+      "learning_rate": 1.7496421150801547e-06,
+      "loss": 0.1038,
+      "step": 1440
+    },
+    {
+      "epoch": 2.4534686971235193,
+      "grad_norm": 1.4051713943481445,
+      "learning_rate": 1.7170407867469185e-06,
+      "loss": 0.0854,
+      "step": 1450
+    },
+    {
+      "epoch": 2.470389170896785,
+      "grad_norm": 1.4341652393341064,
+      "learning_rate": 1.6845864268188073e-06,
+      "loss": 0.0722,
+      "step": 1460
+    },
+    {
+      "epoch": 2.487309644670051,
+      "grad_norm": 2.1416544914245605,
+      "learning_rate": 1.6522851272677126e-06,
+      "loss": 0.0662,
+      "step": 1470
+    },
+    {
+      "epoch": 2.504230118443316,
+      "grad_norm": 1.5771617889404297,
+      "learning_rate": 1.6201429513347275e-06,
+      "loss": 0.0949,
+      "step": 1480
+    },
+    {
+      "epoch": 2.521150592216582,
+      "grad_norm": 1.555201768875122,
+      "learning_rate": 1.5881659323920329e-06,
+      "loss": 0.069,
+      "step": 1490
+    },
+    {
+      "epoch": 2.5380710659898478,
+      "grad_norm": 2.297422170639038,
+      "learning_rate": 1.556360072810371e-06,
+      "loss": 0.0822,
+      "step": 1500
+    },
+    {
+      "epoch": 2.5549915397631136,
+      "grad_norm": 1.4423418045043945,
+      "learning_rate": 1.5247313428323521e-06,
+      "loss": 0.0739,
+      "step": 1510
+    },
+    {
+      "epoch": 2.571912013536379,
+      "grad_norm": 1.7135895490646362,
+      "learning_rate": 1.4932856794517828e-06,
+      "loss": 0.0701,
+      "step": 1520
+    },
+    {
+      "epoch": 2.5888324873096447,
+      "grad_norm": 1.2873613834381104,
+      "learning_rate": 1.4620289852992436e-06,
+      "loss": 0.0765,
+      "step": 1530
+    },
+    {
+      "epoch": 2.6057529610829104,
+      "grad_norm": 1.5120519399642944,
+      "learning_rate": 1.4309671275341115e-06,
+      "loss": 0.0733,
+      "step": 1540
+    },
+    {
+      "epoch": 2.6226734348561758,
+      "grad_norm": 1.4765515327453613,
+      "learning_rate": 1.4001059367432387e-06,
+      "loss": 0.0759,
+      "step": 1550
+    },
+    {
+      "epoch": 2.6395939086294415,
+      "grad_norm": 1.6146334409713745,
+      "learning_rate": 1.3694512058465064e-06,
+      "loss": 0.0731,
+      "step": 1560
+    },
+    {
+      "epoch": 2.6565143824027073,
+      "grad_norm": 2.312690258026123,
+      "learning_rate": 1.3390086890094346e-06,
+      "loss": 0.0826,
+      "step": 1570
+    },
+    {
+      "epoch": 2.673434856175973,
+      "grad_norm": 1.315255880355835,
+      "learning_rate": 1.3087841005630774e-06,
+      "loss": 0.0753,
+      "step": 1580
+    },
+    {
+      "epoch": 2.6903553299492384,
+      "grad_norm": 1.6095589399337769,
+      "learning_rate": 1.2787831139313957e-06,
+      "loss": 0.0942,
+      "step": 1590
+    },
+    {
+      "epoch": 2.707275803722504,
+      "grad_norm": 2.9680864810943604,
+      "learning_rate": 1.249011360566301e-06,
+      "loss": 0.083,
+      "step": 1600
+    },
+    {
+      "epoch": 2.72419627749577,
+      "grad_norm": 1.3204880952835083,
+      "learning_rate": 1.2194744288905807e-06,
+      "loss": 0.087,
+      "step": 1610
+    },
+    {
+      "epoch": 2.7411167512690353,
+      "grad_norm": 1.4213435649871826,
+      "learning_rate": 1.1901778632489037e-06,
+      "loss": 0.0793,
+      "step": 1620
+    },
+    {
+      "epoch": 2.758037225042301,
+      "grad_norm": 2.258690595626831,
+      "learning_rate": 1.1611271628671e-06,
+      "loss": 0.0802,
+      "step": 1630
+    },
+    {
+      "epoch": 2.774957698815567,
+      "grad_norm": 1.5296716690063477,
+      "learning_rate": 1.132327780819901e-06,
+      "loss": 0.0789,
+      "step": 1640
+    },
+    {
+      "epoch": 2.7918781725888326,
+      "grad_norm": 1.8829957246780396,
+      "learning_rate": 1.1037851230073563e-06,
+      "loss": 0.0779,
+      "step": 1650
+    },
+    {
+      "epoch": 2.808798646362098,
+      "grad_norm": 1.4642276763916016,
+      "learning_rate": 1.0755045471400897e-06,
+      "loss": 0.0813,
+      "step": 1660
+    },
+    {
+      "epoch": 2.8257191201353637,
+      "grad_norm": 1.2218215465545654,
+      "learning_rate": 1.0474913617336184e-06,
+      "loss": 0.0763,
+      "step": 1670
+    },
+    {
+      "epoch": 2.8426395939086295,
+      "grad_norm": 2.2098135948181152,
+      "learning_rate": 1.0197508251118892e-06,
+      "loss": 0.0731,
+      "step": 1680
+    },
+    {
+      "epoch": 2.859560067681895,
+      "grad_norm": 1.3853759765625,
+      "learning_rate": 9.922881444202514e-07,
+      "loss": 0.0861,
+      "step": 1690
+    },
+    {
+      "epoch": 2.8764805414551606,
+      "grad_norm": 1.280692458152771,
+      "learning_rate": 9.651084746480229e-07,
+      "loss": 0.078,
+      "step": 1700
+    },
+    {
+      "epoch": 2.8934010152284264,
+      "grad_norm": 1.077873945236206,
+      "learning_rate": 9.382169176608568e-07,
+      "loss": 0.0807,
+      "step": 1710
+    },
+    {
+      "epoch": 2.910321489001692,
+      "grad_norm": 1.4427660703659058,
+      "learning_rate": 9.116185212430765e-07,
+      "loss": 0.0866,
+      "step": 1720
+    },
+    {
+      "epoch": 2.927241962774958,
+      "grad_norm": 1.9770188331604004,
+      "learning_rate": 8.853182781501598e-07,
+      "loss": 0.0728,
+      "step": 1730
+    },
+    {
+      "epoch": 2.9441624365482233,
+      "grad_norm": 1.3886785507202148,
+      "learning_rate": 8.593211251715533e-07,
+      "loss": 0.0726,
+      "step": 1740
+    },
+    {
+      "epoch": 2.961082910321489,
+      "grad_norm": 1.6050931215286255,
+      "learning_rate": 8.336319422039945e-07,
+      "loss": 0.0806,
+      "step": 1750
+    },
+    {
+      "epoch": 2.9780033840947544,
+      "grad_norm": 2.0447897911071777,
+      "learning_rate": 8.082555513355148e-07,
+      "loss": 0.0809,
+      "step": 1760
+    },
+    {
+      "epoch": 2.99492385786802,
+      "grad_norm": 1.4558676481246948,
+      "learning_rate": 7.831967159402837e-07,
+      "loss": 0.0871,
+      "step": 1770
+    },
+    {
+      "epoch": 3.011844331641286,
+      "grad_norm": 1.2891719341278076,
+      "learning_rate": 7.584601397844882e-07,
+      "loss": 0.0494,
+      "step": 1780
+    },
+    {
+      "epoch": 3.0287648054145517,
+      "grad_norm": 1.3743082284927368,
+      "learning_rate": 7.340504661433918e-07,
+      "loss": 0.0507,
+      "step": 1790
+    },
+    {
+      "epoch": 3.045685279187817,
+      "grad_norm": 1.0931307077407837,
+      "learning_rate": 7.099722769297445e-07,
+      "loss": 0.0465,
+      "step": 1800
+    },
+    {
+      "epoch": 3.062605752961083,
+      "grad_norm": 1.310681939125061,
+      "learning_rate": 6.862300918337275e-07,
+      "loss": 0.0527,
+      "step": 1810
+    },
+    {
+      "epoch": 3.0795262267343486,
+      "grad_norm": 1.3822815418243408,
+      "learning_rate": 6.628283674745608e-07,
+      "loss": 0.0412,
+      "step": 1820
+    },
+    {
+      "epoch": 3.0964467005076144,
+      "grad_norm": 1.4022243022918701,
+      "learning_rate": 6.397714965639556e-07,
+      "loss": 0.0557,
+      "step": 1830
+    },
+    {
+      "epoch": 3.1133671742808797,
+      "grad_norm": 0.8449741005897522,
+      "learning_rate": 6.170638070815668e-07,
+      "loss": 0.0465,
+      "step": 1840
+    },
+    {
+      "epoch": 3.1302876480541455,
+      "grad_norm": 1.6387944221496582,
+      "learning_rate": 5.947095614625894e-07,
+      "loss": 0.0408,
+      "step": 1850
+    },
+    {
+      "epoch": 3.1472081218274113,
+      "grad_norm": 1.1685737371444702,
+      "learning_rate": 5.727129557976632e-07,
+      "loss": 0.0369,
+      "step": 1860
+    },
+    {
+      "epoch": 3.164128595600677,
+      "grad_norm": 1.1949836015701294,
+      "learning_rate": 5.510781190452299e-07,
+      "loss": 0.0413,
+      "step": 1870
+    },
+    {
+      "epoch": 3.1810490693739424,
+      "grad_norm": 1.5283178091049194,
+      "learning_rate": 5.298091122564911e-07,
+      "loss": 0.0394,
+      "step": 1880
+    },
+    {
+      "epoch": 3.197969543147208,
+      "grad_norm": 1.7606452703475952,
+      "learning_rate": 5.089099278131079e-07,
+      "loss": 0.0539,
+      "step": 1890
+    },
+    {
+      "epoch": 3.214890016920474,
+      "grad_norm": 1.3933011293411255,
+      "learning_rate": 4.883844886778028e-07,
+      "loss": 0.0437,
+      "step": 1900
+    },
+    {
+      "epoch": 3.2318104906937393,
+      "grad_norm": 1.65366530418396,
+      "learning_rate": 4.6823664765798136e-07,
+      "loss": 0.0472,
+      "step": 1910
+    },
+    {
+      "epoch": 3.248730964467005,
+      "grad_norm": 1.2451823949813843,
+      "learning_rate": 4.484701866825231e-07,
+      "loss": 0.0408,
+      "step": 1920
+    },
+    {
+      "epoch": 3.265651438240271,
+      "grad_norm": 0.8365059494972229,
+      "learning_rate": 4.290888160918855e-07,
+      "loss": 0.0417,
+      "step": 1930
+    },
+    {
+      "epoch": 3.2825719120135366,
+      "grad_norm": 1.6369590759277344,
+      "learning_rate": 4.1009617394163566e-07,
+      "loss": 0.0483,
+      "step": 1940
+    },
+    {
+      "epoch": 3.299492385786802,
+      "grad_norm": 1.3412925004959106,
+      "learning_rate": 3.914958253195561e-07,
+      "loss": 0.0422,
+      "step": 1950
+    },
+    {
+      "epoch": 3.3164128595600677,
+      "grad_norm": 1.2426025867462158,
+      "learning_rate": 3.732912616764478e-07,
+      "loss": 0.0374,
+      "step": 1960
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 1.1421136856079102,
+      "learning_rate": 3.554859001707522e-07,
+      "loss": 0.0427,
+      "step": 1970
+    },
+    {
+      "epoch": 3.350253807106599,
+      "grad_norm": 1.1082905530929565,
+      "learning_rate": 3.3808308302712007e-07,
+      "loss": 0.0485,
+      "step": 1980
+    },
+    {
+      "epoch": 3.3671742808798646,
+      "grad_norm": 1.8885458707809448,
+      "learning_rate": 3.2108607690904595e-07,
+      "loss": 0.0465,
+      "step": 1990
+    },
+    {
+      "epoch": 3.3840947546531304,
+      "grad_norm": 1.5490193367004395,
+      "learning_rate": 3.044980723056884e-07,
+      "loss": 0.0424,
+      "step": 2000
+    },
+    {
+      "epoch": 3.401015228426396,
+      "grad_norm": 1.3184294700622559,
+      "learning_rate": 2.883221829329857e-07,
+      "loss": 0.0469,
+      "step": 2010
+    },
+    {
+      "epoch": 3.4179357021996615,
+      "grad_norm": 2.039376974105835,
+      "learning_rate": 2.7256144514918204e-07,
+      "loss": 0.0564,
+      "step": 2020
+    },
+    {
+      "epoch": 3.4348561759729273,
+      "grad_norm": 1.3883781433105469,
+      "learning_rate": 2.5721881738487776e-07,
+      "loss": 0.0479,
+      "step": 2030
+    },
+    {
+      "epoch": 3.451776649746193,
+      "grad_norm": 1.4026315212249756,
+      "learning_rate": 2.4229717958770685e-07,
+      "loss": 0.0469,
+      "step": 2040
+    },
+    {
+      "epoch": 3.4686971235194584,
+      "grad_norm": 1.3182621002197266,
+      "learning_rate": 2.277993326817421e-07,
+      "loss": 0.0733,
+      "step": 2050
+    },
+    {
+      "epoch": 3.485617597292724,
+      "grad_norm": 1.252341866493225,
+      "learning_rate": 2.1372799804173894e-07,
+      "loss": 0.0401,
+      "step": 2060
+    },
+    {
+      "epoch": 3.50253807106599,
+      "grad_norm": 1.346508502960205,
+      "learning_rate": 2.0008581698231e-07,
+      "loss": 0.0486,
+      "step": 2070
+    },
+    {
+      "epoch": 3.5194585448392557,
+      "grad_norm": 0.9947476983070374,
+      "learning_rate": 1.8687535026212206e-07,
+      "loss": 0.0448,
+      "step": 2080
+    },
+    {
+      "epoch": 3.536379018612521,
+      "grad_norm": 1.5827783346176147,
+      "learning_rate": 1.740990776032256e-07,
+      "loss": 0.0462,
+      "step": 2090
+    },
+    {
+      "epoch": 3.553299492385787,
+      "grad_norm": 1.36147940158844,
+      "learning_rate": 1.617593972255846e-07,
+      "loss": 0.0474,
+      "step": 2100
+    },
+    {
+      "epoch": 3.5702199661590526,
+      "grad_norm": 1.3989553451538086,
+      "learning_rate": 1.4985862539691033e-07,
+      "loss": 0.0506,
+      "step": 2110
+    },
+    {
+      "epoch": 3.587140439932318,
+      "grad_norm": 2.2407867908477783,
+      "learning_rate": 1.3839899599787655e-07,
+      "loss": 0.0563,
+      "step": 2120
+    },
+    {
+      "epoch": 3.6040609137055837,
+      "grad_norm": 1.7094990015029907,
+      "learning_rate": 1.2738266010280275e-07,
+      "loss": 0.0455,
+      "step": 2130
+    },
+    {
+      "epoch": 3.6209813874788495,
+      "grad_norm": 2.9613707065582275,
+      "learning_rate": 1.168116855758747e-07,
+      "loss": 0.0462,
+      "step": 2140
+    },
+    {
+      "epoch": 3.6379018612521152,
+      "grad_norm": 1.730281949043274,
+      "learning_rate": 1.066880566829917e-07,
+      "loss": 0.0478,
+      "step": 2150
+    },
+    {
+      "epoch": 3.6548223350253806,
+      "grad_norm": 1.7777799367904663,
+      "learning_rate": 9.701367371930059e-08,
+      "loss": 0.0514,
+      "step": 2160
+    },
+    {
+      "epoch": 3.6717428087986463,
+      "grad_norm": 1.5566476583480835,
+      "learning_rate": 8.779035265249064e-08,
+      "loss": 0.0509,
+      "step": 2170
+    },
+    {
+      "epoch": 3.688663282571912,
+      "grad_norm": 1.7991079092025757,
+      "learning_rate": 7.901982478192572e-08,
+      "loss": 0.0432,
+      "step": 2180
+    },
+    {
+      "epoch": 3.7055837563451774,
+      "grad_norm": 1.1896286010742188,
+      "learning_rate": 7.07037364136609e-08,
+      "loss": 0.0468,
+      "step": 2190
+    },
+    {
+      "epoch": 3.7225042301184432,
+      "grad_norm": 1.1462163925170898,
+      "learning_rate": 6.2843648551415e-08,
+      "loss": 0.0451,
+      "step": 2200
+    },
+    {
+      "epoch": 3.739424703891709,
+      "grad_norm": 1.4667885303497314,
+      "learning_rate": 5.544103660355987e-08,
+      "loss": 0.0416,
+      "step": 2210
+    },
+    {
+      "epoch": 3.7563451776649748,
+      "grad_norm": 1.2911655902862549,
+      "learning_rate": 4.849729010616949e-08,
+      "loss": 0.0494,
+      "step": 2220
+    },
+    {
+      "epoch": 3.77326565143824,
+      "grad_norm": 1.1728025674819946,
+      "learning_rate": 4.201371246219388e-08,
+      "loss": 0.0411,
+      "step": 2230
+    },
+    {
+      "epoch": 3.790186125211506,
+      "grad_norm": 1.3054083585739136,
+      "learning_rate": 3.599152069679812e-08,
+      "loss": 0.04,
+      "step": 2240
+    },
+    {
+      "epoch": 3.8071065989847717,
+      "grad_norm": 1.867836594581604,
+      "learning_rate": 3.043184522891679e-08,
+      "loss": 0.0567,
+      "step": 2250
+    },
+    {
+      "epoch": 3.824027072758037,
+      "grad_norm": 1.3285189867019653,
+      "learning_rate": 2.5335729659062002e-08,
+      "loss": 0.0401,
+      "step": 2260
+    },
+    {
+      "epoch": 3.8409475465313028,
+      "grad_norm": 1.121762752532959,
+      "learning_rate": 2.07041305734329e-08,
+      "loss": 0.0408,
+      "step": 2270
+    },
+    {
+      "epoch": 3.8578680203045685,
+      "grad_norm": 0.9373975992202759,
+      "learning_rate": 1.6537917364354838e-08,
+      "loss": 0.0379,
+      "step": 2280
+    },
+    {
+      "epoch": 3.8747884940778343,
+      "grad_norm": 1.4871065616607666,
+      "learning_rate": 1.2837872067085477e-08,
+      "loss": 0.0454,
+      "step": 2290
+    },
+    {
+      "epoch": 3.8917089678511,
+      "grad_norm": 1.1789824962615967,
+      "learning_rate": 9.604689213022767e-09,
+      "loss": 0.0558,
+      "step": 2300
+    },
+    {
+      "epoch": 3.9086294416243654,
+      "grad_norm": 1.1937594413757324,
+      "learning_rate": 6.838975699332007e-09,
+      "loss": 0.0447,
+      "step": 2310
+    },
+    {
+      "epoch": 3.925549915397631,
+      "grad_norm": 1.5232540369033813,
+      "learning_rate": 4.541250675028363e-09,
+      "loss": 0.0535,
+      "step": 2320
+    },
+    {
+      "epoch": 3.9424703891708965,
+      "grad_norm": 1.3633273839950562,
+      "learning_rate": 2.711945443526209e-09,
+      "loss": 0.047,
+      "step": 2330
+    },
+    {
+      "epoch": 3.9593908629441623,
+      "grad_norm": 1.0834922790527344,
+      "learning_rate": 1.351403381680827e-09,
+      "loss": 0.0456,
+      "step": 2340
+    },
+    {
+      "epoch": 3.976311336717428,
+      "grad_norm": 1.0907598733901978,
+      "learning_rate": 4.598798753330247e-10,
+      "loss": 0.0413,
+      "step": 2350
+    },
+    {
+      "epoch": 3.993231810490694,
+      "grad_norm": 1.6505200862884521,
+      "learning_rate": 3.754227137081623e-11,
+      "loss": 0.046,
+      "step": 2360
+    },
+    {
+      "epoch": 4.0,
+      "step": 2364,
+      "total_flos": 1.5782755510340813e+17,
+      "train_loss": 0.13063472979615384,
+      "train_runtime": 2788.0875,
+      "train_samples_per_second": 13.558,
+      "train_steps_per_second": 0.848
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2364,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5782755510340813e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56e1cb1ffe0bcec86de400985ea4d466dac951a272ec6f6943c8ed03a5ea0d2c
+size 5432

training_loss.png ADDED Viewed