wav2vec2.0 model

Browse files

Files changed (8) hide show

all_results.json +14 -0
config.json +102 -0
eval_results.json +9 -0
preprocessor_config.json +9 -0
pytorch_model.bin +3 -0
train_results.json +8 -0
trainer_state.json +3265 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 1.0,
+    "eval_loss": 7.493398243241245e-06,
+    "eval_runtime": 2131.9622,
+    "eval_samples": 34560,
+    "eval_samples_per_second": 16.21,
+    "eval_steps_per_second": 4.053,
+    "train_loss": 0.003923701412147946,
+    "train_runtime": 97975.3145,
+    "train_samples": 34560,
+    "train_samples_per_second": 1.764,
+    "train_steps_per_second": 0.22
+}

config.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+  "_name_or_path": "vumichien/wav2vec2-large-xlsr-japanese-hiragana",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.15,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.2,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_clf",
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.15,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "ang",
+    "1": "joy",
+    "2": "neu",
+    "3": "sad"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "ang": 0,
+    "joy": 1,
+    "neu": 2,
+    "sad": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.15,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.1,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "pad_token_id": 85,
+  "pooling_mode": "mean",
+  "problem_type": "single_label_classification",
+  "proj_codevector_dim": 256,
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.0.dev0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 86
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 1.0,
+    "eval_loss": 7.493398243241245e-06,
+    "eval_runtime": 2131.9622,
+    "eval_samples": 34560,
+    "eval_samples_per_second": 16.21,
+    "eval_steps_per_second": 4.053
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d10b892b25d84bd85b4ae45b39196c5e427fa19890cc22bc2b2d13daec8719d
+size 1266139245

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 0.003923701412147946,
+    "train_runtime": 97975.3145,
+    "train_samples": 34560,
+    "train_samples_per_second": 1.764,
+    "train_steps_per_second": 0.22
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3265 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 21600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.953703703703704e-05,
+      "loss": 1.1352,
+      "step": 100
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.7482928037643433,
+      "eval_loss": 0.6091228127479553,
+      "eval_runtime": 1960.8351,
+      "eval_samples_per_second": 17.625,
+      "eval_steps_per_second": 4.406,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.907407407407407e-05,
+      "loss": 0.5497,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.9043981432914734,
+      "eval_loss": 0.2794453501701355,
+      "eval_runtime": 2070.7116,
+      "eval_samples_per_second": 16.69,
+      "eval_steps_per_second": 4.172,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.861111111111112e-05,
+      "loss": 0.4001,
+      "step": 300
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.9633391499519348,
+      "eval_loss": 0.1039256900548935,
+      "eval_runtime": 2051.9615,
+      "eval_samples_per_second": 16.842,
+      "eval_steps_per_second": 4.211,
+      "step": 300
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.814814814814815e-05,
+      "loss": 0.2967,
+      "step": 400
+    },
+    {
+      "epoch": 0.09,
+      "eval_accuracy": 0.9760127067565918,
+      "eval_loss": 0.0726834237575531,
+      "eval_runtime": 1976.3465,
+      "eval_samples_per_second": 17.487,
+      "eval_steps_per_second": 4.372,
+      "step": 400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.768518518518519e-05,
+      "loss": 0.2572,
+      "step": 500
+    },
+    {
+      "epoch": 0.12,
+      "eval_accuracy": 0.9752025604248047,
+      "eval_loss": 0.07836401462554932,
+      "eval_runtime": 1953.8972,
+      "eval_samples_per_second": 17.688,
+      "eval_steps_per_second": 4.422,
+      "step": 500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.722222222222223e-05,
+      "loss": 0.1858,
+      "step": 600
+    },
+    {
+      "epoch": 0.14,
+      "eval_accuracy": 0.987442135810852,
+      "eval_loss": 0.03908771649003029,
+      "eval_runtime": 1933.1285,
+      "eval_samples_per_second": 17.878,
+      "eval_steps_per_second": 4.469,
+      "step": 600
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.675925925925926e-05,
+      "loss": 0.1776,
+      "step": 700
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.9870080947875977,
+      "eval_loss": 0.046012409031391144,
+      "eval_runtime": 2073.2574,
+      "eval_samples_per_second": 16.669,
+      "eval_steps_per_second": 4.167,
+      "step": 700
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.62962962962963e-05,
+      "loss": 0.1253,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "eval_accuracy": 0.987442135810852,
+      "eval_loss": 0.04302794486284256,
+      "eval_runtime": 2100.3436,
+      "eval_samples_per_second": 16.454,
+      "eval_steps_per_second": 4.114,
+      "step": 800
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.583333333333334e-05,
+      "loss": 0.1509,
+      "step": 900
+    },
+    {
+      "epoch": 0.21,
+      "eval_accuracy": 0.9821469783782959,
+      "eval_loss": 0.06500900536775589,
+      "eval_runtime": 2096.1889,
+      "eval_samples_per_second": 16.487,
+      "eval_steps_per_second": 4.122,
+      "step": 900
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 9.537037037037038e-05,
+      "loss": 0.1574,
+      "step": 1000
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 0.9847221970558167,
+      "eval_loss": 0.059933874756097794,
+      "eval_runtime": 2109.7765,
+      "eval_samples_per_second": 16.381,
+      "eval_steps_per_second": 4.095,
+      "step": 1000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.490740740740742e-05,
+      "loss": 0.1506,
+      "step": 1100
+    },
+    {
+      "epoch": 0.25,
+      "eval_accuracy": 0.9896122813224792,
+      "eval_loss": 0.034695032984018326,
+      "eval_runtime": 2117.6815,
+      "eval_samples_per_second": 16.32,
+      "eval_steps_per_second": 4.08,
+      "step": 1100
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.118,
+      "step": 1200
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 0.9911168813705444,
+      "eval_loss": 0.03316599503159523,
+      "eval_runtime": 2107.0764,
+      "eval_samples_per_second": 16.402,
+      "eval_steps_per_second": 4.1,
+      "step": 1200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.398148148148148e-05,
+      "loss": 0.0885,
+      "step": 1300
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.9947627186775208,
+      "eval_loss": 0.019724205136299133,
+      "eval_runtime": 2100.2147,
+      "eval_samples_per_second": 16.455,
+      "eval_steps_per_second": 4.114,
+      "step": 1300
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.351851851851852e-05,
+      "loss": 0.0967,
+      "step": 1400
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.9936053156852722,
+      "eval_loss": 0.022701723501086235,
+      "eval_runtime": 2110.6117,
+      "eval_samples_per_second": 16.374,
+      "eval_steps_per_second": 4.094,
+      "step": 1400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.305555555555556e-05,
+      "loss": 0.0882,
+      "step": 1500
+    },
+    {
+      "epoch": 0.35,
+      "eval_accuracy": 0.992274284362793,
+      "eval_loss": 0.02855427749454975,
+      "eval_runtime": 2115.7419,
+      "eval_samples_per_second": 16.335,
+      "eval_steps_per_second": 4.084,
+      "step": 1500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 0.1056,
+      "step": 1600
+    },
+    {
+      "epoch": 0.37,
+      "eval_accuracy": 0.9962384104728699,
+      "eval_loss": 0.015638431534171104,
+      "eval_runtime": 2093.1202,
+      "eval_samples_per_second": 16.511,
+      "eval_steps_per_second": 4.128,
+      "step": 1600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.212962962962963e-05,
+      "loss": 0.1124,
+      "step": 1700
+    },
+    {
+      "epoch": 0.39,
+      "eval_accuracy": 0.9942708611488342,
+      "eval_loss": 0.023519381880760193,
+      "eval_runtime": 2715.3988,
+      "eval_samples_per_second": 12.727,
+      "eval_steps_per_second": 3.182,
+      "step": 1700
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.0813,
+      "step": 1800
+    },
+    {
+      "epoch": 0.42,
+      "eval_accuracy": 0.995341420173645,
+      "eval_loss": 0.017750833183526993,
+      "eval_runtime": 2099.7025,
+      "eval_samples_per_second": 16.459,
+      "eval_steps_per_second": 4.115,
+      "step": 1800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.120370370370371e-05,
+      "loss": 0.0609,
+      "step": 1900
+    },
+    {
+      "epoch": 0.44,
+      "eval_accuracy": 0.9971932768821716,
+      "eval_loss": 0.011351389810442924,
+      "eval_runtime": 2142.3716,
+      "eval_samples_per_second": 16.132,
+      "eval_steps_per_second": 4.033,
+      "step": 1900
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.074074074074075e-05,
+      "loss": 0.0891,
+      "step": 2000
+    },
+    {
+      "epoch": 0.46,
+      "eval_accuracy": 0.9973379373550415,
+      "eval_loss": 0.012310467660427094,
+      "eval_runtime": 2095.1245,
+      "eval_samples_per_second": 16.495,
+      "eval_steps_per_second": 4.124,
+      "step": 2000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.027777777777779e-05,
+      "loss": 0.0424,
+      "step": 2100
+    },
+    {
+      "epoch": 0.49,
+      "eval_accuracy": 0.9985821843147278,
+      "eval_loss": 0.00660862447693944,
+      "eval_runtime": 2101.8862,
+      "eval_samples_per_second": 16.442,
+      "eval_steps_per_second": 4.111,
+      "step": 2100
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 8.981481481481481e-05,
+      "loss": 0.0546,
+      "step": 2200
+    },
+    {
+      "epoch": 0.51,
+      "eval_accuracy": 0.9950520992279053,
+      "eval_loss": 0.021980540826916695,
+      "eval_runtime": 2121.7281,
+      "eval_samples_per_second": 16.289,
+      "eval_steps_per_second": 4.072,
+      "step": 2200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 8.935185185185185e-05,
+      "loss": 0.146,
+      "step": 2300
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.9940393567085266,
+      "eval_loss": 0.02473669871687889,
+      "eval_runtime": 2062.8449,
+      "eval_samples_per_second": 16.754,
+      "eval_steps_per_second": 4.188,
+      "step": 2300
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.1174,
+      "step": 2400
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.9958622455596924,
+      "eval_loss": 0.01570066250860691,
+      "eval_runtime": 2017.5974,
+      "eval_samples_per_second": 17.129,
+      "eval_steps_per_second": 4.282,
+      "step": 2400
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.842592592592593e-05,
+      "loss": 0.0848,
+      "step": 2500
+    },
+    {
+      "epoch": 0.58,
+      "eval_accuracy": 0.9978298544883728,
+      "eval_loss": 0.008064490742981434,
+      "eval_runtime": 2005.1771,
+      "eval_samples_per_second": 17.235,
+      "eval_steps_per_second": 4.309,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.796296296296297e-05,
+      "loss": 0.0792,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6,
+      "eval_accuracy": 0.9986110925674438,
+      "eval_loss": 0.004222337622195482,
+      "eval_runtime": 1999.0902,
+      "eval_samples_per_second": 17.288,
+      "eval_steps_per_second": 4.322,
+      "step": 2600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.75e-05,
+      "loss": 0.0482,
+      "step": 2700
+    },
+    {
+      "epoch": 0.62,
+      "eval_accuracy": 0.9971354007720947,
+      "eval_loss": 0.01219157688319683,
+      "eval_runtime": 2001.1288,
+      "eval_samples_per_second": 17.27,
+      "eval_steps_per_second": 4.318,
+      "step": 2700
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 8.703703703703704e-05,
+      "loss": 0.0697,
+      "step": 2800
+    },
+    {
+      "epoch": 0.65,
+      "eval_accuracy": 0.9931133985519409,
+      "eval_loss": 0.027987554669380188,
+      "eval_runtime": 1997.1851,
+      "eval_samples_per_second": 17.304,
+      "eval_steps_per_second": 4.326,
+      "step": 2800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 8.657407407407408e-05,
+      "loss": 0.106,
+      "step": 2900
+    },
+    {
+      "epoch": 0.67,
+      "eval_accuracy": 0.9977430701255798,
+      "eval_loss": 0.008220946416258812,
+      "eval_runtime": 2609.175,
+      "eval_samples_per_second": 13.246,
+      "eval_steps_per_second": 3.311,
+      "step": 2900
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 8.611111111111112e-05,
+      "loss": 0.052,
+      "step": 3000
+    },
+    {
+      "epoch": 0.69,
+      "eval_accuracy": 0.9971932768821716,
+      "eval_loss": 0.01051583793014288,
+      "eval_runtime": 1971.9035,
+      "eval_samples_per_second": 17.526,
+      "eval_steps_per_second": 4.382,
+      "step": 3000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.564814814814816e-05,
+      "loss": 0.047,
+      "step": 3100
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.9978588223457336,
+      "eval_loss": 0.009094738401472569,
+      "eval_runtime": 1980.5023,
+      "eval_samples_per_second": 17.45,
+      "eval_steps_per_second": 4.363,
+      "step": 3100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.518518518518518e-05,
+      "loss": 0.0495,
+      "step": 3200
+    },
+    {
+      "epoch": 0.74,
+      "eval_accuracy": 0.998466432094574,
+      "eval_loss": 0.006100042257457972,
+      "eval_runtime": 2070.7502,
+      "eval_samples_per_second": 16.69,
+      "eval_steps_per_second": 4.172,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.472222222222222e-05,
+      "loss": 0.0979,
+      "step": 3300
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.9978588223457336,
+      "eval_loss": 0.009109850972890854,
+      "eval_runtime": 1970.0999,
+      "eval_samples_per_second": 17.542,
+      "eval_steps_per_second": 4.386,
+      "step": 3300
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 8.425925925925926e-05,
+      "loss": 0.0381,
+      "step": 3400
+    },
+    {
+      "epoch": 0.79,
+      "eval_accuracy": 0.9951099753379822,
+      "eval_loss": 0.021163903176784515,
+      "eval_runtime": 1977.6331,
+      "eval_samples_per_second": 17.475,
+      "eval_steps_per_second": 4.369,
+      "step": 3400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.379629629629629e-05,
+      "loss": 0.0268,
+      "step": 3500
+    },
+    {
+      "epoch": 0.81,
+      "eval_accuracy": 0.9980034828186035,
+      "eval_loss": 0.008532223291695118,
+      "eval_runtime": 1971.1529,
+      "eval_samples_per_second": 17.533,
+      "eval_steps_per_second": 4.383,
+      "step": 3500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.073,
+      "step": 3600
+    },
+    {
+      "epoch": 0.83,
+      "eval_accuracy": 0.9961516261100769,
+      "eval_loss": 0.017610933631658554,
+      "eval_runtime": 1957.2329,
+      "eval_samples_per_second": 17.658,
+      "eval_steps_per_second": 4.414,
+      "step": 3600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 8.287037037037037e-05,
+      "loss": 0.0585,
+      "step": 3700
+    },
+    {
+      "epoch": 0.86,
+      "eval_accuracy": 0.9971354007720947,
+      "eval_loss": 0.011580849066376686,
+      "eval_runtime": 1962.4064,
+      "eval_samples_per_second": 17.611,
+      "eval_steps_per_second": 4.403,
+      "step": 3700
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 8.240740740740741e-05,
+      "loss": 0.0868,
+      "step": 3800
+    },
+    {
+      "epoch": 0.88,
+      "eval_accuracy": 0.9994502067565918,
+      "eval_loss": 0.00212017516605556,
+      "eval_runtime": 1982.4259,
+      "eval_samples_per_second": 17.433,
+      "eval_steps_per_second": 4.358,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 8.194444444444445e-05,
+      "loss": 0.0496,
+      "step": 3900
+    },
+    {
+      "epoch": 0.9,
+      "eval_accuracy": 0.9978877305984497,
+      "eval_loss": 0.008284298703074455,
+      "eval_runtime": 1983.4898,
+      "eval_samples_per_second": 17.424,
+      "eval_steps_per_second": 4.356,
+      "step": 3900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 8.148148148148148e-05,
+      "loss": 0.0641,
+      "step": 4000
+    },
+    {
+      "epoch": 0.93,
+      "eval_accuracy": 0.9967592358589172,
+      "eval_loss": 0.013520145788788795,
+      "eval_runtime": 1998.2946,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.324,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 8.101851851851853e-05,
+      "loss": 0.0858,
+      "step": 4100
+    },
+    {
+      "epoch": 0.95,
+      "eval_accuracy": 0.9989872574806213,
+      "eval_loss": 0.003793817013502121,
+      "eval_runtime": 2125.8264,
+      "eval_samples_per_second": 16.257,
+      "eval_steps_per_second": 4.064,
+      "step": 4100
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 8.055555555555556e-05,
+      "loss": 0.0483,
+      "step": 4200
+    },
+    {
+      "epoch": 0.97,
+      "eval_accuracy": 0.9978588223457336,
+      "eval_loss": 0.009265501983463764,
+      "eval_runtime": 2260.2096,
+      "eval_samples_per_second": 15.291,
+      "eval_steps_per_second": 3.823,
+      "step": 4200
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8.00925925925926e-05,
+      "loss": 0.1115,
+      "step": 4300
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9990162253379822,
+      "eval_loss": 0.003752070013433695,
+      "eval_runtime": 1992.5237,
+      "eval_samples_per_second": 17.345,
+      "eval_steps_per_second": 4.336,
+      "step": 4300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 7.962962962962964e-05,
+      "loss": 0.0486,
+      "step": 4400
+    },
+    {
+      "epoch": 1.02,
+      "eval_accuracy": 0.9991897940635681,
+      "eval_loss": 0.0031358152627944946,
+      "eval_runtime": 1985.6758,
+      "eval_samples_per_second": 17.405,
+      "eval_steps_per_second": 4.351,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 7.916666666666666e-05,
+      "loss": 0.0166,
+      "step": 4500
+    },
+    {
+      "epoch": 1.04,
+      "eval_accuracy": 0.9995370507240295,
+      "eval_loss": 0.002144153229892254,
+      "eval_runtime": 2034.5738,
+      "eval_samples_per_second": 16.986,
+      "eval_steps_per_second": 4.247,
+      "step": 4500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.870370370370372e-05,
+      "loss": 0.0084,
+      "step": 4600
+    },
+    {
+      "epoch": 1.06,
+      "eval_accuracy": 0.9986979365348816,
+      "eval_loss": 0.006190824322402477,
+      "eval_runtime": 2022.3112,
+      "eval_samples_per_second": 17.089,
+      "eval_steps_per_second": 4.272,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.824074074074074e-05,
+      "loss": 0.0205,
+      "step": 4700
+    },
+    {
+      "epoch": 1.09,
+      "eval_accuracy": 0.999160885810852,
+      "eval_loss": 0.0034529021941125393,
+      "eval_runtime": 2036.3231,
+      "eval_samples_per_second": 16.972,
+      "eval_steps_per_second": 4.243,
+      "step": 4700
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0217,
+      "step": 4800
+    },
+    {
+      "epoch": 1.11,
+      "eval_accuracy": 0.9973379373550415,
+      "eval_loss": 0.012433897703886032,
+      "eval_runtime": 2054.4934,
+      "eval_samples_per_second": 16.822,
+      "eval_steps_per_second": 4.205,
+      "step": 4800
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 7.731481481481482e-05,
+      "loss": 0.0407,
+      "step": 4900
+    },
+    {
+      "epoch": 1.13,
+      "eval_accuracy": 0.9991030097007751,
+      "eval_loss": 0.004298593383282423,
+      "eval_runtime": 2009.8166,
+      "eval_samples_per_second": 17.196,
+      "eval_steps_per_second": 4.299,
+      "step": 4900
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.685185185185185e-05,
+      "loss": 0.0598,
+      "step": 5000
+    },
+    {
+      "epoch": 1.16,
+      "eval_accuracy": 0.9981771111488342,
+      "eval_loss": 0.007797444239258766,
+      "eval_runtime": 1996.948,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.327,
+      "step": 5000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.638888888888889e-05,
+      "loss": 0.058,
+      "step": 5100
+    },
+    {
+      "epoch": 1.18,
+      "eval_accuracy": 0.9981192350387573,
+      "eval_loss": 0.009161165915429592,
+      "eval_runtime": 2007.394,
+      "eval_samples_per_second": 17.216,
+      "eval_steps_per_second": 4.304,
+      "step": 5100
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 7.592592592592593e-05,
+      "loss": 0.0119,
+      "step": 5200
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.9994502067565918,
+      "eval_loss": 0.0023240004666149616,
+      "eval_runtime": 2021.6614,
+      "eval_samples_per_second": 17.095,
+      "eval_steps_per_second": 4.274,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 7.546296296296297e-05,
+      "loss": 0.08,
+      "step": 5300
+    },
+    {
+      "epoch": 1.23,
+      "eval_accuracy": 0.9976562261581421,
+      "eval_loss": 0.009528687223792076,
+      "eval_runtime": 2024.2247,
+      "eval_samples_per_second": 17.073,
+      "eval_steps_per_second": 4.268,
+      "step": 5300
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0336,
+      "step": 5400
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.9995949268341064,
+      "eval_loss": 0.0020153559744358063,
+      "eval_runtime": 2005.7373,
+      "eval_samples_per_second": 17.231,
+      "eval_steps_per_second": 4.308,
+      "step": 5400
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 7.453703703703703e-05,
+      "loss": 0.0508,
+      "step": 5500
+    },
+    {
+      "epoch": 1.27,
+      "eval_accuracy": 0.9989004731178284,
+      "eval_loss": 0.00367682590149343,
+      "eval_runtime": 2024.401,
+      "eval_samples_per_second": 17.072,
+      "eval_steps_per_second": 4.268,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.0146,
+      "step": 5600
+    },
+    {
+      "epoch": 1.3,
+      "eval_accuracy": 0.9992766380310059,
+      "eval_loss": 0.002618621801957488,
+      "eval_runtime": 2017.6548,
+      "eval_samples_per_second": 17.129,
+      "eval_steps_per_second": 4.282,
+      "step": 5600
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 7.361111111111111e-05,
+      "loss": 0.038,
+      "step": 5700
+    },
+    {
+      "epoch": 1.32,
+      "eval_accuracy": 0.9988425970077515,
+      "eval_loss": 0.00465565687045455,
+      "eval_runtime": 2002.1508,
+      "eval_samples_per_second": 17.261,
+      "eval_steps_per_second": 4.315,
+      "step": 5700
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 7.314814814814815e-05,
+      "loss": 0.0613,
+      "step": 5800
+    },
+    {
+      "epoch": 1.34,
+      "eval_accuracy": 0.998379647731781,
+      "eval_loss": 0.005978360306471586,
+      "eval_runtime": 2001.292,
+      "eval_samples_per_second": 17.269,
+      "eval_steps_per_second": 4.317,
+      "step": 5800
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.268518518518519e-05,
+      "loss": 0.0364,
+      "step": 5900
+    },
+    {
+      "epoch": 1.37,
+      "eval_accuracy": 0.9971064925193787,
+      "eval_loss": 0.01282673142850399,
+      "eval_runtime": 2012.1731,
+      "eval_samples_per_second": 17.175,
+      "eval_steps_per_second": 4.294,
+      "step": 5900
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.108,
+      "step": 6000
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.998379647731781,
+      "eval_loss": 0.005587506573647261,
+      "eval_runtime": 2228.721,
+      "eval_samples_per_second": 15.507,
+      "eval_steps_per_second": 3.877,
+      "step": 6000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 7.175925925925926e-05,
+      "loss": 0.0134,
+      "step": 6100
+    },
+    {
+      "epoch": 1.41,
+      "eval_accuracy": 0.9985821843147278,
+      "eval_loss": 0.0066048940643668175,
+      "eval_runtime": 2000.8975,
+      "eval_samples_per_second": 17.272,
+      "eval_steps_per_second": 4.318,
+      "step": 6100
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.12962962962963e-05,
+      "loss": 0.0389,
+      "step": 6200
+    },
+    {
+      "epoch": 1.44,
+      "eval_accuracy": 0.9972511529922485,
+      "eval_loss": 0.012162311002612114,
+      "eval_runtime": 1997.5848,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.325,
+      "step": 6200
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 7.083333333333334e-05,
+      "loss": 0.0208,
+      "step": 6300
+    },
+    {
+      "epoch": 1.46,
+      "eval_accuracy": 0.9991030097007751,
+      "eval_loss": 0.0034532626159489155,
+      "eval_runtime": 2007.9035,
+      "eval_samples_per_second": 17.212,
+      "eval_steps_per_second": 4.303,
+      "step": 6300
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.037037037037038e-05,
+      "loss": 0.0376,
+      "step": 6400
+    },
+    {
+      "epoch": 1.48,
+      "eval_accuracy": 0.9991897940635681,
+      "eval_loss": 0.004356299061328173,
+      "eval_runtime": 1996.8911,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.327,
+      "step": 6400
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.99074074074074e-05,
+      "loss": 0.0346,
+      "step": 6500
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 0.9969907402992249,
+      "eval_loss": 0.017812130972743034,
+      "eval_runtime": 2004.911,
+      "eval_samples_per_second": 17.238,
+      "eval_steps_per_second": 4.309,
+      "step": 6500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.944444444444444e-05,
+      "loss": 0.0189,
+      "step": 6600
+    },
+    {
+      "epoch": 1.53,
+      "eval_accuracy": 0.9987847208976746,
+      "eval_loss": 0.0057495711371302605,
+      "eval_runtime": 2011.102,
+      "eval_samples_per_second": 17.185,
+      "eval_steps_per_second": 4.296,
+      "step": 6600
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.898148148148148e-05,
+      "loss": 0.0141,
+      "step": 6700
+    },
+    {
+      "epoch": 1.55,
+      "eval_accuracy": 0.9992766380310059,
+      "eval_loss": 0.003152304096147418,
+      "eval_runtime": 1989.9017,
+      "eval_samples_per_second": 17.368,
+      "eval_steps_per_second": 4.342,
+      "step": 6700
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 6.851851851851852e-05,
+      "loss": 0.0719,
+      "step": 6800
+    },
+    {
+      "epoch": 1.57,
+      "eval_accuracy": 0.9987847208976746,
+      "eval_loss": 0.005420052912086248,
+      "eval_runtime": 1969.8998,
+      "eval_samples_per_second": 17.544,
+      "eval_steps_per_second": 4.386,
+      "step": 6800
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 6.805555555555556e-05,
+      "loss": 0.0225,
+      "step": 6900
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.9971932768821716,
+      "eval_loss": 0.012641699984669685,
+      "eval_runtime": 1981.1809,
+      "eval_samples_per_second": 17.444,
+      "eval_steps_per_second": 4.361,
+      "step": 6900
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 6.759259259259259e-05,
+      "loss": 0.0682,
+      "step": 7000
+    },
+    {
+      "epoch": 1.62,
+      "eval_accuracy": 0.9989583492279053,
+      "eval_loss": 0.003953148610889912,
+      "eval_runtime": 1973.9678,
+      "eval_samples_per_second": 17.508,
+      "eval_steps_per_second": 4.377,
+      "step": 7000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 6.712962962962963e-05,
+      "loss": 0.0521,
+      "step": 7100
+    },
+    {
+      "epoch": 1.64,
+      "eval_accuracy": 0.998466432094574,
+      "eval_loss": 0.005261498969048262,
+      "eval_runtime": 1989.7692,
+      "eval_samples_per_second": 17.369,
+      "eval_steps_per_second": 4.342,
+      "step": 7100
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0358,
+      "step": 7200
+    },
+    {
+      "epoch": 1.67,
+      "eval_accuracy": 0.9993634223937988,
+      "eval_loss": 0.002406924497336149,
+      "eval_runtime": 1975.9496,
+      "eval_samples_per_second": 17.49,
+      "eval_steps_per_second": 4.373,
+      "step": 7200
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 6.620370370370371e-05,
+      "loss": 0.0255,
+      "step": 7300
+    },
+    {
+      "epoch": 1.69,
+      "eval_accuracy": 0.9984953999519348,
+      "eval_loss": 0.007655243389308453,
+      "eval_runtime": 1972.1073,
+      "eval_samples_per_second": 17.524,
+      "eval_steps_per_second": 4.381,
+      "step": 7300
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 6.574074074074075e-05,
+      "loss": 0.0424,
+      "step": 7400
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.9996238350868225,
+      "eval_loss": 0.0017167649930343032,
+      "eval_runtime": 1980.6249,
+      "eval_samples_per_second": 17.449,
+      "eval_steps_per_second": 4.362,
+      "step": 7400
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 6.527777777777778e-05,
+      "loss": 0.0214,
+      "step": 7500
+    },
+    {
+      "epoch": 1.74,
+      "eval_accuracy": 0.9997106194496155,
+      "eval_loss": 0.0009764753049239516,
+      "eval_runtime": 2005.2649,
+      "eval_samples_per_second": 17.235,
+      "eval_steps_per_second": 4.309,
+      "step": 7500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 6.481481481481482e-05,
+      "loss": 0.0429,
+      "step": 7600
+    },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 0.996006965637207,
+      "eval_loss": 0.019011829048395157,
+      "eval_runtime": 2045.2435,
+      "eval_samples_per_second": 16.898,
+      "eval_steps_per_second": 4.224,
+      "step": 7600
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 6.435185185185186e-05,
+      "loss": 0.0783,
+      "step": 7700
+    },
+    {
+      "epoch": 1.78,
+      "eval_accuracy": 0.9976562261581421,
+      "eval_loss": 0.008234655484557152,
+      "eval_runtime": 2041.1233,
+      "eval_samples_per_second": 16.932,
+      "eval_steps_per_second": 4.233,
+      "step": 7700
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 6.388888888888888e-05,
+      "loss": 0.0141,
+      "step": 7800
+    },
+    {
+      "epoch": 1.81,
+      "eval_accuracy": 0.9996238350868225,
+      "eval_loss": 0.0018950661178678274,
+      "eval_runtime": 1994.0408,
+      "eval_samples_per_second": 17.332,
+      "eval_steps_per_second": 4.333,
+      "step": 7800
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 6.342592592592594e-05,
+      "loss": 0.0203,
+      "step": 7900
+    },
+    {
+      "epoch": 1.83,
+      "eval_accuracy": 0.9994502067565918,
+      "eval_loss": 0.0022274223156273365,
+      "eval_runtime": 1978.2563,
+      "eval_samples_per_second": 17.47,
+      "eval_steps_per_second": 4.367,
+      "step": 7900
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 6.296296296296296e-05,
+      "loss": 0.0439,
+      "step": 8000
+    },
+    {
+      "epoch": 1.85,
+      "eval_accuracy": 0.9979166388511658,
+      "eval_loss": 0.007150179240852594,
+      "eval_runtime": 1990.4775,
+      "eval_samples_per_second": 17.363,
+      "eval_steps_per_second": 4.341,
+      "step": 8000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.25e-05,
+      "loss": 0.0228,
+      "step": 8100
+    },
+    {
+      "epoch": 1.88,
+      "eval_accuracy": 0.9973090291023254,
+      "eval_loss": 0.010999325662851334,
+      "eval_runtime": 1995.6933,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.329,
+      "step": 8100
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.203703703703704e-05,
+      "loss": 0.0386,
+      "step": 8200
+    },
+    {
+      "epoch": 1.9,
+      "eval_accuracy": 0.9996817111968994,
+      "eval_loss": 0.001689778990112245,
+      "eval_runtime": 1983.468,
+      "eval_samples_per_second": 17.424,
+      "eval_steps_per_second": 4.356,
+      "step": 8200
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.157407407407407e-05,
+      "loss": 0.023,
+      "step": 8300
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.9997106194496155,
+      "eval_loss": 0.001407949603162706,
+      "eval_runtime": 1979.2035,
+      "eval_samples_per_second": 17.462,
+      "eval_steps_per_second": 4.365,
+      "step": 8300
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0188,
+      "step": 8400
+    },
+    {
+      "epoch": 1.94,
+      "eval_accuracy": 0.9997395873069763,
+      "eval_loss": 0.001248441985808313,
+      "eval_runtime": 1986.8349,
+      "eval_samples_per_second": 17.395,
+      "eval_steps_per_second": 4.349,
+      "step": 8400
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.0648148148148154e-05,
+      "loss": 0.0301,
+      "step": 8500
+    },
+    {
+      "epoch": 1.97,
+      "eval_accuracy": 0.9998553395271301,
+      "eval_loss": 0.0005934939254075289,
+      "eval_runtime": 2006.6093,
+      "eval_samples_per_second": 17.223,
+      "eval_steps_per_second": 4.306,
+      "step": 8500
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 6.018518518518519e-05,
+      "loss": 0.0077,
+      "step": 8600
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.00026703893672674894,
+      "eval_runtime": 2048.5713,
+      "eval_samples_per_second": 16.87,
+      "eval_steps_per_second": 4.218,
+      "step": 8600
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 5.972222222222223e-05,
+      "loss": 0.0291,
+      "step": 8700
+    },
+    {
+      "epoch": 2.01,
+      "eval_accuracy": 0.9989872574806213,
+      "eval_loss": 0.004098657984286547,
+      "eval_runtime": 2031.7661,
+      "eval_samples_per_second": 17.01,
+      "eval_steps_per_second": 4.252,
+      "step": 8700
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 5.925925925925926e-05,
+      "loss": 0.0274,
+      "step": 8800
+    },
+    {
+      "epoch": 2.04,
+      "eval_accuracy": 0.9995949268341064,
+      "eval_loss": 0.001983657479286194,
+      "eval_runtime": 2040.4005,
+      "eval_samples_per_second": 16.938,
+      "eval_steps_per_second": 4.234,
+      "step": 8800
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 5.879629629629629e-05,
+      "loss": 0.0193,
+      "step": 8900
+    },
+    {
+      "epoch": 2.06,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0003717490180861205,
+      "eval_runtime": 2041.1098,
+      "eval_samples_per_second": 16.932,
+      "eval_steps_per_second": 4.233,
+      "step": 8900
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 0.0296,
+      "step": 9000
+    },
+    {
+      "epoch": 2.08,
+      "eval_accuracy": 0.9997684955596924,
+      "eval_loss": 0.0011291600530967116,
+      "eval_runtime": 2004.7261,
+      "eval_samples_per_second": 17.239,
+      "eval_steps_per_second": 4.31,
+      "step": 9000
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 5.787037037037037e-05,
+      "loss": 0.0033,
+      "step": 9100
+    },
+    {
+      "epoch": 2.11,
+      "eval_accuracy": 0.9998553395271301,
+      "eval_loss": 0.0005978959961794317,
+      "eval_runtime": 2001.4449,
+      "eval_samples_per_second": 17.268,
+      "eval_steps_per_second": 4.317,
+      "step": 9100
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 5.740740740740741e-05,
+      "loss": 0.0218,
+      "step": 9200
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.999160885810852,
+      "eval_loss": 0.0025338120758533478,
+      "eval_runtime": 1990.5201,
+      "eval_samples_per_second": 17.362,
+      "eval_steps_per_second": 4.341,
+      "step": 9200
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 5.6944444444444445e-05,
+      "loss": 0.0238,
+      "step": 9300
+    },
+    {
+      "epoch": 2.15,
+      "eval_accuracy": 0.999218761920929,
+      "eval_loss": 0.0033705937676131725,
+      "eval_runtime": 2019.0619,
+      "eval_samples_per_second": 17.117,
+      "eval_steps_per_second": 4.279,
+      "step": 9300
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 5.648148148148148e-05,
+      "loss": 0.0319,
+      "step": 9400
+    },
+    {
+      "epoch": 2.18,
+      "eval_accuracy": 0.9994791746139526,
+      "eval_loss": 0.0017771282000467181,
+      "eval_runtime": 1997.4844,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.325,
+      "step": 9400
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 5.6018518518518525e-05,
+      "loss": 0.0465,
+      "step": 9500
+    },
+    {
+      "epoch": 2.2,
+      "eval_accuracy": 0.9994502067565918,
+      "eval_loss": 0.002331700176000595,
+      "eval_runtime": 2012.3132,
+      "eval_samples_per_second": 17.174,
+      "eval_steps_per_second": 4.294,
+      "step": 9500
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0412,
+      "step": 9600
+    },
+    {
+      "epoch": 2.22,
+      "eval_accuracy": 0.9997395873069763,
+      "eval_loss": 0.001237583113834262,
+      "eval_runtime": 1999.8191,
+      "eval_samples_per_second": 17.282,
+      "eval_steps_per_second": 4.32,
+      "step": 9600
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 5.50925925925926e-05,
+      "loss": 0.02,
+      "step": 9700
+    },
+    {
+      "epoch": 2.25,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0009390079067088664,
+      "eval_runtime": 2008.6286,
+      "eval_samples_per_second": 17.206,
+      "eval_steps_per_second": 4.301,
+      "step": 9700
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 5.462962962962963e-05,
+      "loss": 0.0226,
+      "step": 9800
+    },
+    {
+      "epoch": 2.27,
+      "eval_accuracy": 0.9995949268341064,
+      "eval_loss": 0.0017483533592894673,
+      "eval_runtime": 2005.0151,
+      "eval_samples_per_second": 17.237,
+      "eval_steps_per_second": 4.309,
+      "step": 9800
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 5.4166666666666664e-05,
+      "loss": 0.0104,
+      "step": 9900
+    },
+    {
+      "epoch": 2.29,
+      "eval_accuracy": 0.9997684955596924,
+      "eval_loss": 0.0008292018319480121,
+      "eval_runtime": 1992.6545,
+      "eval_samples_per_second": 17.344,
+      "eval_steps_per_second": 4.336,
+      "step": 9900
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 5.370370370370371e-05,
+      "loss": 0.0021,
+      "step": 10000
+    },
+    {
+      "epoch": 2.31,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.000292919430648908,
+      "eval_runtime": 1987.2006,
+      "eval_samples_per_second": 17.391,
+      "eval_steps_per_second": 4.348,
+      "step": 10000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 5.3240740740740744e-05,
+      "loss": 0.0135,
+      "step": 10100
+    },
+    {
+      "epoch": 2.34,
+      "eval_accuracy": 0.9987558126449585,
+      "eval_loss": 0.005596287082880735,
+      "eval_runtime": 2007.3126,
+      "eval_samples_per_second": 17.217,
+      "eval_steps_per_second": 4.304,
+      "step": 10100
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 5.2777777777777784e-05,
+      "loss": 0.0319,
+      "step": 10200
+    },
+    {
+      "epoch": 2.36,
+      "eval_accuracy": 0.9995949268341064,
+      "eval_loss": 0.001722234534099698,
+      "eval_runtime": 2007.5056,
+      "eval_samples_per_second": 17.215,
+      "eval_steps_per_second": 4.304,
+      "step": 10200
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 5.231481481481482e-05,
+      "loss": 0.0279,
+      "step": 10300
+    },
+    {
+      "epoch": 2.38,
+      "eval_accuracy": 0.9997106194496155,
+      "eval_loss": 0.001128367381170392,
+      "eval_runtime": 1980.2057,
+      "eval_samples_per_second": 17.453,
+      "eval_steps_per_second": 4.363,
+      "step": 10300
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.185185185185185e-05,
+      "loss": 0.0017,
+      "step": 10400
+    },
+    {
+      "epoch": 2.41,
+      "eval_accuracy": 0.9997106194496155,
+      "eval_loss": 0.0013848639791831374,
+      "eval_runtime": 2007.1812,
+      "eval_samples_per_second": 17.218,
+      "eval_steps_per_second": 4.305,
+      "step": 10400
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.138888888888889e-05,
+      "loss": 0.0296,
+      "step": 10500
+    },
+    {
+      "epoch": 2.43,
+      "eval_accuracy": 0.9989583492279053,
+      "eval_loss": 0.005161995068192482,
+      "eval_runtime": 1986.761,
+      "eval_samples_per_second": 17.395,
+      "eval_steps_per_second": 4.349,
+      "step": 10500
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.092592592592593e-05,
+      "loss": 0.0168,
+      "step": 10600
+    },
+    {
+      "epoch": 2.45,
+      "eval_accuracy": 0.9997974634170532,
+      "eval_loss": 0.0004770481900777668,
+      "eval_runtime": 2003.7003,
+      "eval_samples_per_second": 17.248,
+      "eval_steps_per_second": 4.312,
+      "step": 10600
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.046296296296297e-05,
+      "loss": 0.0194,
+      "step": 10700
+    },
+    {
+      "epoch": 2.48,
+      "eval_accuracy": 0.9997684955596924,
+      "eval_loss": 0.000735765672288835,
+      "eval_runtime": 1994.758,
+      "eval_samples_per_second": 17.325,
+      "eval_steps_per_second": 4.331,
+      "step": 10700
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5e-05,
+      "loss": 0.0006,
+      "step": 10800
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.9998263716697693,
+      "eval_loss": 0.0009093827102333307,
+      "eval_runtime": 2000.8621,
+      "eval_samples_per_second": 17.273,
+      "eval_steps_per_second": 4.318,
+      "step": 10800
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.9537037037037035e-05,
+      "loss": 0.0293,
+      "step": 10900
+    },
+    {
+      "epoch": 2.52,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.0005157970590516925,
+      "eval_runtime": 2011.0169,
+      "eval_samples_per_second": 17.185,
+      "eval_steps_per_second": 4.296,
+      "step": 10900
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.9074074074074075e-05,
+      "loss": 0.0016,
+      "step": 11000
+    },
+    {
+      "epoch": 2.55,
+      "eval_accuracy": 0.9994791746139526,
+      "eval_loss": 0.0025301428977400064,
+      "eval_runtime": 2000.9133,
+      "eval_samples_per_second": 17.272,
+      "eval_steps_per_second": 4.318,
+      "step": 11000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.0069,
+      "step": 11100
+    },
+    {
+      "epoch": 2.57,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0004891157150268555,
+      "eval_runtime": 2006.7369,
+      "eval_samples_per_second": 17.222,
+      "eval_steps_per_second": 4.305,
+      "step": 11100
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.0001,
+      "step": 11200
+    },
+    {
+      "epoch": 2.59,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.00020419809152372181,
+      "eval_runtime": 1993.3725,
+      "eval_samples_per_second": 17.337,
+      "eval_steps_per_second": 4.334,
+      "step": 11200
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 4.768518518518519e-05,
+      "loss": 0.0108,
+      "step": 11300
+    },
+    {
+      "epoch": 2.62,
+      "eval_accuracy": 0.9997974634170532,
+      "eval_loss": 0.0010758559219539165,
+      "eval_runtime": 2001.2763,
+      "eval_samples_per_second": 17.269,
+      "eval_steps_per_second": 4.317,
+      "step": 11300
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 0.0165,
+      "step": 11400
+    },
+    {
+      "epoch": 2.64,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0006313551566563547,
+      "eval_runtime": 1995.5247,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.33,
+      "step": 11400
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 4.675925925925926e-05,
+      "loss": 0.0001,
+      "step": 11500
+    },
+    {
+      "epoch": 2.66,
+      "eval_accuracy": 0.9997974634170532,
+      "eval_loss": 0.0007648964528925717,
+      "eval_runtime": 2001.09,
+      "eval_samples_per_second": 17.271,
+      "eval_steps_per_second": 4.318,
+      "step": 11500
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.0244,
+      "step": 11600
+    },
+    {
+      "epoch": 2.69,
+      "eval_accuracy": 0.9998553395271301,
+      "eval_loss": 0.000668107473757118,
+      "eval_runtime": 2000.7577,
+      "eval_samples_per_second": 17.273,
+      "eval_steps_per_second": 4.318,
+      "step": 11600
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 0.0312,
+      "step": 11700
+    },
+    {
+      "epoch": 2.71,
+      "eval_accuracy": 0.9995659589767456,
+      "eval_loss": 0.001716578146442771,
+      "eval_runtime": 1997.1256,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.326,
+      "step": 11700
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 4.5370370370370374e-05,
+      "loss": 0.0191,
+      "step": 11800
+    },
+    {
+      "epoch": 2.73,
+      "eval_accuracy": 0.9997395873069763,
+      "eval_loss": 0.0007975550834089518,
+      "eval_runtime": 1967.8746,
+      "eval_samples_per_second": 17.562,
+      "eval_steps_per_second": 4.391,
+      "step": 11800
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.490740740740741e-05,
+      "loss": 0.0005,
+      "step": 11900
+    },
+    {
+      "epoch": 2.75,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0004628011374734342,
+      "eval_runtime": 1958.7798,
+      "eval_samples_per_second": 17.644,
+      "eval_steps_per_second": 4.411,
+      "step": 11900
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0259,
+      "step": 12000
+    },
+    {
+      "epoch": 2.78,
+      "eval_accuracy": 0.9996238350868225,
+      "eval_loss": 0.001358355744741857,
+      "eval_runtime": 1971.0225,
+      "eval_samples_per_second": 17.534,
+      "eval_steps_per_second": 4.384,
+      "step": 12000
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 0.0226,
+      "step": 12100
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00019500043708831072,
+      "eval_runtime": 1970.5019,
+      "eval_samples_per_second": 17.539,
+      "eval_steps_per_second": 4.385,
+      "step": 12100
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 4.351851851851852e-05,
+      "loss": 0.0,
+      "step": 12200
+    },
+    {
+      "epoch": 2.82,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.0002164940524380654,
+      "eval_runtime": 1961.9305,
+      "eval_samples_per_second": 17.615,
+      "eval_steps_per_second": 4.404,
+      "step": 12200
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 4.305555555555556e-05,
+      "loss": 0.0,
+      "step": 12300
+    },
+    {
+      "epoch": 2.85,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.00010657820530468598,
+      "eval_runtime": 1973.4403,
+      "eval_samples_per_second": 17.513,
+      "eval_steps_per_second": 4.378,
+      "step": 12300
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 0.0145,
+      "step": 12400
+    },
+    {
+      "epoch": 2.87,
+      "eval_accuracy": 1.0,
+      "eval_loss": 4.758801151183434e-05,
+      "eval_runtime": 1977.328,
+      "eval_samples_per_second": 17.478,
+      "eval_steps_per_second": 4.37,
+      "step": 12400
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 4.212962962962963e-05,
+      "loss": 0.0083,
+      "step": 12500
+    },
+    {
+      "epoch": 2.89,
+      "eval_accuracy": 0.9995659589767456,
+      "eval_loss": 0.001972577767446637,
+      "eval_runtime": 1962.5085,
+      "eval_samples_per_second": 17.61,
+      "eval_steps_per_second": 4.403,
+      "step": 12500
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.02,
+      "step": 12600
+    },
+    {
+      "epoch": 2.92,
+      "eval_accuracy": 0.9994791746139526,
+      "eval_loss": 0.00198388216085732,
+      "eval_runtime": 1956.5161,
+      "eval_samples_per_second": 17.664,
+      "eval_steps_per_second": 4.416,
+      "step": 12600
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 4.1203703703703705e-05,
+      "loss": 0.0293,
+      "step": 12700
+    },
+    {
+      "epoch": 2.94,
+      "eval_accuracy": 0.9994212985038757,
+      "eval_loss": 0.0031591171864420176,
+      "eval_runtime": 1997.7409,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.325,
+      "step": 12700
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.0164,
+      "step": 12800
+    },
+    {
+      "epoch": 2.96,
+      "eval_accuracy": 0.9997395873069763,
+      "eval_loss": 0.0012433998053893447,
+      "eval_runtime": 2019.1263,
+      "eval_samples_per_second": 17.116,
+      "eval_steps_per_second": 4.279,
+      "step": 12800
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 4.027777777777778e-05,
+      "loss": 0.0147,
+      "step": 12900
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.9997684955596924,
+      "eval_loss": 0.001224155188538134,
+      "eval_runtime": 2015.6572,
+      "eval_samples_per_second": 17.146,
+      "eval_steps_per_second": 4.286,
+      "step": 12900
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 3.981481481481482e-05,
+      "loss": 0.0112,
+      "step": 13000
+    },
+    {
+      "epoch": 3.01,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.0008148940978571773,
+      "eval_runtime": 1991.7022,
+      "eval_samples_per_second": 17.352,
+      "eval_steps_per_second": 4.338,
+      "step": 13000
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 0.002,
+      "step": 13100
+    },
+    {
+      "epoch": 3.03,
+      "eval_accuracy": 0.9997395873069763,
+      "eval_loss": 0.0012871942017227411,
+      "eval_runtime": 2016.2834,
+      "eval_samples_per_second": 17.14,
+      "eval_steps_per_second": 4.285,
+      "step": 13100
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.017,
+      "step": 13200
+    },
+    {
+      "epoch": 3.06,
+      "eval_accuracy": 0.9997106194496155,
+      "eval_loss": 0.0010973262833431363,
+      "eval_runtime": 2017.4262,
+      "eval_samples_per_second": 17.131,
+      "eval_steps_per_second": 4.283,
+      "step": 13200
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 3.8425925925925924e-05,
+      "loss": 0.0142,
+      "step": 13300
+    },
+    {
+      "epoch": 3.08,
+      "eval_accuracy": 0.9996528029441833,
+      "eval_loss": 0.0019141812808811665,
+      "eval_runtime": 2002.6757,
+      "eval_samples_per_second": 17.257,
+      "eval_steps_per_second": 4.314,
+      "step": 13300
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 3.7962962962962964e-05,
+      "loss": 0.008,
+      "step": 13400
+    },
+    {
+      "epoch": 3.1,
+      "eval_accuracy": 0.9997395873069763,
+      "eval_loss": 0.00135290517937392,
+      "eval_runtime": 2020.5372,
+      "eval_samples_per_second": 17.104,
+      "eval_steps_per_second": 4.276,
+      "step": 13400
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0411,
+      "step": 13500
+    },
+    {
+      "epoch": 3.12,
+      "eval_accuracy": 0.9997974634170532,
+      "eval_loss": 0.000736766669433564,
+      "eval_runtime": 2162.1556,
+      "eval_samples_per_second": 15.984,
+      "eval_steps_per_second": 3.996,
+      "step": 13500
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0262,
+      "step": 13600
+    },
+    {
+      "epoch": 3.15,
+      "eval_accuracy": 0.9998553395271301,
+      "eval_loss": 0.000846204929985106,
+      "eval_runtime": 2119.0303,
+      "eval_samples_per_second": 16.309,
+      "eval_steps_per_second": 4.077,
+      "step": 13600
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 3.6574074074074076e-05,
+      "loss": 0.0198,
+      "step": 13700
+    },
+    {
+      "epoch": 3.17,
+      "eval_accuracy": 0.9997106194496155,
+      "eval_loss": 0.0010991438757628202,
+      "eval_runtime": 2095.0628,
+      "eval_samples_per_second": 16.496,
+      "eval_steps_per_second": 4.124,
+      "step": 13700
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.0178,
+      "step": 13800
+    },
+    {
+      "epoch": 3.19,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.00029710811213590205,
+      "eval_runtime": 2130.6792,
+      "eval_samples_per_second": 16.22,
+      "eval_steps_per_second": 4.055,
+      "step": 13800
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 3.564814814814815e-05,
+      "loss": 0.0072,
+      "step": 13900
+    },
+    {
+      "epoch": 3.22,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00018699387146625668,
+      "eval_runtime": 2082.0917,
+      "eval_samples_per_second": 16.599,
+      "eval_steps_per_second": 4.15,
+      "step": 13900
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.0004,
+      "step": 14000
+    },
+    {
+      "epoch": 3.24,
+      "eval_accuracy": 0.9998263716697693,
+      "eval_loss": 0.0013777822023257613,
+      "eval_runtime": 2053.664,
+      "eval_samples_per_second": 16.828,
+      "eval_steps_per_second": 4.207,
+      "step": 14000
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.0191,
+      "step": 14100
+    },
+    {
+      "epoch": 3.26,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.0004184871504548937,
+      "eval_runtime": 2048.7946,
+      "eval_samples_per_second": 16.868,
+      "eval_steps_per_second": 4.217,
+      "step": 14100
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 3.425925925925926e-05,
+      "loss": 0.007,
+      "step": 14200
+    },
+    {
+      "epoch": 3.29,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.0004062869702465832,
+      "eval_runtime": 2055.664,
+      "eval_samples_per_second": 16.812,
+      "eval_steps_per_second": 4.203,
+      "step": 14200
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 3.3796296296296295e-05,
+      "loss": 0.0108,
+      "step": 14300
+    },
+    {
+      "epoch": 3.31,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.00011388419807190076,
+      "eval_runtime": 2043.6545,
+      "eval_samples_per_second": 16.911,
+      "eval_steps_per_second": 4.228,
+      "step": 14300
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0,
+      "step": 14400
+    },
+    {
+      "epoch": 3.33,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 7.532363088103011e-05,
+      "eval_runtime": 2040.9204,
+      "eval_samples_per_second": 16.934,
+      "eval_steps_per_second": 4.233,
+      "step": 14400
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 3.2870370370370375e-05,
+      "loss": 0.0006,
+      "step": 14500
+    },
+    {
+      "epoch": 3.36,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.0003408396732993424,
+      "eval_runtime": 2057.5647,
+      "eval_samples_per_second": 16.797,
+      "eval_steps_per_second": 4.199,
+      "step": 14500
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.0085,
+      "step": 14600
+    },
+    {
+      "epoch": 3.38,
+      "eval_accuracy": 0.9992766380310059,
+      "eval_loss": 0.0034337618853896856,
+      "eval_runtime": 2027.249,
+      "eval_samples_per_second": 17.048,
+      "eval_steps_per_second": 4.262,
+      "step": 14600
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 0.0002,
+      "step": 14700
+    },
+    {
+      "epoch": 3.4,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.0006225552642717957,
+      "eval_runtime": 2004.1478,
+      "eval_samples_per_second": 17.244,
+      "eval_steps_per_second": 4.311,
+      "step": 14700
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.0181,
+      "step": 14800
+    },
+    {
+      "epoch": 3.43,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.000251033779932186,
+      "eval_runtime": 2016.4131,
+      "eval_samples_per_second": 17.139,
+      "eval_steps_per_second": 4.285,
+      "step": 14800
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 3.101851851851852e-05,
+      "loss": 0.0021,
+      "step": 14900
+    },
+    {
+      "epoch": 3.45,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.00040141510544344783,
+      "eval_runtime": 2000.3942,
+      "eval_samples_per_second": 17.277,
+      "eval_steps_per_second": 4.319,
+      "step": 14900
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.0069,
+      "step": 15000
+    },
+    {
+      "epoch": 3.47,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0006463331519626081,
+      "eval_runtime": 2015.2783,
+      "eval_samples_per_second": 17.149,
+      "eval_steps_per_second": 4.287,
+      "step": 15000
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 0.0156,
+      "step": 15100
+    },
+    {
+      "epoch": 3.5,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.0001428252726327628,
+      "eval_runtime": 1995.7618,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.329,
+      "step": 15100
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.0042,
+      "step": 15200
+    },
+    {
+      "epoch": 3.52,
+      "eval_accuracy": 0.9997974634170532,
+      "eval_loss": 0.000510143639985472,
+      "eval_runtime": 2000.972,
+      "eval_samples_per_second": 17.272,
+      "eval_steps_per_second": 4.318,
+      "step": 15200
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 0.0233,
+      "step": 15300
+    },
+    {
+      "epoch": 3.54,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00019888828683178872,
+      "eval_runtime": 2002.1598,
+      "eval_samples_per_second": 17.261,
+      "eval_steps_per_second": 4.315,
+      "step": 15300
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 2.8703703703703706e-05,
+      "loss": 0.003,
+      "step": 15400
+    },
+    {
+      "epoch": 3.56,
+      "eval_accuracy": 0.9997974634170532,
+      "eval_loss": 0.0006905001355335116,
+      "eval_runtime": 2000.419,
+      "eval_samples_per_second": 17.276,
+      "eval_steps_per_second": 4.319,
+      "step": 15400
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 2.824074074074074e-05,
+      "loss": 0.0149,
+      "step": 15500
+    },
+    {
+      "epoch": 3.59,
+      "eval_accuracy": 0.9998553395271301,
+      "eval_loss": 0.000585312838666141,
+      "eval_runtime": 1997.3791,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 4.326,
+      "step": 15500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0072,
+      "step": 15600
+    },
+    {
+      "epoch": 3.61,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.000229826764552854,
+      "eval_runtime": 2001.2597,
+      "eval_samples_per_second": 17.269,
+      "eval_steps_per_second": 4.317,
+      "step": 15600
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 2.7314814814814816e-05,
+      "loss": 0.0004,
+      "step": 15700
+    },
+    {
+      "epoch": 3.63,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 5.024338679504581e-05,
+      "eval_runtime": 2013.5805,
+      "eval_samples_per_second": 17.163,
+      "eval_steps_per_second": 4.291,
+      "step": 15700
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 2.6851851851851855e-05,
+      "loss": 0.0001,
+      "step": 15800
+    },
+    {
+      "epoch": 3.66,
+      "eval_accuracy": 0.999913215637207,
+      "eval_loss": 0.00017916383512783796,
+      "eval_runtime": 1994.345,
+      "eval_samples_per_second": 17.329,
+      "eval_steps_per_second": 4.332,
+      "step": 15800
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.0186,
+      "step": 15900
+    },
+    {
+      "epoch": 3.68,
+      "eval_accuracy": 1.0,
+      "eval_loss": 9.207503353536595e-06,
+      "eval_runtime": 2056.2161,
+      "eval_samples_per_second": 16.808,
+      "eval_steps_per_second": 4.202,
+      "step": 15900
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0115,
+      "step": 16000
+    },
+    {
+      "epoch": 3.7,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00022165325935930014,
+      "eval_runtime": 2044.6907,
+      "eval_samples_per_second": 16.902,
+      "eval_steps_per_second": 4.226,
+      "step": 16000
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.0011,
+      "step": 16100
+    },
+    {
+      "epoch": 3.73,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00027788631268776953,
+      "eval_runtime": 2046.6409,
+      "eval_samples_per_second": 16.886,
+      "eval_steps_per_second": 4.222,
+      "step": 16100
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0048,
+      "step": 16200
+    },
+    {
+      "epoch": 3.75,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 5.909843821427785e-05,
+      "eval_runtime": 2008.3137,
+      "eval_samples_per_second": 17.208,
+      "eval_steps_per_second": 4.302,
+      "step": 16200
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 2.4537037037037038e-05,
+      "loss": 0.0042,
+      "step": 16300
+    },
+    {
+      "epoch": 3.77,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.828932328062365e-06,
+      "eval_runtime": 2129.8226,
+      "eval_samples_per_second": 16.227,
+      "eval_steps_per_second": 4.057,
+      "step": 16300
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.0024,
+      "step": 16400
+    },
+    {
+      "epoch": 3.8,
+      "eval_accuracy": 1.0,
+      "eval_loss": 8.2383139670128e-06,
+      "eval_runtime": 2113.6583,
+      "eval_samples_per_second": 16.351,
+      "eval_steps_per_second": 4.088,
+      "step": 16400
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 2.361111111111111e-05,
+      "loss": 0.0,
+      "step": 16500
+    },
+    {
+      "epoch": 3.82,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.800426606583642e-06,
+      "eval_runtime": 2122.3997,
+      "eval_samples_per_second": 16.283,
+      "eval_steps_per_second": 4.071,
+      "step": 16500
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.0003,
+      "step": 16600
+    },
+    {
+      "epoch": 3.84,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00010272156214341521,
+      "eval_runtime": 2128.9658,
+      "eval_samples_per_second": 16.233,
+      "eval_steps_per_second": 4.058,
+      "step": 16600
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 2.2685185185185187e-05,
+      "loss": 0.0,
+      "step": 16700
+    },
+    {
+      "epoch": 3.87,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 7.889495464041829e-05,
+      "eval_runtime": 2147.2327,
+      "eval_samples_per_second": 16.095,
+      "eval_steps_per_second": 4.024,
+      "step": 16700
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0,
+      "step": 16800
+    },
+    {
+      "epoch": 3.89,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 7.938377530081198e-05,
+      "eval_runtime": 2139.4855,
+      "eval_samples_per_second": 16.153,
+      "eval_steps_per_second": 4.038,
+      "step": 16800
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 2.175925925925926e-05,
+      "loss": 0.0029,
+      "step": 16900
+    },
+    {
+      "epoch": 3.91,
+      "eval_accuracy": 0.9998842477798462,
+      "eval_loss": 0.0005274215945973992,
+      "eval_runtime": 2142.1862,
+      "eval_samples_per_second": 16.133,
+      "eval_steps_per_second": 4.033,
+      "step": 16900
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 2.1296296296296296e-05,
+      "loss": 0.0066,
+      "step": 17000
+    },
+    {
+      "epoch": 3.94,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00019657429947983474,
+      "eval_runtime": 2149.2032,
+      "eval_samples_per_second": 16.08,
+      "eval_steps_per_second": 4.02,
+      "step": 17000
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.0079,
+      "step": 17100
+    },
+    {
+      "epoch": 3.96,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 5.7856173953041434e-05,
+      "eval_runtime": 2135.9752,
+      "eval_samples_per_second": 16.18,
+      "eval_steps_per_second": 4.045,
+      "step": 17100
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.0091,
+      "step": 17200
+    },
+    {
+      "epoch": 3.98,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.00015575718134641647,
+      "eval_runtime": 2158.5953,
+      "eval_samples_per_second": 16.01,
+      "eval_steps_per_second": 4.003,
+      "step": 17200
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 1.990740740740741e-05,
+      "loss": 0.0951,
+      "step": 17300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 6.823511648690328e-05,
+      "eval_runtime": 2106.2766,
+      "eval_samples_per_second": 16.408,
+      "eval_steps_per_second": 4.102,
+      "step": 17300
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.0578,
+      "step": 17400
+    },
+    {
+      "epoch": 4.03,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.00031872568069957197,
+      "eval_runtime": 2091.5056,
+      "eval_samples_per_second": 16.524,
+      "eval_steps_per_second": 4.131,
+      "step": 17400
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 1.8981481481481482e-05,
+      "loss": 0.0171,
+      "step": 17500
+    },
+    {
+      "epoch": 4.05,
+      "eval_accuracy": 0.9999421238899231,
+      "eval_loss": 0.0003504869237076491,
+      "eval_runtime": 2076.2302,
+      "eval_samples_per_second": 16.646,
+      "eval_steps_per_second": 4.161,
+      "step": 17500
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0305,
+      "step": 17600
+    },
+    {
+      "epoch": 4.07,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00012279333896003664,
+      "eval_runtime": 2072.7643,
+      "eval_samples_per_second": 16.673,
+      "eval_steps_per_second": 4.168,
+      "step": 17600
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 1.8055555555555555e-05,
+      "loss": 0.0449,
+      "step": 17700
+    },
+    {
+      "epoch": 4.1,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00021972648391965777,
+      "eval_runtime": 2090.628,
+      "eval_samples_per_second": 16.531,
+      "eval_steps_per_second": 4.133,
+      "step": 17700
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 1.7592592592592595e-05,
+      "loss": 0.0161,
+      "step": 17800
+    },
+    {
+      "epoch": 4.12,
+      "eval_accuracy": 1.0,
+      "eval_loss": 2.7198611860512756e-05,
+      "eval_runtime": 2085.7289,
+      "eval_samples_per_second": 16.57,
+      "eval_steps_per_second": 4.142,
+      "step": 17800
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 1.712962962962963e-05,
+      "loss": 0.0322,
+      "step": 17900
+    },
+    {
+      "epoch": 4.14,
+      "eval_accuracy": 1.0,
+      "eval_loss": 2.2180371161084622e-05,
+      "eval_runtime": 2061.6769,
+      "eval_samples_per_second": 16.763,
+      "eval_steps_per_second": 4.191,
+      "step": 17900
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0358,
+      "step": 18000
+    },
+    {
+      "epoch": 4.17,
+      "eval_accuracy": 0.9999710917472839,
+      "eval_loss": 0.00010751090303529054,
+      "eval_runtime": 2107.1409,
+      "eval_samples_per_second": 16.401,
+      "eval_steps_per_second": 4.1,
+      "step": 18000
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.0264,
+      "step": 18100
+    },
+    {
+      "epoch": 4.19,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.194192792463582e-06,
+      "eval_runtime": 2091.7086,
+      "eval_samples_per_second": 16.522,
+      "eval_steps_per_second": 4.131,
+      "step": 18100
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.574074074074074e-05,
+      "loss": 0.0199,
+      "step": 18200
+    },
+    {
+      "epoch": 4.21,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.114233656262513e-06,
+      "eval_runtime": 2093.6259,
+      "eval_samples_per_second": 16.507,
+      "eval_steps_per_second": 4.127,
+      "step": 18200
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 1.527777777777778e-05,
+      "loss": 0.0266,
+      "step": 18300
+    },
+    {
+      "epoch": 4.24,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.532317456731107e-06,
+      "eval_runtime": 2103.3039,
+      "eval_samples_per_second": 16.431,
+      "eval_steps_per_second": 4.108,
+      "step": 18300
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0162,
+      "step": 18400
+    },
+    {
+      "epoch": 4.26,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.056379334040685e-06,
+      "eval_runtime": 2141.6719,
+      "eval_samples_per_second": 16.137,
+      "eval_steps_per_second": 4.034,
+      "step": 18400
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 1.4351851851851853e-05,
+      "loss": 0.0142,
+      "step": 18500
+    },
+    {
+      "epoch": 4.28,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.732083420502022e-06,
+      "eval_runtime": 2137.4831,
+      "eval_samples_per_second": 16.169,
+      "eval_steps_per_second": 4.042,
+      "step": 18500
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0353,
+      "step": 18600
+    },
+    {
+      "epoch": 4.31,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.884473466721829e-06,
+      "eval_runtime": 2111.534,
+      "eval_samples_per_second": 16.367,
+      "eval_steps_per_second": 4.092,
+      "step": 18600
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 1.3425925925925928e-05,
+      "loss": 0.0435,
+      "step": 18700
+    },
+    {
+      "epoch": 4.33,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.438468062697211e-06,
+      "eval_runtime": 2127.2273,
+      "eval_samples_per_second": 16.247,
+      "eval_steps_per_second": 4.062,
+      "step": 18700
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.0067,
+      "step": 18800
+    },
+    {
+      "epoch": 4.35,
+      "eval_accuracy": 1.0,
+      "eval_loss": 9.256172234017868e-06,
+      "eval_runtime": 2183.0463,
+      "eval_samples_per_second": 15.831,
+      "eval_steps_per_second": 3.958,
+      "step": 18800
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0299,
+      "step": 18900
+    },
+    {
+      "epoch": 4.38,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.904490419401554e-06,
+      "eval_runtime": 2110.4592,
+      "eval_samples_per_second": 16.376,
+      "eval_steps_per_second": 4.094,
+      "step": 18900
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.0063,
+      "step": 19000
+    },
+    {
+      "epoch": 4.4,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.991323061811272e-06,
+      "eval_runtime": 2074.4391,
+      "eval_samples_per_second": 16.66,
+      "eval_steps_per_second": 4.165,
+      "step": 19000
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.0117,
+      "step": 19100
+    },
+    {
+      "epoch": 4.42,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.223146672506118e-06,
+      "eval_runtime": 2093.0232,
+      "eval_samples_per_second": 16.512,
+      "eval_steps_per_second": 4.128,
+      "step": 19100
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0107,
+      "step": 19200
+    },
+    {
+      "epoch": 4.44,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.764682777633425e-06,
+      "eval_runtime": 2092.3489,
+      "eval_samples_per_second": 16.517,
+      "eval_steps_per_second": 4.129,
+      "step": 19200
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 1.0648148148148148e-05,
+      "loss": 0.0162,
+      "step": 19300
+    },
+    {
+      "epoch": 4.47,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.700497240468394e-06,
+      "eval_runtime": 2095.1985,
+      "eval_samples_per_second": 16.495,
+      "eval_steps_per_second": 4.124,
+      "step": 19300
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.0138,
+      "step": 19400
+    },
+    {
+      "epoch": 4.49,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.209324172028573e-06,
+      "eval_runtime": 2073.7497,
+      "eval_samples_per_second": 16.665,
+      "eval_steps_per_second": 4.166,
+      "step": 19400
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.0124,
+      "step": 19500
+    },
+    {
+      "epoch": 4.51,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.243016858003102e-06,
+      "eval_runtime": 2056.3515,
+      "eval_samples_per_second": 16.806,
+      "eval_steps_per_second": 4.202,
+      "step": 19500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0083,
+      "step": 19600
+    },
+    {
+      "epoch": 4.54,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.0634776016522665e-06,
+      "eval_runtime": 2077.8389,
+      "eval_samples_per_second": 16.633,
+      "eval_steps_per_second": 4.158,
+      "step": 19600
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 8.796296296296297e-06,
+      "loss": 0.0066,
+      "step": 19700
+    },
+    {
+      "epoch": 4.56,
+      "eval_accuracy": 1.0,
+      "eval_loss": 4.925776011077687e-06,
+      "eval_runtime": 2073.5316,
+      "eval_samples_per_second": 16.667,
+      "eval_steps_per_second": 4.167,
+      "step": 19700
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0058,
+      "step": 19800
+    },
+    {
+      "epoch": 4.58,
+      "eval_accuracy": 1.0,
+      "eval_loss": 4.750945663545281e-06,
+      "eval_runtime": 2057.702,
+      "eval_samples_per_second": 16.795,
+      "eval_steps_per_second": 4.199,
+      "step": 19800
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 7.87037037037037e-06,
+      "loss": 0.0032,
+      "step": 19900
+    },
+    {
+      "epoch": 4.61,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.96109145792434e-06,
+      "eval_runtime": 2071.5479,
+      "eval_samples_per_second": 16.683,
+      "eval_steps_per_second": 4.171,
+      "step": 19900
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.0205,
+      "step": 20000
+    },
+    {
+      "epoch": 4.63,
+      "eval_accuracy": 1.0,
+      "eval_loss": 4.608726612786995e-06,
+      "eval_runtime": 2066.372,
+      "eval_samples_per_second": 16.725,
+      "eval_steps_per_second": 4.181,
+      "step": 20000
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.0094,
+      "step": 20100
+    },
+    {
+      "epoch": 4.65,
+      "eval_accuracy": 1.0,
+      "eval_loss": 4.8284973672707565e-06,
+      "eval_runtime": 2054.9166,
+      "eval_samples_per_second": 16.818,
+      "eval_steps_per_second": 4.205,
+      "step": 20100
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 6.481481481481481e-06,
+      "loss": 0.003,
+      "step": 20200
+    },
+    {
+      "epoch": 4.68,
+      "eval_accuracy": 1.0,
+      "eval_loss": 4.495966550166486e-06,
+      "eval_runtime": 2072.6571,
+      "eval_samples_per_second": 16.674,
+      "eval_steps_per_second": 4.169,
+      "step": 20200
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 6.0185185185185185e-06,
+      "loss": 0.0035,
+      "step": 20300
+    },
+    {
+      "epoch": 4.7,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.835635420226026e-06,
+      "eval_runtime": 2047.8141,
+      "eval_samples_per_second": 16.877,
+      "eval_steps_per_second": 4.219,
+      "step": 20300
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0257,
+      "step": 20400
+    },
+    {
+      "epoch": 4.72,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.829508609167533e-06,
+      "eval_runtime": 2091.8646,
+      "eval_samples_per_second": 16.521,
+      "eval_steps_per_second": 4.13,
+      "step": 20400
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 5.092592592592592e-06,
+      "loss": 0.0019,
+      "step": 20500
+    },
+    {
+      "epoch": 4.75,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.3429124566027895e-06,
+      "eval_runtime": 2040.9379,
+      "eval_samples_per_second": 16.933,
+      "eval_steps_per_second": 4.233,
+      "step": 20500
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.0023,
+      "step": 20600
+    },
+    {
+      "epoch": 4.77,
+      "eval_accuracy": 1.0,
+      "eval_loss": 8.131992217386141e-06,
+      "eval_runtime": 2048.3614,
+      "eval_samples_per_second": 16.872,
+      "eval_steps_per_second": 4.218,
+      "step": 20600
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.0062,
+      "step": 20700
+    },
+    {
+      "epoch": 4.79,
+      "eval_accuracy": 1.0,
+      "eval_loss": 8.594151950092055e-06,
+      "eval_runtime": 2094.5382,
+      "eval_samples_per_second": 16.5,
+      "eval_steps_per_second": 4.125,
+      "step": 20700
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0039,
+      "step": 20800
+    },
+    {
+      "epoch": 4.81,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.4294948717579246e-06,
+      "eval_runtime": 2104.354,
+      "eval_samples_per_second": 16.423,
+      "eval_steps_per_second": 4.106,
+      "step": 20800
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 3.2407407407407406e-06,
+      "loss": 0.0144,
+      "step": 20900
+    },
+    {
+      "epoch": 4.84,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.862039299448952e-06,
+      "eval_runtime": 2101.0817,
+      "eval_samples_per_second": 16.449,
+      "eval_steps_per_second": 4.112,
+      "step": 20900
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.0109,
+      "step": 21000
+    },
+    {
+      "epoch": 4.86,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.136932825029362e-06,
+      "eval_runtime": 2119.5964,
+      "eval_samples_per_second": 16.305,
+      "eval_steps_per_second": 4.076,
+      "step": 21000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.0148,
+      "step": 21100
+    },
+    {
+      "epoch": 4.88,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.497817139461404e-06,
+      "eval_runtime": 2115.6009,
+      "eval_samples_per_second": 16.336,
+      "eval_steps_per_second": 4.084,
+      "step": 21100
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.0308,
+      "step": 21200
+    },
+    {
+      "epoch": 4.91,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.753816134936642e-06,
+      "eval_runtime": 2118.9207,
+      "eval_samples_per_second": 16.31,
+      "eval_steps_per_second": 4.078,
+      "step": 21200
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 1.388888888888889e-06,
+      "loss": 0.0023,
+      "step": 21300
+    },
+    {
+      "epoch": 4.93,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.5415960054669995e-06,
+      "eval_runtime": 2120.9953,
+      "eval_samples_per_second": 16.294,
+      "eval_steps_per_second": 4.074,
+      "step": 21300
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.0243,
+      "step": 21400
+    },
+    {
+      "epoch": 4.95,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.68591053201817e-06,
+      "eval_runtime": 2120.6941,
+      "eval_samples_per_second": 16.297,
+      "eval_steps_per_second": 4.074,
+      "step": 21400
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 0.0031,
+      "step": 21500
+    },
+    {
+      "epoch": 4.98,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.5350230872572865e-06,
+      "eval_runtime": 2105.7948,
+      "eval_samples_per_second": 16.412,
+      "eval_steps_per_second": 4.103,
+      "step": 21500
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 0.0272,
+      "step": 21600
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 7.493398243241245e-06,
+      "eval_runtime": 2100.1734,
+      "eval_samples_per_second": 16.456,
+      "eval_steps_per_second": 4.114,
+      "step": 21600
+    },
+    {
+      "epoch": 5.0,
+      "step": 21600,
+      "total_flos": 2.295560541703184e+19,
+      "train_loss": 0.003923701412147946,
+      "train_runtime": 97975.3145,
+      "train_samples_per_second": 1.764,
+      "train_steps_per_second": 0.22
+    }
+  ],
+  "max_steps": 21600,
+  "num_train_epochs": 5,
+  "total_flos": 2.295560541703184e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8da190049379dc0c86f08afacac310ba9a1d171b24966f5acc72cd4a34731a05
+size 2799