End of training

Browse files

Files changed (9) hide show

README.md +96 -0
config.json +32 -0
generation_config.json +7 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
spiece.model +3 -0
tokenizer_config.json +113 -0
trainer_state.json +2000 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,96 @@

+---
+license: mit
+base_model: cointegrated/rut5-small
+tags:
+- generated_from_trainer
+model-index:
+- name: text-normalization-ru-new
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# text-normalization-ru-new
+This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0442
+- Mean Distance: 0
+- Max Distance: 25
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 15
+- eval_batch_size: 15
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 30
+### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
+|:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
+| 0.199         | 1.0   | 11526  | 0.8173          | 167          | 17            |
+| 0.1286        | 2.0   | 23052  | 0.5453          | 158          | 14            |
+| 0.0891        | 3.0   | 34578  | 0.3629          | 122          | 10            |
+| 0.0711        | 4.0   | 46104  | 0.4011          | 114          | 12            |
+| 0.0566        | 5.0   | 57630  | 0.2997          | 100          | 7             |
+| 0.0402        | 6.0   | 69156  | 0.1552          | 75           | 4             |
+| 0.0348        | 7.0   | 80682  | 0.1513          | 79           | 3             |
+| 0.0302        | 8.0   | 92208  | 0.1452          | 76           | 3             |
+| 0.0223        | 9.0   | 103734 | 0.0866          | 76           | 1             |
+| 0.0202        | 10.0  | 115260 | 0.1091          | 71           | 2             |
+| 0.0175        | 11.0  | 126786 | 0.0655          | 66           | 1             |
+| 0.014         | 12.0  | 138312 | 0.0474          | 44           | 0             |
+| 0.0122        | 13.0  | 149838 | 0.0515          | 42           | 0             |
+| 0.0117        | 14.0  | 161364 | 0.0479          | 30           | 0             |
+| 0.0093        | 15.0  | 172890 | 0.0565          | 56           | 0             |
+| 0.0085        | 16.0  | 184416 | 0.0472          | 34           | 0             |
+| 0.0075        | 17.0  | 195942 | 0.0420          | 28           | 0             |
+| 0.0059        | 18.0  | 207468 | 0.0415          | 32           | 0             |
+| 0.0054        | 19.0  | 218994 | 0.0406          | 28           | 0             |
+| 0.0046        | 20.0  | 230520 | 0.0393          | 24           | 0             |
+| 0.004         | 21.0  | 242046 | 0.0417          | 24           | 0             |
+| 0.0034        | 22.0  | 253572 | 0.0403          | 18           | 0             |
+| 0.0029        | 23.0  | 265098 | 0.0422          | 21           | 0             |
+| 0.0024        | 24.0  | 276624 | 0.0410          | 21           | 0             |
+| 0.002         | 25.0  | 288150 | 0.0435          | 15           | 0             |
+| 0.0016        | 26.0  | 299676 | 0.0452          | 15           | 0             |
+| 0.0013        | 27.0  | 311202 | 0.0414          | 14           | 0             |
+| 0.0012        | 28.0  | 322728 | 0.0439          | 14           | 0             |
+| 0.001         | 29.0  | 334254 | 0.0444          | 15           | 0             |
+| 0.0026        | 30.0  | 345780 | 0.0427          | 19           | 0             |
+| 0.0077        | 24.0  | 368808 | 0.0495          | 27           | 0             |
+| 0.0083        | 25.0  | 384175 | 0.0446          | 37           | 0             |
+| 0.0078        | 26.0  | 399542 | 0.0481          | 47           | 0             |
+| 0.006         | 27.0  | 414909 | 0.0424          | 37           | 0             |
+| 0.0056        | 28.0  | 430276 | 0.0439          | 22           | 0             |
+| 0.0054        | 29.0  | 445643 | 0.0481          | 23           | 0             |
+| 0.004         | 30.0  | 461010 | 0.0442          | 0            | 25            |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.0.1+cu117
+- Datasets 2.14.4
+- Tokenizers 0.13.3

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "cointegrated/rut5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 20100
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.1"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1af9c44d78cc87dce6c9af177a92980e3657aa89417f862a6decf4575d013140
+size 258643461

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6afde64def093a9d493d1f4254768c2e842ed45bcc9c184233f245cb29d2a31
+size 639963

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,113 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2000 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 30.0,
+  "eval_steps": 500,
+  "global_step": 461010,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.8920122621319915e-08,
+      "loss": 14.3504,
+      "step": 1
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 5.000289201226213e-05,
+      "loss": 2.1001,
+      "step": 1729
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00010000578402452426,
+      "loss": 0.3756,
+      "step": 3458
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001500086760367864,
+      "loss": 0.2527,
+      "step": 5187
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020001156804904852,
+      "loss": 0.2076,
+      "step": 6916
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00025001446006131067,
+      "loss": 0.1864,
+      "step": 8645
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0003000173520735728,
+      "loss": 0.199,
+      "step": 10374
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.8173184990882874,
+      "eval_max_distance": 167,
+      "eval_mean_distance": 17,
+      "eval_runtime": 64.0638,
+      "eval_samples_per_second": 15.609,
+      "eval_steps_per_second": 0.78,
+      "step": 11526
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0003500202440858349,
+      "loss": 0.2481,
+      "step": 12103
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00040002313609809704,
+      "loss": 0.1244,
+      "step": 13832
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0004500260281103592,
+      "loss": 0.1055,
+      "step": 15561
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0005000289201226213,
+      "loss": 0.102,
+      "step": 17290
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0005500318121348835,
+      "loss": 0.102,
+      "step": 19019
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0006000347041471456,
+      "loss": 0.1083,
+      "step": 20748
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0006500375961594078,
+      "loss": 0.1286,
+      "step": 22477
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5452634692192078,
+      "eval_max_distance": 158,
+      "eval_mean_distance": 14,
+      "eval_runtime": 30.4268,
+      "eval_samples_per_second": 32.866,
+      "eval_steps_per_second": 1.643,
+      "step": 23052
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0007000404881716698,
+      "loss": 0.1449,
+      "step": 24206
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.000750043380183932,
+      "loss": 0.0747,
+      "step": 25935
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0008000462721961941,
+      "loss": 0.0744,
+      "step": 27664
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0008500491642084563,
+      "loss": 0.0742,
+      "step": 29393
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0009000520562207184,
+      "loss": 0.0792,
+      "step": 31122
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0009500549482329805,
+      "loss": 0.0891,
+      "step": 32851
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.3629104495048523,
+      "eval_max_distance": 122,
+      "eval_mean_distance": 10,
+      "eval_runtime": 35.1149,
+      "eval_samples_per_second": 28.478,
+      "eval_steps_per_second": 1.424,
+      "step": 34578
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0009999935733060843,
+      "loss": 0.1079,
+      "step": 34580
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.000994437696415833,
+      "loss": 0.0962,
+      "step": 36309
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0009888818195255813,
+      "loss": 0.059,
+      "step": 38038
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 0.0009833259426353302,
+      "loss": 0.0576,
+      "step": 39767
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.0009777700657450789,
+      "loss": 0.058,
+      "step": 41496
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0009722141888548275,
+      "loss": 0.0611,
+      "step": 43225
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 0.0009666583119645761,
+      "loss": 0.0711,
+      "step": 44954
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.4011004865169525,
+      "eval_max_distance": 114,
+      "eval_mean_distance": 12,
+      "eval_runtime": 24.9859,
+      "eval_samples_per_second": 40.022,
+      "eval_steps_per_second": 2.001,
+      "step": 46104
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 0.0009611024350743247,
+      "loss": 0.0991,
+      "step": 46683
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 0.0009555465581840734,
+      "loss": 0.0481,
+      "step": 48412
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 0.0009499906812938221,
+      "loss": 0.044,
+      "step": 50141
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0009444348044035706,
+      "loss": 0.0435,
+      "step": 51870
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 0.0009388789275133194,
+      "loss": 0.0454,
+      "step": 53599
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.000933323050623068,
+      "loss": 0.0483,
+      "step": 55328
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 0.0009277671737328166,
+      "loss": 0.0566,
+      "step": 57057
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.29974234104156494,
+      "eval_max_distance": 100,
+      "eval_mean_distance": 7,
+      "eval_runtime": 25.609,
+      "eval_samples_per_second": 39.049,
+      "eval_steps_per_second": 1.952,
+      "step": 57630
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 0.0009222112968425653,
+      "loss": 0.0724,
+      "step": 58786
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.000916655419952314,
+      "loss": 0.0364,
+      "step": 60515
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 0.0009110995430620625,
+      "loss": 0.035,
+      "step": 62244
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.0009055436661718113,
+      "loss": 0.0353,
+      "step": 63973
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.0008999877892815599,
+      "loss": 0.0364,
+      "step": 65702
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.0008944319123913086,
+      "loss": 0.0402,
+      "step": 67431
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.15522713959217072,
+      "eval_max_distance": 75,
+      "eval_mean_distance": 4,
+      "eval_runtime": 24.8618,
+      "eval_samples_per_second": 40.222,
+      "eval_steps_per_second": 2.011,
+      "step": 69156
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0008888760355010572,
+      "loss": 0.0506,
+      "step": 69160
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 0.0008833201586108059,
+      "loss": 0.0514,
+      "step": 70889
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 0.0008777642817205546,
+      "loss": 0.0298,
+      "step": 72618
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 0.0008722084048303031,
+      "loss": 0.0287,
+      "step": 74347
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 0.0008666525279400518,
+      "loss": 0.0289,
+      "step": 76076
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.0008610966510498005,
+      "loss": 0.0303,
+      "step": 77805
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 0.0008555407741595491,
+      "loss": 0.0348,
+      "step": 79534
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.15130603313446045,
+      "eval_max_distance": 79,
+      "eval_mean_distance": 3,
+      "eval_runtime": 25.5455,
+      "eval_samples_per_second": 39.146,
+      "eval_steps_per_second": 1.957,
+      "step": 80682
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 0.0008499848972692977,
+      "loss": 0.0527,
+      "step": 81263
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 0.0008444290203790465,
+      "loss": 0.0293,
+      "step": 82992
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.000838873143488795,
+      "loss": 0.0247,
+      "step": 84721
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 0.0008333172665985437,
+      "loss": 0.024,
+      "step": 86450
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.0008277613897082924,
+      "loss": 0.0243,
+      "step": 88179
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.000822205512818041,
+      "loss": 0.0263,
+      "step": 89908
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 0.0008166496359277897,
+      "loss": 0.0302,
+      "step": 91637
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.14522188901901245,
+      "eval_max_distance": 76,
+      "eval_mean_distance": 3,
+      "eval_runtime": 25.6271,
+      "eval_samples_per_second": 39.021,
+      "eval_steps_per_second": 1.951,
+      "step": 92208
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 0.0008110937590375384,
+      "loss": 0.0445,
+      "step": 93366
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.0008055378821472869,
+      "loss": 0.0229,
+      "step": 95095
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 0.0007999820052570357,
+      "loss": 0.0207,
+      "step": 96824
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 0.0007944261283667843,
+      "loss": 0.0203,
+      "step": 98553
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 0.000788870251476533,
+      "loss": 0.021,
+      "step": 100282
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 0.0007833143745862816,
+      "loss": 0.0223,
+      "step": 102011
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.08658243715763092,
+      "eval_max_distance": 76,
+      "eval_mean_distance": 1,
+      "eval_runtime": 23.498,
+      "eval_samples_per_second": 42.557,
+      "eval_steps_per_second": 2.128,
+      "step": 103734
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0007777584976960303,
+      "loss": 0.0284,
+      "step": 103740
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.0007722026208057789,
+      "loss": 0.034,
+      "step": 105469
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.0007666467439155275,
+      "loss": 0.0193,
+      "step": 107198
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 0.0007610908670252762,
+      "loss": 0.0175,
+      "step": 108927
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.0007555349901350248,
+      "loss": 0.0172,
+      "step": 110656
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0007499791132447735,
+      "loss": 0.018,
+      "step": 112385
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 0.0007444232363545221,
+      "loss": 0.0202,
+      "step": 114114
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.10908353328704834,
+      "eval_max_distance": 71,
+      "eval_mean_distance": 2,
+      "eval_runtime": 25.0909,
+      "eval_samples_per_second": 39.855,
+      "eval_steps_per_second": 1.993,
+      "step": 115260
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 0.0007388673594642709,
+      "loss": 0.0342,
+      "step": 115843
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 0.0007333114825740194,
+      "loss": 0.0202,
+      "step": 117572
+    },
+    {
+      "epoch": 10.35,
+      "learning_rate": 0.0007277556056837681,
+      "loss": 0.0159,
+      "step": 119301
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 0.0007221997287935168,
+      "loss": 0.0149,
+      "step": 121030
+    },
+    {
+      "epoch": 10.65,
+      "learning_rate": 0.0007166438519032654,
+      "loss": 0.015,
+      "step": 122759
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 0.000711087975013014,
+      "loss": 0.0155,
+      "step": 124488
+    },
+    {
+      "epoch": 10.95,
+      "learning_rate": 0.0007055320981227628,
+      "loss": 0.0175,
+      "step": 126217
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.06553788483142853,
+      "eval_max_distance": 66,
+      "eval_mean_distance": 1,
+      "eval_runtime": 22.988,
+      "eval_samples_per_second": 43.501,
+      "eval_steps_per_second": 2.175,
+      "step": 126786
+    },
+    {
+      "epoch": 11.1,
+      "learning_rate": 0.0006999762212325114,
+      "loss": 0.0305,
+      "step": 127946
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 0.00069442034434226,
+      "loss": 0.0157,
+      "step": 129675
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 0.0006888644674520087,
+      "loss": 0.0134,
+      "step": 131404
+    },
+    {
+      "epoch": 11.55,
+      "learning_rate": 0.0006833085905617574,
+      "loss": 0.0124,
+      "step": 133133
+    },
+    {
+      "epoch": 11.7,
+      "learning_rate": 0.0006777527136715059,
+      "loss": 0.0131,
+      "step": 134862
+    },
+    {
+      "epoch": 11.85,
+      "learning_rate": 0.0006721968367812547,
+      "loss": 0.014,
+      "step": 136591
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.04735955968499184,
+      "eval_max_distance": 44,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.5236,
+      "eval_samples_per_second": 44.398,
+      "eval_steps_per_second": 2.22,
+      "step": 138312
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0006666409598910033,
+      "loss": 0.0182,
+      "step": 138320
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 0.000661085083000752,
+      "loss": 0.025,
+      "step": 140049
+    },
+    {
+      "epoch": 12.3,
+      "learning_rate": 0.0006555292061105006,
+      "loss": 0.0128,
+      "step": 141778
+    },
+    {
+      "epoch": 12.45,
+      "learning_rate": 0.0006499733292202492,
+      "loss": 0.0114,
+      "step": 143507
+    },
+    {
+      "epoch": 12.6,
+      "learning_rate": 0.0006444174523299979,
+      "loss": 0.011,
+      "step": 145236
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 0.0006388615754397465,
+      "loss": 0.0117,
+      "step": 146965
+    },
+    {
+      "epoch": 12.9,
+      "learning_rate": 0.0006333056985494952,
+      "loss": 0.0122,
+      "step": 148694
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.05152251571416855,
+      "eval_max_distance": 42,
+      "eval_mean_distance": 0,
+      "eval_runtime": 23.898,
+      "eval_samples_per_second": 41.845,
+      "eval_steps_per_second": 2.092,
+      "step": 149838
+    },
+    {
+      "epoch": 13.05,
+      "learning_rate": 0.0006277498216592438,
+      "loss": 0.0241,
+      "step": 150423
+    },
+    {
+      "epoch": 13.2,
+      "learning_rate": 0.0006221939447689925,
+      "loss": 0.0148,
+      "step": 152152
+    },
+    {
+      "epoch": 13.35,
+      "learning_rate": 0.0006166380678787411,
+      "loss": 0.0106,
+      "step": 153881
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 0.0006110821909884899,
+      "loss": 0.0096,
+      "step": 155610
+    },
+    {
+      "epoch": 13.65,
+      "learning_rate": 0.0006055263140982384,
+      "loss": 0.0098,
+      "step": 157339
+    },
+    {
+      "epoch": 13.8,
+      "learning_rate": 0.0005999704372079872,
+      "loss": 0.0104,
+      "step": 159068
+    },
+    {
+      "epoch": 13.95,
+      "learning_rate": 0.0005944145603177358,
+      "loss": 0.0117,
+      "step": 160797
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.047906968742609024,
+      "eval_max_distance": 30,
+      "eval_mean_distance": 0,
+      "eval_runtime": 23.3531,
+      "eval_samples_per_second": 42.821,
+      "eval_steps_per_second": 2.141,
+      "step": 161364
+    },
+    {
+      "epoch": 14.1,
+      "learning_rate": 0.0005888586834274844,
+      "loss": 0.0224,
+      "step": 162526
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 0.0005833028065372331,
+      "loss": 0.0111,
+      "step": 164255
+    },
+    {
+      "epoch": 14.4,
+      "learning_rate": 0.0005777469296469818,
+      "loss": 0.009,
+      "step": 165984
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 0.0005721910527567303,
+      "loss": 0.0086,
+      "step": 167713
+    },
+    {
+      "epoch": 14.7,
+      "learning_rate": 0.000566635175866479,
+      "loss": 0.0088,
+      "step": 169442
+    },
+    {
+      "epoch": 14.85,
+      "learning_rate": 0.0005610792989762277,
+      "loss": 0.0093,
+      "step": 171171
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.05651288107037544,
+      "eval_max_distance": 56,
+      "eval_mean_distance": 0,
+      "eval_runtime": 23.6545,
+      "eval_samples_per_second": 42.275,
+      "eval_steps_per_second": 2.114,
+      "step": 172890
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0005555234220859762,
+      "loss": 0.0124,
+      "step": 172900
+    },
+    {
+      "epoch": 15.15,
+      "learning_rate": 0.000549967545195725,
+      "loss": 0.0181,
+      "step": 174629
+    },
+    {
+      "epoch": 15.3,
+      "learning_rate": 0.0005444116683054736,
+      "loss": 0.0091,
+      "step": 176358
+    },
+    {
+      "epoch": 15.45,
+      "learning_rate": 0.0005388557914152222,
+      "loss": 0.0075,
+      "step": 178087
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 0.0005332999145249709,
+      "loss": 0.0075,
+      "step": 179816
+    },
+    {
+      "epoch": 15.75,
+      "learning_rate": 0.0005277440376347196,
+      "loss": 0.0075,
+      "step": 181545
+    },
+    {
+      "epoch": 15.9,
+      "learning_rate": 0.0005221881607444683,
+      "loss": 0.0085,
+      "step": 183274
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.047154366970062256,
+      "eval_max_distance": 34,
+      "eval_mean_distance": 0,
+      "eval_runtime": 23.554,
+      "eval_samples_per_second": 42.456,
+      "eval_steps_per_second": 2.123,
+      "step": 184416
+    },
+    {
+      "epoch": 16.05,
+      "learning_rate": 0.0005166322838542169,
+      "loss": 0.0169,
+      "step": 185003
+    },
+    {
+      "epoch": 16.2,
+      "learning_rate": 0.0005110764069639655,
+      "loss": 0.0104,
+      "step": 186732
+    },
+    {
+      "epoch": 16.35,
+      "learning_rate": 0.0005055205300737143,
+      "loss": 0.0072,
+      "step": 188461
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 0.0004999646531834628,
+      "loss": 0.0068,
+      "step": 190190
+    },
+    {
+      "epoch": 16.65,
+      "learning_rate": 0.0004944087762932115,
+      "loss": 0.0064,
+      "step": 191919
+    },
+    {
+      "epoch": 16.8,
+      "learning_rate": 0.0004888528994029601,
+      "loss": 0.0068,
+      "step": 193648
+    },
+    {
+      "epoch": 16.95,
+      "learning_rate": 0.0004832970225127088,
+      "loss": 0.0075,
+      "step": 195377
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.04200902581214905,
+      "eval_max_distance": 28,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.1607,
+      "eval_samples_per_second": 45.125,
+      "eval_steps_per_second": 2.256,
+      "step": 195942
+    },
+    {
+      "epoch": 17.1,
+      "learning_rate": 0.00047774114562245746,
+      "loss": 0.0162,
+      "step": 197106
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 0.00047218526873220605,
+      "loss": 0.0077,
+      "step": 198835
+    },
+    {
+      "epoch": 17.4,
+      "learning_rate": 0.00046662939184195475,
+      "loss": 0.0063,
+      "step": 200564
+    },
+    {
+      "epoch": 17.55,
+      "learning_rate": 0.0004610735149517034,
+      "loss": 0.0058,
+      "step": 202293
+    },
+    {
+      "epoch": 17.7,
+      "learning_rate": 0.0004555176380614521,
+      "loss": 0.0057,
+      "step": 204022
+    },
+    {
+      "epoch": 17.85,
+      "learning_rate": 0.0004499617611712007,
+      "loss": 0.0059,
+      "step": 205751
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.04149915650486946,
+      "eval_max_distance": 32,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.9895,
+      "eval_samples_per_second": 43.498,
+      "eval_steps_per_second": 2.175,
+      "step": 207468
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 0.00044440588428094934,
+      "loss": 0.0082,
+      "step": 207480
+    },
+    {
+      "epoch": 18.15,
+      "learning_rate": 0.00043885000739069804,
+      "loss": 0.0133,
+      "step": 209209
+    },
+    {
+      "epoch": 18.3,
+      "learning_rate": 0.00043329413050044663,
+      "loss": 0.0063,
+      "step": 210938
+    },
+    {
+      "epoch": 18.45,
+      "learning_rate": 0.0004277382536101953,
+      "loss": 0.0051,
+      "step": 212667
+    },
+    {
+      "epoch": 18.6,
+      "learning_rate": 0.000422182376719944,
+      "loss": 0.0051,
+      "step": 214396
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 0.00041662649982969263,
+      "loss": 0.0051,
+      "step": 216125
+    },
+    {
+      "epoch": 18.9,
+      "learning_rate": 0.0004110706229394413,
+      "loss": 0.0054,
+      "step": 217854
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.0405677855014801,
+      "eval_max_distance": 28,
+      "eval_mean_distance": 0,
+      "eval_runtime": 21.777,
+      "eval_samples_per_second": 45.92,
+      "eval_steps_per_second": 2.296,
+      "step": 218994
+    },
+    {
+      "epoch": 19.05,
+      "learning_rate": 0.0004055147460491899,
+      "loss": 0.0117,
+      "step": 219583
+    },
+    {
+      "epoch": 19.2,
+      "learning_rate": 0.00039995886915893857,
+      "loss": 0.0075,
+      "step": 221312
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 0.00039440299226868727,
+      "loss": 0.0051,
+      "step": 223041
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 0.00038884711537843586,
+      "loss": 0.0046,
+      "step": 224770
+    },
+    {
+      "epoch": 19.65,
+      "learning_rate": 0.0003832912384881845,
+      "loss": 0.0043,
+      "step": 226499
+    },
+    {
+      "epoch": 19.8,
+      "learning_rate": 0.0003777353615979332,
+      "loss": 0.0044,
+      "step": 228228
+    },
+    {
+      "epoch": 19.95,
+      "learning_rate": 0.0003721794847076818,
+      "loss": 0.0046,
+      "step": 229957
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.03926468640565872,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 23.1294,
+      "eval_samples_per_second": 43.235,
+      "eval_steps_per_second": 2.162,
+      "step": 230520
+    },
+    {
+      "epoch": 20.1,
+      "learning_rate": 0.0003666236078174305,
+      "loss": 0.0118,
+      "step": 231686
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 0.00036106773092717915,
+      "loss": 0.0056,
+      "step": 233415
+    },
+    {
+      "epoch": 20.4,
+      "learning_rate": 0.0003555118540369278,
+      "loss": 0.0043,
+      "step": 235144
+    },
+    {
+      "epoch": 20.55,
+      "learning_rate": 0.00034995597714667645,
+      "loss": 0.0039,
+      "step": 236873
+    },
+    {
+      "epoch": 20.7,
+      "learning_rate": 0.0003444001002564251,
+      "loss": 0.0037,
+      "step": 238602
+    },
+    {
+      "epoch": 20.85,
+      "learning_rate": 0.00033884422336617374,
+      "loss": 0.004,
+      "step": 240331
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.04168349876999855,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.786,
+      "eval_samples_per_second": 43.887,
+      "eval_steps_per_second": 2.194,
+      "step": 242046
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 0.0003332883464759224,
+      "loss": 0.0053,
+      "step": 242060
+    },
+    {
+      "epoch": 21.15,
+      "learning_rate": 0.00032773246958567103,
+      "loss": 0.0097,
+      "step": 243789
+    },
+    {
+      "epoch": 21.3,
+      "learning_rate": 0.00032217659269541973,
+      "loss": 0.0044,
+      "step": 245518
+    },
+    {
+      "epoch": 21.45,
+      "learning_rate": 0.0003166207158051684,
+      "loss": 0.0036,
+      "step": 247247
+    },
+    {
+      "epoch": 21.6,
+      "learning_rate": 0.000311064838914917,
+      "loss": 0.0031,
+      "step": 248976
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0003055089620246657,
+      "loss": 0.0031,
+      "step": 250705
+    },
+    {
+      "epoch": 21.9,
+      "learning_rate": 0.0002999530851344143,
+      "loss": 0.0034,
+      "step": 252434
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.040287140756845474,
+      "eval_max_distance": 18,
+      "eval_mean_distance": 0,
+      "eval_runtime": 21.6664,
+      "eval_samples_per_second": 46.155,
+      "eval_steps_per_second": 2.308,
+      "step": 253572
+    },
+    {
+      "epoch": 22.05,
+      "learning_rate": 0.0002943972082441629,
+      "loss": 0.0082,
+      "step": 254163
+    },
+    {
+      "epoch": 22.2,
+      "learning_rate": 0.0002888413313539116,
+      "loss": 0.0053,
+      "step": 255892
+    },
+    {
+      "epoch": 22.35,
+      "learning_rate": 0.00028328545446366026,
+      "loss": 0.0034,
+      "step": 257621
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 0.00027772957757340896,
+      "loss": 0.0031,
+      "step": 259350
+    },
+    {
+      "epoch": 22.65,
+      "learning_rate": 0.00027217370068315756,
+      "loss": 0.0029,
+      "step": 261079
+    },
+    {
+      "epoch": 22.8,
+      "learning_rate": 0.0002666178237929062,
+      "loss": 0.0027,
+      "step": 262808
+    },
+    {
+      "epoch": 22.95,
+      "learning_rate": 0.0002610619469026549,
+      "loss": 0.0029,
+      "step": 264537
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.04222797229886055,
+      "eval_max_distance": 21,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.874,
+      "eval_samples_per_second": 43.718,
+      "eval_steps_per_second": 2.186,
+      "step": 265098
+    },
+    {
+      "epoch": 23.1,
+      "learning_rate": 0.0002555060700124035,
+      "loss": 0.0081,
+      "step": 266266
+    },
+    {
+      "epoch": 23.25,
+      "learning_rate": 0.00024995019312215214,
+      "loss": 0.0038,
+      "step": 267995
+    },
+    {
+      "epoch": 23.4,
+      "learning_rate": 0.00024439431623190085,
+      "loss": 0.0028,
+      "step": 269724
+    },
+    {
+      "epoch": 23.55,
+      "learning_rate": 0.00023883843934164947,
+      "loss": 0.0025,
+      "step": 271453
+    },
+    {
+      "epoch": 23.7,
+      "learning_rate": 0.00023328256245139814,
+      "loss": 0.0026,
+      "step": 273182
+    },
+    {
+      "epoch": 23.85,
+      "learning_rate": 0.0002277266855611468,
+      "loss": 0.0024,
+      "step": 274911
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.04101773351430893,
+      "eval_max_distance": 21,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.8008,
+      "eval_samples_per_second": 43.858,
+      "eval_steps_per_second": 2.193,
+      "step": 276624
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 0.00022217080867089543,
+      "loss": 0.0033,
+      "step": 276640
+    },
+    {
+      "epoch": 24.15,
+      "learning_rate": 0.00021661493178064408,
+      "loss": 0.0069,
+      "step": 278369
+    },
+    {
+      "epoch": 24.3,
+      "learning_rate": 0.00021105905489039273,
+      "loss": 0.0029,
+      "step": 280098
+    },
+    {
+      "epoch": 24.45,
+      "learning_rate": 0.0002055031780001414,
+      "loss": 0.0024,
+      "step": 281827
+    },
+    {
+      "epoch": 24.6,
+      "learning_rate": 0.00019994730110989005,
+      "loss": 0.0021,
+      "step": 283556
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 0.0001943914242196387,
+      "loss": 0.002,
+      "step": 285285
+    },
+    {
+      "epoch": 24.9,
+      "learning_rate": 0.00018883554732938734,
+      "loss": 0.002,
+      "step": 287014
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.043479613959789276,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 21.481,
+      "eval_samples_per_second": 46.553,
+      "eval_steps_per_second": 2.328,
+      "step": 288150
+    },
+    {
+      "epoch": 25.05,
+      "learning_rate": 0.000183279670439136,
+      "loss": 0.0055,
+      "step": 288743
+    },
+    {
+      "epoch": 25.2,
+      "learning_rate": 0.00017772379354888466,
+      "loss": 0.0038,
+      "step": 290472
+    },
+    {
+      "epoch": 25.35,
+      "learning_rate": 0.00017216791665863328,
+      "loss": 0.0023,
+      "step": 292201
+    },
+    {
+      "epoch": 25.5,
+      "learning_rate": 0.00016661203976838196,
+      "loss": 0.002,
+      "step": 293930
+    },
+    {
+      "epoch": 25.65,
+      "learning_rate": 0.0001610561628781306,
+      "loss": 0.0017,
+      "step": 295659
+    },
+    {
+      "epoch": 25.8,
+      "learning_rate": 0.00015550028598787928,
+      "loss": 0.0018,
+      "step": 297388
+    },
+    {
+      "epoch": 25.95,
+      "learning_rate": 0.0001499444090976279,
+      "loss": 0.0016,
+      "step": 299117
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.04517431557178497,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.7192,
+      "eval_samples_per_second": 44.016,
+      "eval_steps_per_second": 2.201,
+      "step": 299676
+    },
+    {
+      "epoch": 26.1,
+      "learning_rate": 0.00014438853220737654,
+      "loss": 0.0054,
+      "step": 300846
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 0.00013883265531712522,
+      "loss": 0.0026,
+      "step": 302575
+    },
+    {
+      "epoch": 26.4,
+      "learning_rate": 0.00013327677842687387,
+      "loss": 0.0018,
+      "step": 304304
+    },
+    {
+      "epoch": 26.55,
+      "learning_rate": 0.0001277209015366225,
+      "loss": 0.0016,
+      "step": 306033
+    },
+    {
+      "epoch": 26.7,
+      "learning_rate": 0.00012216502464637116,
+      "loss": 0.0015,
+      "step": 307762
+    },
+    {
+      "epoch": 26.85,
+      "learning_rate": 0.00011660914775611982,
+      "loss": 0.0013,
+      "step": 309491
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.04144546017050743,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.686,
+      "eval_samples_per_second": 44.08,
+      "eval_steps_per_second": 2.204,
+      "step": 311202
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 0.00011105327086586847,
+      "loss": 0.0021,
+      "step": 311220
+    },
+    {
+      "epoch": 27.15,
+      "learning_rate": 0.00010549739397561713,
+      "loss": 0.0046,
+      "step": 312949
+    },
+    {
+      "epoch": 27.3,
+      "learning_rate": 9.994151708536577e-05,
+      "loss": 0.002,
+      "step": 314678
+    },
+    {
+      "epoch": 27.45,
+      "learning_rate": 9.438564019511443e-05,
+      "loss": 0.0016,
+      "step": 316407
+    },
+    {
+      "epoch": 27.6,
+      "learning_rate": 8.882976330486308e-05,
+      "loss": 0.0013,
+      "step": 318136
+    },
+    {
+      "epoch": 27.75,
+      "learning_rate": 8.327388641461173e-05,
+      "loss": 0.0013,
+      "step": 319865
+    },
+    {
+      "epoch": 27.9,
+      "learning_rate": 7.771800952436038e-05,
+      "loss": 0.0012,
+      "step": 321594
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.04387975484132767,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 0,
+      "eval_runtime": 21.586,
+      "eval_samples_per_second": 46.326,
+      "eval_steps_per_second": 2.316,
+      "step": 322728
+    },
+    {
+      "epoch": 28.05,
+      "learning_rate": 7.216213263410904e-05,
+      "loss": 0.0037,
+      "step": 323323
+    },
+    {
+      "epoch": 28.2,
+      "learning_rate": 6.660625574385768e-05,
+      "loss": 0.0027,
+      "step": 325052
+    },
+    {
+      "epoch": 28.35,
+      "learning_rate": 6.105037885360634e-05,
+      "loss": 0.0016,
+      "step": 326781
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 5.5494501963355e-05,
+      "loss": 0.0013,
+      "step": 328510
+    },
+    {
+      "epoch": 28.65,
+      "learning_rate": 4.9938625073103644e-05,
+      "loss": 0.0011,
+      "step": 330239
+    },
+    {
+      "epoch": 28.8,
+      "learning_rate": 4.43827481828523e-05,
+      "loss": 0.001,
+      "step": 331968
+    },
+    {
+      "epoch": 28.95,
+      "learning_rate": 3.882687129260095e-05,
+      "loss": 0.001,
+      "step": 333697
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.044395141303539276,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 22.6289,
+      "eval_samples_per_second": 44.191,
+      "eval_steps_per_second": 2.21,
+      "step": 334254
+    },
+    {
+      "epoch": 29.1,
+      "learning_rate": 3.32709944023496e-05,
+      "loss": 0.0039,
+      "step": 335426
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 2.771511751209825e-05,
+      "loss": 0.0017,
+      "step": 337155
+    },
+    {
+      "epoch": 29.4,
+      "learning_rate": 2.2159240621846906e-05,
+      "loss": 0.0012,
+      "step": 338884
+    },
+    {
+      "epoch": 29.55,
+      "learning_rate": 1.6603363731595556e-05,
+      "loss": 0.0011,
+      "step": 340613
+    },
+    {
+      "epoch": 29.7,
+      "learning_rate": 1.1047486841344207e-05,
+      "loss": 0.001,
+      "step": 342342
+    },
+    {
+      "epoch": 29.85,
+      "learning_rate": 0.0004477394104151002,
+      "loss": 0.0026,
+      "step": 344071
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.042660146951675415,
+      "eval_max_distance": 19,
+      "eval_mean_distance": 0,
+      "eval_runtime": 48.9711,
+      "eval_samples_per_second": 20.42,
+      "eval_steps_per_second": 1.021,
+      "step": 345780
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 0.00044440588428094934,
+      "loss": 0.0045,
+      "step": 345800
+    },
+    {
+      "epoch": 30.15,
+      "learning_rate": 0.00044107235814679855,
+      "loss": 0.0068,
+      "step": 347529
+    },
+    {
+      "epoch": 30.3,
+      "learning_rate": 0.00043773883201264776,
+      "loss": 0.0036,
+      "step": 349258
+    },
+    {
+      "epoch": 30.45,
+      "learning_rate": 0.0004344053058784969,
+      "loss": 0.0032,
+      "step": 350987
+    },
+    {
+      "epoch": 30.6,
+      "learning_rate": 0.0004310717797443461,
+      "loss": 0.0033,
+      "step": 352716
+    },
+    {
+      "epoch": 30.75,
+      "learning_rate": 0.0004277382536101953,
+      "loss": 0.0034,
+      "step": 354445
+    },
+    {
+      "epoch": 30.9,
+      "learning_rate": 0.00042440472747604454,
+      "loss": 0.004,
+      "step": 356174
+    },
+    {
+      "epoch": 23.29,
+      "learning_rate": 0.000593547500777279,
+      "loss": 0.0057,
+      "step": 357903
+    },
+    {
+      "epoch": 23.4,
+      "learning_rate": 0.0005910471934809801,
+      "loss": 0.0053,
+      "step": 359632
+    },
+    {
+      "epoch": 23.52,
+      "learning_rate": 0.0005885468861846814,
+      "loss": 0.0055,
+      "step": 361361
+    },
+    {
+      "epoch": 23.63,
+      "learning_rate": 0.0005860465788883828,
+      "loss": 0.0056,
+      "step": 363090
+    },
+    {
+      "epoch": 23.74,
+      "learning_rate": 0.0005835462715920841,
+      "loss": 0.006,
+      "step": 364819
+    },
+    {
+      "epoch": 23.85,
+      "learning_rate": 0.0005810459642957853,
+      "loss": 0.0064,
+      "step": 366548
+    },
+    {
+      "epoch": 23.97,
+      "learning_rate": 0.0005785456569994867,
+      "loss": 0.0077,
+      "step": 368277
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.049542564898729324,
+      "eval_max_distance": 27,
+      "eval_mean_distance": 0,
+      "eval_runtime": 72.4399,
+      "eval_samples_per_second": 13.805,
+      "eval_steps_per_second": 0.925,
+      "step": 368808
+    },
+    {
+      "epoch": 24.08,
+      "learning_rate": 0.0005760453497031879,
+      "loss": 0.0158,
+      "step": 370006
+    },
+    {
+      "epoch": 24.19,
+      "learning_rate": 0.0005735450424068892,
+      "loss": 0.0082,
+      "step": 371735
+    },
+    {
+      "epoch": 24.3,
+      "learning_rate": 0.0005710447351105905,
+      "loss": 0.0057,
+      "step": 373464
+    },
+    {
+      "epoch": 24.42,
+      "learning_rate": 0.0005685444278142918,
+      "loss": 0.0059,
+      "step": 375193
+    },
+    {
+      "epoch": 24.53,
+      "learning_rate": 0.0005660441205179932,
+      "loss": 0.0055,
+      "step": 376922
+    },
+    {
+      "epoch": 24.64,
+      "learning_rate": 0.0005635438132216944,
+      "loss": 0.0062,
+      "step": 378651
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 0.0005610435059253957,
+      "loss": 0.0059,
+      "step": 380380
+    },
+    {
+      "epoch": 24.87,
+      "learning_rate": 0.000558543198629097,
+      "loss": 0.0062,
+      "step": 382109
+    },
+    {
+      "epoch": 24.98,
+      "learning_rate": 0.0005560428913327982,
+      "loss": 0.0083,
+      "step": 383838
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.044624801725149155,
+      "eval_max_distance": 37,
+      "eval_mean_distance": 0,
+      "eval_runtime": 35.859,
+      "eval_samples_per_second": 27.887,
+      "eval_steps_per_second": 1.868,
+      "step": 384175
+    },
+    {
+      "epoch": 25.09,
+      "learning_rate": 0.0005535425840364996,
+      "loss": 0.0154,
+      "step": 385567
+    },
+    {
+      "epoch": 25.2,
+      "learning_rate": 0.0005510422767402009,
+      "loss": 0.0075,
+      "step": 387296
+    },
+    {
+      "epoch": 25.32,
+      "learning_rate": 0.0005485419694439023,
+      "loss": 0.006,
+      "step": 389025
+    },
+    {
+      "epoch": 25.43,
+      "learning_rate": 0.0005460416621476034,
+      "loss": 0.0057,
+      "step": 390754
+    },
+    {
+      "epoch": 25.54,
+      "learning_rate": 0.0005435413548513047,
+      "loss": 0.0057,
+      "step": 392483
+    },
+    {
+      "epoch": 25.65,
+      "learning_rate": 0.0005410410475550061,
+      "loss": 0.0056,
+      "step": 394212
+    },
+    {
+      "epoch": 25.77,
+      "learning_rate": 0.0005385407402587073,
+      "loss": 0.0059,
+      "step": 395941
+    },
+    {
+      "epoch": 25.88,
+      "learning_rate": 0.0005360404329624087,
+      "loss": 0.0067,
+      "step": 397670
+    },
+    {
+      "epoch": 25.99,
+      "learning_rate": 0.0005335401256661099,
+      "loss": 0.0078,
+      "step": 399399
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.048115409910678864,
+      "eval_max_distance": 47,
+      "eval_mean_distance": 0,
+      "eval_runtime": 35.8872,
+      "eval_samples_per_second": 27.865,
+      "eval_steps_per_second": 1.867,
+      "step": 399542
+    },
+    {
+      "epoch": 26.1,
+      "learning_rate": 0.0005310398183698112,
+      "loss": 0.0151,
+      "step": 401128
+    },
+    {
+      "epoch": 26.22,
+      "learning_rate": 0.0005285395110735125,
+      "loss": 0.0068,
+      "step": 402857
+    },
+    {
+      "epoch": 26.33,
+      "learning_rate": 0.0005260392037772138,
+      "loss": 0.0055,
+      "step": 404586
+    },
+    {
+      "epoch": 26.44,
+      "learning_rate": 0.0005235388964809152,
+      "loss": 0.0052,
+      "step": 406315
+    },
+    {
+      "epoch": 26.55,
+      "learning_rate": 0.0005210385891846165,
+      "loss": 0.0054,
+      "step": 408044
+    },
+    {
+      "epoch": 26.67,
+      "learning_rate": 0.0005185382818883176,
+      "loss": 0.0053,
+      "step": 409773
+    },
+    {
+      "epoch": 26.78,
+      "learning_rate": 0.000516037974592019,
+      "loss": 0.0052,
+      "step": 411502
+    },
+    {
+      "epoch": 26.89,
+      "learning_rate": 0.0005135376672957203,
+      "loss": 0.006,
+      "step": 413231
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.042408570647239685,
+      "eval_max_distance": 37,
+      "eval_mean_distance": 0,
+      "eval_runtime": 14.3824,
+      "eval_samples_per_second": 69.529,
+      "eval_steps_per_second": 4.658,
+      "step": 414909
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 0.0005110373599994215,
+      "loss": 0.0095,
+      "step": 414960
+    },
+    {
+      "epoch": 27.12,
+      "learning_rate": 0.0005085370527031229,
+      "loss": 0.0115,
+      "step": 416689
+    },
+    {
+      "epoch": 27.23,
+      "learning_rate": 0.0005060367454068242,
+      "loss": 0.006,
+      "step": 418418
+    },
+    {
+      "epoch": 27.34,
+      "learning_rate": 0.0005035364381105254,
+      "loss": 0.0051,
+      "step": 420147
+    },
+    {
+      "epoch": 27.45,
+      "learning_rate": 0.0005010361308142267,
+      "loss": 0.0047,
+      "step": 421876
+    },
+    {
+      "epoch": 27.57,
+      "learning_rate": 0.000498535823517928,
+      "loss": 0.0047,
+      "step": 423605
+    },
+    {
+      "epoch": 27.68,
+      "learning_rate": 0.0004960355162216294,
+      "loss": 0.0054,
+      "step": 425334
+    },
+    {
+      "epoch": 27.79,
+      "learning_rate": 0.0004935352089253306,
+      "loss": 0.0052,
+      "step": 427063
+    },
+    {
+      "epoch": 27.9,
+      "learning_rate": 0.000491034901629032,
+      "loss": 0.0056,
+      "step": 428792
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.04393070191144943,
+      "eval_max_distance": 22,
+      "eval_mean_distance": 0,
+      "eval_runtime": 26.5483,
+      "eval_samples_per_second": 37.667,
+      "eval_steps_per_second": 2.524,
+      "step": 430276
+    },
+    {
+      "epoch": 28.02,
+      "learning_rate": 0.0004885345943327332,
+      "loss": 0.0105,
+      "step": 430521
+    },
+    {
+      "epoch": 28.13,
+      "learning_rate": 0.0004860342870364345,
+      "loss": 0.0093,
+      "step": 432250
+    },
+    {
+      "epoch": 28.24,
+      "learning_rate": 0.0004835339797401358,
+      "loss": 0.0055,
+      "step": 433979
+    },
+    {
+      "epoch": 28.35,
+      "learning_rate": 0.0004810336724438371,
+      "loss": 0.0049,
+      "step": 435708
+    },
+    {
+      "epoch": 28.47,
+      "learning_rate": 0.00047853336514753835,
+      "loss": 0.0044,
+      "step": 437437
+    },
+    {
+      "epoch": 28.58,
+      "learning_rate": 0.0004760330578512397,
+      "loss": 0.0044,
+      "step": 439166
+    },
+    {
+      "epoch": 28.69,
+      "learning_rate": 0.000473532750554941,
+      "loss": 0.0047,
+      "step": 440895
+    },
+    {
+      "epoch": 28.8,
+      "learning_rate": 0.0004710324432586423,
+      "loss": 0.0047,
+      "step": 442624
+    },
+    {
+      "epoch": 28.92,
+      "learning_rate": 0.00046853213596234356,
+      "loss": 0.0054,
+      "step": 444353
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.04814203828573227,
+      "eval_max_distance": 23,
+      "eval_mean_distance": 0,
+      "eval_runtime": 35.122,
+      "eval_samples_per_second": 28.472,
+      "eval_steps_per_second": 1.908,
+      "step": 445643
+    },
+    {
+      "epoch": 29.03,
+      "learning_rate": 0.00046603182866604485,
+      "loss": 0.0103,
+      "step": 446082
+    },
+    {
+      "epoch": 29.14,
+      "learning_rate": 0.00046353152136974614,
+      "loss": 0.0076,
+      "step": 447811
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 0.00046103121407344743,
+      "loss": 0.005,
+      "step": 449540
+    },
+    {
+      "epoch": 29.37,
+      "learning_rate": 0.00045853090677714877,
+      "loss": 0.0043,
+      "step": 451269
+    },
+    {
+      "epoch": 29.48,
+      "learning_rate": 0.00045603059948085,
+      "loss": 0.0043,
+      "step": 452998
+    },
+    {
+      "epoch": 29.59,
+      "learning_rate": 0.00045353029218455135,
+      "loss": 0.004,
+      "step": 454727
+    },
+    {
+      "epoch": 29.7,
+      "learning_rate": 0.0004510299848882526,
+      "loss": 0.0042,
+      "step": 456456
+    },
+    {
+      "epoch": 29.82,
+      "learning_rate": 6.808721912515757e-06,
+      "loss": 0.0039,
+      "step": 458185
+    },
+    {
+      "epoch": 29.93,
+      "learning_rate": 2.641543085351246e-06,
+      "loss": 0.004,
+      "step": 459914
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.04417673125863075,
+      "eval_max_distance": 25,
+      "eval_mean_distance": 0,
+      "eval_runtime": 68.6071,
+      "eval_samples_per_second": 14.576,
+      "eval_steps_per_second": 0.977,
+      "step": 461010
+    },
+    {
+      "epoch": 30.0,
+      "step": 461010,
+      "total_flos": 1.1619438964958822e+17,
+      "train_loss": 3.931375028864634e-05,
+      "train_runtime": 411.3459,
+      "train_samples_per_second": 16810.814,
+      "train_steps_per_second": 1120.736
+    }
+  ],
+  "logging_steps": 1729,
+  "max_steps": 461010,
+  "num_train_epochs": 30,
+  "save_steps": 3458,
+  "total_flos": 1.1619438964958822e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d22aeb992bd9320e28438aa9818e67e4f3f8675fde0b30b307f79b248f69c20
+size 4091