alexue4
/

text-normalization-ru-new

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0442
 - Mean Distance: 0
-- Max Distance: 25
 ## Model description
@@ -37,55 +37,68 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.001
-- train_batch_size: 15
-- eval_batch_size: 15
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 30
 ### Training results
 | Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
 |:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
-| 0.199         | 1.0   | 11526  | 0.8173          | 167          | 17            |
-| 0.1286        | 2.0   | 23052  | 0.5453          | 158          | 14            |
-| 0.0891        | 3.0   | 34578  | 0.3629          | 122          | 10            |
-| 0.0711        | 4.0   | 46104  | 0.4011          | 114          | 12            |
-| 0.0566        | 5.0   | 57630  | 0.2997          | 100          | 7             |
-| 0.0402        | 6.0   | 69156  | 0.1552          | 75           | 4             |
-| 0.0348        | 7.0   | 80682  | 0.1513          | 79           | 3             |
-| 0.0302        | 8.0   | 92208  | 0.1452          | 76           | 3             |
-| 0.0223        | 9.0   | 103734 | 0.0866          | 76           | 1             |
-| 0.0202        | 10.0  | 115260 | 0.1091          | 71           | 2             |
-| 0.0175        | 11.0  | 126786 | 0.0655          | 66           | 1             |
-| 0.014         | 12.0  | 138312 | 0.0474          | 44           | 0             |
-| 0.0122        | 13.0  | 149838 | 0.0515          | 42           | 0             |
-| 0.0117        | 14.0  | 161364 | 0.0479          | 30           | 0             |
-| 0.0093        | 15.0  | 172890 | 0.0565          | 56           | 0             |
-| 0.0085        | 16.0  | 184416 | 0.0472          | 34           | 0             |
-| 0.0075        | 17.0  | 195942 | 0.0420          | 28           | 0             |
-| 0.0059        | 18.0  | 207468 | 0.0415          | 32           | 0             |
-| 0.0054        | 19.0  | 218994 | 0.0406          | 28           | 0             |
-| 0.0046        | 20.0  | 230520 | 0.0393          | 24           | 0             |
-| 0.004         | 21.0  | 242046 | 0.0417          | 24           | 0             |
-| 0.0034        | 22.0  | 253572 | 0.0403          | 18           | 0             |
-| 0.0029        | 23.0  | 265098 | 0.0422          | 21           | 0             |
-| 0.0024        | 24.0  | 276624 | 0.0410          | 21           | 0             |
-| 0.002         | 25.0  | 288150 | 0.0435          | 15           | 0             |
-| 0.0016        | 26.0  | 299676 | 0.0452          | 15           | 0             |
-| 0.0013        | 27.0  | 311202 | 0.0414          | 14           | 0             |
-| 0.0012        | 28.0  | 322728 | 0.0439          | 14           | 0             |
-| 0.001         | 29.0  | 334254 | 0.0444          | 15           | 0             |
-| 0.0026        | 30.0  | 345780 | 0.0427          | 19           | 0             |
-| 0.0077        | 24.0  | 368808 | 0.0495          | 27           | 0             |
-| 0.0083        | 25.0  | 384175 | 0.0446          | 37           | 0             |
-| 0.0078        | 26.0  | 399542 | 0.0481          | 47           | 0             |
-| 0.006         | 27.0  | 414909 | 0.0424          | 37           | 0             |
-| 0.0056        | 28.0  | 430276 | 0.0439          | 22           | 0             |
-| 0.0054        | 29.0  | 445643 | 0.0481          | 23           | 0             |
-| 0.004         | 30.0  | 461010 | 0.0442          | 0            | 25            |
 ### Framework versions

 This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0664
 - Mean Distance: 0
+- Max Distance: 18
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.001
+- train_batch_size: 20
+- eval_batch_size: 20
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 50
 ### Training results
 | Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
 |:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
+| 0.2198        | 1.0   | 15301  | 0.7378          | 206          | 16            |
+| 0.1431        | 2.0   | 23102  | 0.9838          | 183          | 22            |
+| 0.1014        | 3.0   | 34653  | 0.5183          | 122          | 13            |
+| 0.0818        | 4.0   | 46204  | 0.3151          | 94           | 7             |
+| 0.07          | 5.0   | 57755  | 0.4898          | 100          | 12            |
+| 0.0555        | 6.0   | 69306  | 0.3159          | 99           | 8             |
+| 0.0442        | 7.0   | 80857  | 0.2628          | 91           | 6             |
+| 0.0358        | 8.0   | 92408  | 0.2342          | 69           | 5             |
+| 0.0299        | 9.0   | 103959 | 0.1100          | 63           | 2             |
+| 0.0252        | 10.0  | 115510 | 0.0934          | 51           | 1             |
+| 0.022         | 11.0  | 127061 | 0.1330          | 53           | 3             |
+| 0.019         | 12.0  | 138612 | 0.1217          | 51           | 2             |
+| 0.0163        | 13.0  | 150163 | 0.0772          | 37           | 1             |
+| 0.0145        | 14.0  | 161714 | 0.1268          | 65           | 2             |
+| 0.0131        | 15.0  | 173265 | 0.0883          | 34           | 1             |
+| 0.0115        | 16.0  | 184816 | 0.0709          | 30           | 1             |
+| 0.0104        | 17.0  | 196367 | 0.0669          | 38           | 1             |
+| 0.0094        | 18.0  | 207918 | 0.0667          | 29           | 0             |
+| 0.0086        | 19.0  | 219469 | 0.0641          | 27           | 0             |
+| 0.0078        | 20.0  | 231020 | 0.0651          | 0            | 22            |
+| 0.007         | 21.0  | 242571 | 0.0651          | 0            | 33            |
+| 0.0064        | 22.0  | 254122 | 0.0605          | 0            | 31            |
+| 0.0059        | 23.0  | 265673 | 0.0561          | 0            | 25            |
+| 0.0053        | 24.0  | 277224 | 0.0567          | 0            | 36            |
+| 0.0049        | 25.0  | 288775 | 0.0557          | 0            | 25            |
+| 0.0045        | 26.0  | 300326 | 0.0523          | 0            | 26            |
+| 0.0041        | 27.0  | 311877 | 0.0577          | 0            | 25            |
+| 0.0038        | 28.0  | 323428 | 0.0577          | 0            | 32            |
+| 0.0033        | 29.0  | 334979 | 0.0575          | 0            | 20            |
+| 0.0031        | 30.0  | 346530 | 0.0562          | 0            | 16            |
+| 0.0026        | 31.0  | 358081 | 0.0596          | 0            | 15            |
+| 0.0026        | 32.0  | 369632 | 0.0617          | 0            | 30            |
+| 0.0024        | 33.0  | 381183 | 0.0572          | 0            | 20            |
+| 0.0022        | 34.0  | 392734 | 0.0557          | 0            | 19            |
+| 0.002         | 35.0  | 404285 | 0.0612          | 0            | 17            |
+| 0.0017        | 36.0  | 415836 | 0.0576          | 0            | 14            |
+| 0.0016        | 37.0  | 427387 | 0.0606          | 0            | 16            |
+| 0.0015        | 38.0  | 438938 | 0.0570          | 0            | 24            |
+| 0.0013        | 39.0  | 450489 | 0.0594          | 0            | 24            |
+| 0.0012        | 40.0  | 462040 | 0.0603          | 0            | 24            |
+| 0.001         | 41.0  | 473591 | 0.0642          | 0            | 20            |
+| 0.0009        | 42.0  | 485142 | 0.0638          | 0            | 29            |
+| 0.0008        | 43.0  | 496693 | 0.0659          | 0            | 29            |
+| 0.0007        | 44.0  | 508244 | 0.0672          | 0            | 29            |
+| 0.0007        | 45.0  | 519795 | 0.0662          | 0            | 19            |
+| 0.0006        | 46.0  | 531346 | 0.0666          | 0            | 24            |
+| 0.0006        | 47.0  | 542897 | 0.0690          | 0            | 22            |
+| 0.0005        | 48.0  | 554448 | 0.0670          | 0            | 15            |
+| 0.0005        | 49.0  | 565999 | 0.0662          | 0            | 18            |
+| 0.0004        | 50.0  | 577550 | 0.0664          | 0            | 18            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1af9c44d78cc87dce6c9af177a92980e3657aa89417f862a6decf4575d013140
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdc958f1006ef7ccf3b2642547782a3b93fe5e10a96ecc3ad1689478196ee825
 size 258643461

trainer_state.json CHANGED Viewed

@@ -1,2000 +1,1434 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
   "eval_steps": 500,
-  "global_step": 461010,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 2.8920122621319915e-08,
-      "loss": 14.3504,
       "step": 1
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 5.000289201226213e-05,
-      "loss": 2.1001,
-      "step": 1729
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.00010000578402452426,
-      "loss": 0.3756,
-      "step": 3458
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.0001500086760367864,
-      "loss": 0.2527,
-      "step": 5187
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00020001156804904852,
-      "loss": 0.2076,
-      "step": 6916
     },
     {
       "epoch": 0.75,
-      "learning_rate": 0.00025001446006131067,
-      "loss": 0.1864,
-      "step": 8645
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0003000173520735728,
-      "loss": 0.199,
-      "step": 10374
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.8173184990882874,
-      "eval_max_distance": 167,
-      "eval_mean_distance": 17,
-      "eval_runtime": 64.0638,
-      "eval_samples_per_second": 15.609,
-      "eval_steps_per_second": 0.78,
-      "step": 11526
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0003500202440858349,
-      "loss": 0.2481,
-      "step": 12103
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 0.00040002313609809704,
-      "loss": 0.1244,
-      "step": 13832
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 0.0004500260281103592,
-      "loss": 0.1055,
-      "step": 15561
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 0.0005000289201226213,
-      "loss": 0.102,
-      "step": 17290
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0005500318121348835,
-      "loss": 0.102,
-      "step": 19019
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0006000347041471456,
-      "loss": 0.1083,
-      "step": 20748
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.0006500375961594078,
-      "loss": 0.1286,
-      "step": 22477
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.5452634692192078,
-      "eval_max_distance": 158,
-      "eval_mean_distance": 14,
-      "eval_runtime": 30.4268,
-      "eval_samples_per_second": 32.866,
-      "eval_steps_per_second": 1.643,
-      "step": 23052
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 0.0007000404881716698,
-      "loss": 0.1449,
-      "step": 24206
     },
     {
-      "epoch": 2.25,
-      "learning_rate": 0.000750043380183932,
-      "loss": 0.0747,
-      "step": 25935
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 0.0008000462721961941,
-      "loss": 0.0744,
-      "step": 27664
     },
     {
-      "epoch": 2.55,
-      "learning_rate": 0.0008500491642084563,
-      "loss": 0.0742,
-      "step": 29393
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0009000520562207184,
-      "loss": 0.0792,
-      "step": 31122
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0009500549482329805,
-      "loss": 0.0891,
-      "step": 32851
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.3629104495048523,
       "eval_max_distance": 122,
-      "eval_mean_distance": 10,
-      "eval_runtime": 35.1149,
-      "eval_samples_per_second": 28.478,
-      "eval_steps_per_second": 1.424,
-      "step": 34578
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 0.0009999935733060843,
-      "loss": 0.1079,
-      "step": 34580
-    },
-    {
-      "epoch": 3.15,
-      "learning_rate": 0.000994437696415833,
-      "loss": 0.0962,
-      "step": 36309
     },
     {
-      "epoch": 3.3,
-      "learning_rate": 0.0009888818195255813,
-      "loss": 0.059,
-      "step": 38038
     },
     {
-      "epoch": 3.45,
-      "learning_rate": 0.0009833259426353302,
-      "loss": 0.0576,
-      "step": 39767
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0009777700657450789,
-      "loss": 0.058,
-      "step": 41496
-    },
-    {
-      "epoch": 3.75,
-      "learning_rate": 0.0009722141888548275,
-      "loss": 0.0611,
-      "step": 43225
-    },
-    {
-      "epoch": 3.9,
-      "learning_rate": 0.0009666583119645761,
-      "loss": 0.0711,
-      "step": 44954
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.4011004865169525,
-      "eval_max_distance": 114,
-      "eval_mean_distance": 12,
-      "eval_runtime": 24.9859,
-      "eval_samples_per_second": 40.022,
-      "eval_steps_per_second": 2.001,
-      "step": 46104
-    },
-    {
-      "epoch": 4.05,
-      "learning_rate": 0.0009611024350743247,
-      "loss": 0.0991,
-      "step": 46683
-    },
-    {
-      "epoch": 4.2,
-      "learning_rate": 0.0009555465581840734,
-      "loss": 0.0481,
-      "step": 48412
-    },
-    {
-      "epoch": 4.35,
-      "learning_rate": 0.0009499906812938221,
-      "loss": 0.044,
-      "step": 50141
-    },
-    {
-      "epoch": 4.5,
-      "learning_rate": 0.0009444348044035706,
-      "loss": 0.0435,
-      "step": 51870
     },
     {
-      "epoch": 4.65,
-      "learning_rate": 0.0009388789275133194,
-      "loss": 0.0454,
-      "step": 53599
     },
     {
-      "epoch": 4.8,
-      "learning_rate": 0.000933323050623068,
-      "loss": 0.0483,
-      "step": 55328
     },
     {
-      "epoch": 4.95,
-      "learning_rate": 0.0009277671737328166,
-      "loss": 0.0566,
-      "step": 57057
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.29974234104156494,
       "eval_max_distance": 100,
-      "eval_mean_distance": 7,
-      "eval_runtime": 25.609,
-      "eval_samples_per_second": 39.049,
-      "eval_steps_per_second": 1.952,
-      "step": 57630
-    },
-    {
-      "epoch": 5.1,
-      "learning_rate": 0.0009222112968425653,
-      "loss": 0.0724,
-      "step": 58786
-    },
-    {
-      "epoch": 5.25,
-      "learning_rate": 0.000916655419952314,
-      "loss": 0.0364,
-      "step": 60515
-    },
-    {
-      "epoch": 5.4,
-      "learning_rate": 0.0009110995430620625,
-      "loss": 0.035,
-      "step": 62244
-    },
-    {
-      "epoch": 5.55,
-      "learning_rate": 0.0009055436661718113,
-      "loss": 0.0353,
-      "step": 63973
     },
     {
-      "epoch": 5.7,
-      "learning_rate": 0.0008999877892815599,
-      "loss": 0.0364,
-      "step": 65702
     },
     {
-      "epoch": 5.85,
-      "learning_rate": 0.0008944319123913086,
-      "loss": 0.0402,
-      "step": 67431
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.15522713959217072,
-      "eval_max_distance": 75,
-      "eval_mean_distance": 4,
-      "eval_runtime": 24.8618,
-      "eval_samples_per_second": 40.222,
-      "eval_steps_per_second": 2.011,
-      "step": 69156
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.0008888760355010572,
-      "loss": 0.0506,
-      "step": 69160
-    },
-    {
-      "epoch": 6.15,
-      "learning_rate": 0.0008833201586108059,
-      "loss": 0.0514,
-      "step": 70889
-    },
-    {
-      "epoch": 6.3,
-      "learning_rate": 0.0008777642817205546,
-      "loss": 0.0298,
-      "step": 72618
     },
     {
-      "epoch": 6.45,
-      "learning_rate": 0.0008722084048303031,
-      "loss": 0.0287,
-      "step": 74347
     },
     {
-      "epoch": 6.6,
-      "learning_rate": 0.0008666525279400518,
-      "loss": 0.0289,
-      "step": 76076
     },
     {
-      "epoch": 6.75,
-      "learning_rate": 0.0008610966510498005,
-      "loss": 0.0303,
-      "step": 77805
-    },
-    {
-      "epoch": 6.9,
-      "learning_rate": 0.0008555407741595491,
-      "loss": 0.0348,
-      "step": 79534
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.15130603313446045,
-      "eval_max_distance": 79,
-      "eval_mean_distance": 3,
-      "eval_runtime": 25.5455,
-      "eval_samples_per_second": 39.146,
-      "eval_steps_per_second": 1.957,
-      "step": 80682
-    },
-    {
-      "epoch": 7.05,
-      "learning_rate": 0.0008499848972692977,
-      "loss": 0.0527,
-      "step": 81263
-    },
-    {
-      "epoch": 7.2,
-      "learning_rate": 0.0008444290203790465,
-      "loss": 0.0293,
-      "step": 82992
-    },
-    {
-      "epoch": 7.35,
-      "learning_rate": 0.000838873143488795,
-      "loss": 0.0247,
-      "step": 84721
-    },
-    {
-      "epoch": 7.5,
-      "learning_rate": 0.0008333172665985437,
-      "loss": 0.024,
-      "step": 86450
     },
     {
-      "epoch": 7.65,
-      "learning_rate": 0.0008277613897082924,
-      "loss": 0.0243,
-      "step": 88179
     },
     {
-      "epoch": 7.8,
-      "learning_rate": 0.000822205512818041,
-      "loss": 0.0263,
-      "step": 89908
     },
     {
       "epoch": 7.95,
-      "learning_rate": 0.0008166496359277897,
-      "loss": 0.0302,
-      "step": 91637
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.14522188901901245,
-      "eval_max_distance": 76,
-      "eval_mean_distance": 3,
-      "eval_runtime": 25.6271,
-      "eval_samples_per_second": 39.021,
-      "eval_steps_per_second": 1.951,
-      "step": 92208
-    },
-    {
-      "epoch": 8.1,
-      "learning_rate": 0.0008110937590375384,
-      "loss": 0.0445,
-      "step": 93366
-    },
-    {
-      "epoch": 8.25,
-      "learning_rate": 0.0008055378821472869,
-      "loss": 0.0229,
-      "step": 95095
     },
     {
-      "epoch": 8.4,
-      "learning_rate": 0.0007999820052570357,
-      "loss": 0.0207,
-      "step": 96824
     },
     {
-      "epoch": 8.55,
-      "learning_rate": 0.0007944261283667843,
-      "loss": 0.0203,
-      "step": 98553
     },
     {
-      "epoch": 8.7,
-      "learning_rate": 0.000788870251476533,
-      "loss": 0.021,
-      "step": 100282
-    },
-    {
-      "epoch": 8.85,
-      "learning_rate": 0.0007833143745862816,
-      "loss": 0.0223,
-      "step": 102011
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.08658243715763092,
-      "eval_max_distance": 76,
-      "eval_mean_distance": 1,
-      "eval_runtime": 23.498,
-      "eval_samples_per_second": 42.557,
-      "eval_steps_per_second": 2.128,
-      "step": 103734
     },
     {
       "epoch": 9.0,
-      "learning_rate": 0.0007777584976960303,
-      "loss": 0.0284,
-      "step": 103740
-    },
-    {
-      "epoch": 9.15,
-      "learning_rate": 0.0007722026208057789,
-      "loss": 0.034,
-      "step": 105469
-    },
-    {
-      "epoch": 9.3,
-      "learning_rate": 0.0007666467439155275,
-      "loss": 0.0193,
-      "step": 107198
-    },
-    {
-      "epoch": 9.45,
-      "learning_rate": 0.0007610908670252762,
-      "loss": 0.0175,
-      "step": 108927
-    },
-    {
-      "epoch": 9.6,
-      "learning_rate": 0.0007555349901350248,
-      "loss": 0.0172,
-      "step": 110656
-    },
-    {
-      "epoch": 9.75,
-      "learning_rate": 0.0007499791132447735,
-      "loss": 0.018,
-      "step": 112385
-    },
-    {
-      "epoch": 9.9,
-      "learning_rate": 0.0007444232363545221,
-      "loss": 0.0202,
-      "step": 114114
-    },
-    {
-      "epoch": 10.0,
-      "eval_loss": 0.10908353328704834,
-      "eval_max_distance": 71,
       "eval_mean_distance": 2,
-      "eval_runtime": 25.0909,
-      "eval_samples_per_second": 39.855,
-      "eval_steps_per_second": 1.993,
-      "step": 115260
-    },
-    {
-      "epoch": 10.05,
-      "learning_rate": 0.0007388673594642709,
-      "loss": 0.0342,
-      "step": 115843
-    },
-    {
-      "epoch": 10.2,
-      "learning_rate": 0.0007333114825740194,
-      "loss": 0.0202,
-      "step": 117572
-    },
-    {
-      "epoch": 10.35,
-      "learning_rate": 0.0007277556056837681,
-      "loss": 0.0159,
-      "step": 119301
-    },
-    {
-      "epoch": 10.5,
-      "learning_rate": 0.0007221997287935168,
-      "loss": 0.0149,
-      "step": 121030
     },
     {
-      "epoch": 10.65,
-      "learning_rate": 0.0007166438519032654,
-      "loss": 0.015,
-      "step": 122759
     },
     {
-      "epoch": 10.8,
-      "learning_rate": 0.000711087975013014,
-      "loss": 0.0155,
-      "step": 124488
     },
     {
-      "epoch": 10.95,
-      "learning_rate": 0.0007055320981227628,
-      "loss": 0.0175,
-      "step": 126217
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.06553788483142853,
-      "eval_max_distance": 66,
       "eval_mean_distance": 1,
-      "eval_runtime": 22.988,
-      "eval_samples_per_second": 43.501,
-      "eval_steps_per_second": 2.175,
-      "step": 126786
     },
     {
-      "epoch": 11.1,
-      "learning_rate": 0.0006999762212325114,
-      "loss": 0.0305,
-      "step": 127946
     },
     {
-      "epoch": 11.25,
-      "learning_rate": 0.00069442034434226,
-      "loss": 0.0157,
-      "step": 129675
     },
     {
-      "epoch": 11.4,
-      "learning_rate": 0.0006888644674520087,
-      "loss": 0.0134,
-      "step": 131404
     },
     {
-      "epoch": 11.55,
-      "learning_rate": 0.0006833085905617574,
-      "loss": 0.0124,
-      "step": 133133
     },
     {
-      "epoch": 11.7,
-      "learning_rate": 0.0006777527136715059,
-      "loss": 0.0131,
-      "step": 134862
     },
     {
-      "epoch": 11.85,
-      "learning_rate": 0.0006721968367812547,
-      "loss": 0.014,
-      "step": 136591
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.04735955968499184,
-      "eval_max_distance": 44,
-      "eval_mean_distance": 0,
-      "eval_runtime": 22.5236,
-      "eval_samples_per_second": 44.398,
-      "eval_steps_per_second": 2.22,
-      "step": 138312
     },
     {
       "epoch": 12.0,
-      "learning_rate": 0.0006666409598910033,
-      "loss": 0.0182,
-      "step": 138320
-    },
-    {
-      "epoch": 12.15,
-      "learning_rate": 0.000661085083000752,
-      "loss": 0.025,
-      "step": 140049
-    },
-    {
-      "epoch": 12.3,
-      "learning_rate": 0.0006555292061105006,
-      "loss": 0.0128,
-      "step": 141778
-    },
-    {
-      "epoch": 12.45,
-      "learning_rate": 0.0006499733292202492,
-      "loss": 0.0114,
-      "step": 143507
     },
     {
-      "epoch": 12.6,
-      "learning_rate": 0.0006444174523299979,
-      "loss": 0.011,
-      "step": 145236
     },
     {
-      "epoch": 12.75,
-      "learning_rate": 0.0006388615754397465,
-      "loss": 0.0117,
-      "step": 146965
     },
     {
-      "epoch": 12.9,
-      "learning_rate": 0.0006333056985494952,
-      "loss": 0.0122,
-      "step": 148694
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.05152251571416855,
-      "eval_max_distance": 42,
-      "eval_mean_distance": 0,
-      "eval_runtime": 23.898,
-      "eval_samples_per_second": 41.845,
-      "eval_steps_per_second": 2.092,
-      "step": 149838
-    },
-    {
-      "epoch": 13.05,
-      "learning_rate": 0.0006277498216592438,
-      "loss": 0.0241,
-      "step": 150423
-    },
-    {
-      "epoch": 13.2,
-      "learning_rate": 0.0006221939447689925,
-      "loss": 0.0148,
-      "step": 152152
-    },
-    {
-      "epoch": 13.35,
-      "learning_rate": 0.0006166380678787411,
-      "loss": 0.0106,
-      "step": 153881
-    },
-    {
-      "epoch": 13.5,
-      "learning_rate": 0.0006110821909884899,
-      "loss": 0.0096,
-      "step": 155610
     },
     {
-      "epoch": 13.65,
-      "learning_rate": 0.0006055263140982384,
-      "loss": 0.0098,
-      "step": 157339
     },
     {
-      "epoch": 13.8,
-      "learning_rate": 0.0005999704372079872,
-      "loss": 0.0104,
-      "step": 159068
     },
     {
-      "epoch": 13.95,
-      "learning_rate": 0.0005944145603177358,
-      "loss": 0.0117,
-      "step": 160797
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.047906968742609024,
-      "eval_max_distance": 30,
-      "eval_mean_distance": 0,
-      "eval_runtime": 23.3531,
-      "eval_samples_per_second": 42.821,
-      "eval_steps_per_second": 2.141,
-      "step": 161364
-    },
-    {
-      "epoch": 14.1,
-      "learning_rate": 0.0005888586834274844,
-      "loss": 0.0224,
-      "step": 162526
-    },
-    {
-      "epoch": 14.25,
-      "learning_rate": 0.0005833028065372331,
-      "loss": 0.0111,
-      "step": 164255
-    },
-    {
-      "epoch": 14.4,
-      "learning_rate": 0.0005777469296469818,
-      "loss": 0.009,
-      "step": 165984
     },
     {
-      "epoch": 14.55,
-      "learning_rate": 0.0005721910527567303,
-      "loss": 0.0086,
-      "step": 167713
     },
     {
-      "epoch": 14.7,
-      "learning_rate": 0.000566635175866479,
-      "loss": 0.0088,
-      "step": 169442
     },
     {
-      "epoch": 14.85,
-      "learning_rate": 0.0005610792989762277,
-      "loss": 0.0093,
-      "step": 171171
-    },
-    {
-      "epoch": 15.0,
-      "eval_loss": 0.05651288107037544,
-      "eval_max_distance": 56,
-      "eval_mean_distance": 0,
-      "eval_runtime": 23.6545,
-      "eval_samples_per_second": 42.275,
-      "eval_steps_per_second": 2.114,
-      "step": 172890
     },
     {
       "epoch": 15.0,
-      "learning_rate": 0.0005555234220859762,
-      "loss": 0.0124,
-      "step": 172900
-    },
-    {
-      "epoch": 15.15,
-      "learning_rate": 0.000549967545195725,
-      "loss": 0.0181,
-      "step": 174629
-    },
-    {
-      "epoch": 15.3,
-      "learning_rate": 0.0005444116683054736,
-      "loss": 0.0091,
-      "step": 176358
-    },
-    {
-      "epoch": 15.45,
-      "learning_rate": 0.0005388557914152222,
-      "loss": 0.0075,
-      "step": 178087
     },
     {
-      "epoch": 15.6,
-      "learning_rate": 0.0005332999145249709,
-      "loss": 0.0075,
-      "step": 179816
     },
     {
-      "epoch": 15.75,
-      "learning_rate": 0.0005277440376347196,
-      "loss": 0.0075,
-      "step": 181545
     },
     {
       "epoch": 15.9,
-      "learning_rate": 0.0005221881607444683,
-      "loss": 0.0085,
-      "step": 183274
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.047154366970062256,
-      "eval_max_distance": 34,
-      "eval_mean_distance": 0,
-      "eval_runtime": 23.554,
-      "eval_samples_per_second": 42.456,
-      "eval_steps_per_second": 2.123,
-      "step": 184416
-    },
-    {
-      "epoch": 16.05,
-      "learning_rate": 0.0005166322838542169,
-      "loss": 0.0169,
-      "step": 185003
-    },
-    {
-      "epoch": 16.2,
-      "learning_rate": 0.0005110764069639655,
-      "loss": 0.0104,
-      "step": 186732
-    },
-    {
-      "epoch": 16.35,
-      "learning_rate": 0.0005055205300737143,
-      "loss": 0.0072,
-      "step": 188461
-    },
-    {
-      "epoch": 16.5,
-      "learning_rate": 0.0004999646531834628,
-      "loss": 0.0068,
-      "step": 190190
     },
     {
-      "epoch": 16.65,
-      "learning_rate": 0.0004944087762932115,
-      "loss": 0.0064,
-      "step": 191919
     },
     {
-      "epoch": 16.8,
-      "learning_rate": 0.0004888528994029601,
-      "loss": 0.0068,
-      "step": 193648
     },
     {
-      "epoch": 16.95,
-      "learning_rate": 0.0004832970225127088,
-      "loss": 0.0075,
-      "step": 195377
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.04200902581214905,
-      "eval_max_distance": 28,
-      "eval_mean_distance": 0,
-      "eval_runtime": 22.1607,
-      "eval_samples_per_second": 45.125,
-      "eval_steps_per_second": 2.256,
-      "step": 195942
-    },
-    {
-      "epoch": 17.1,
-      "learning_rate": 0.00047774114562245746,
-      "loss": 0.0162,
-      "step": 197106
-    },
-    {
-      "epoch": 17.25,
-      "learning_rate": 0.00047218526873220605,
-      "loss": 0.0077,
-      "step": 198835
-    },
-    {
-      "epoch": 17.4,
-      "learning_rate": 0.00046662939184195475,
-      "loss": 0.0063,
-      "step": 200564
     },
     {
-      "epoch": 17.55,
-      "learning_rate": 0.0004610735149517034,
-      "loss": 0.0058,
-      "step": 202293
     },
     {
-      "epoch": 17.7,
-      "learning_rate": 0.0004555176380614521,
-      "loss": 0.0057,
-      "step": 204022
     },
     {
-      "epoch": 17.85,
-      "learning_rate": 0.0004499617611712007,
-      "loss": 0.0059,
-      "step": 205751
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.04149915650486946,
-      "eval_max_distance": 32,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.9895,
-      "eval_samples_per_second": 43.498,
-      "eval_steps_per_second": 2.175,
-      "step": 207468
-    },
-    {
-      "epoch": 18.0,
-      "learning_rate": 0.00044440588428094934,
-      "loss": 0.0082,
-      "step": 207480
-    },
-    {
-      "epoch": 18.15,
-      "learning_rate": 0.00043885000739069804,
-      "loss": 0.0133,
-      "step": 209209
     },
     {
-      "epoch": 18.3,
-      "learning_rate": 0.00043329413050044663,
-      "loss": 0.0063,
-      "step": 210938
     },
     {
-      "epoch": 18.45,
-      "learning_rate": 0.0004277382536101953,
-      "loss": 0.0051,
-      "step": 212667
-    },
-    {
-      "epoch": 18.6,
-      "learning_rate": 0.000422182376719944,
-      "loss": 0.0051,
-      "step": 214396
-    },
-    {
-      "epoch": 18.75,
-      "learning_rate": 0.00041662649982969263,
-      "loss": 0.0051,
-      "step": 216125
     },
     {
-      "epoch": 18.9,
-      "learning_rate": 0.0004110706229394413,
-      "loss": 0.0054,
-      "step": 217854
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.0405677855014801,
-      "eval_max_distance": 28,
       "eval_mean_distance": 0,
-      "eval_runtime": 21.777,
-      "eval_samples_per_second": 45.92,
-      "eval_steps_per_second": 2.296,
-      "step": 218994
-    },
-    {
-      "epoch": 19.05,
-      "learning_rate": 0.0004055147460491899,
-      "loss": 0.0117,
-      "step": 219583
     },
     {
-      "epoch": 19.2,
-      "learning_rate": 0.00039995886915893857,
       "loss": 0.0075,
-      "step": 221312
-    },
-    {
-      "epoch": 19.35,
-      "learning_rate": 0.00039440299226868727,
-      "loss": 0.0051,
-      "step": 223041
     },
     {
-      "epoch": 19.5,
-      "learning_rate": 0.00038884711537843586,
-      "loss": 0.0046,
-      "step": 224770
-    },
-    {
-      "epoch": 19.65,
-      "learning_rate": 0.0003832912384881845,
-      "loss": 0.0043,
-      "step": 226499
-    },
-    {
-      "epoch": 19.8,
-      "learning_rate": 0.0003777353615979332,
-      "loss": 0.0044,
-      "step": 228228
     },
     {
-      "epoch": 19.95,
-      "learning_rate": 0.0003721794847076818,
-      "loss": 0.0046,
-      "step": 229957
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.03926468640565872,
-      "eval_max_distance": 24,
       "eval_mean_distance": 0,
-      "eval_runtime": 23.1294,
-      "eval_samples_per_second": 43.235,
-      "eval_steps_per_second": 2.162,
-      "step": 230520
-    },
-    {
-      "epoch": 20.1,
-      "learning_rate": 0.0003666236078174305,
-      "loss": 0.0118,
-      "step": 231686
     },
     {
-      "epoch": 20.25,
-      "learning_rate": 0.00036106773092717915,
-      "loss": 0.0056,
-      "step": 233415
     },
     {
-      "epoch": 20.4,
-      "learning_rate": 0.0003555118540369278,
-      "loss": 0.0043,
-      "step": 235144
-    },
-    {
-      "epoch": 20.55,
-      "learning_rate": 0.00034995597714667645,
-      "loss": 0.0039,
-      "step": 236873
-    },
-    {
-      "epoch": 20.7,
-      "learning_rate": 0.0003444001002564251,
-      "loss": 0.0037,
-      "step": 238602
     },
     {
-      "epoch": 20.85,
-      "learning_rate": 0.00033884422336617374,
-      "loss": 0.004,
-      "step": 240331
     },
     {
       "epoch": 21.0,
-      "eval_loss": 0.04168349876999855,
-      "eval_max_distance": 24,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.786,
-      "eval_samples_per_second": 43.887,
-      "eval_steps_per_second": 2.194,
-      "step": 242046
-    },
-    {
-      "epoch": 21.0,
-      "learning_rate": 0.0003332883464759224,
-      "loss": 0.0053,
-      "step": 242060
-    },
-    {
-      "epoch": 21.15,
-      "learning_rate": 0.00032773246958567103,
-      "loss": 0.0097,
-      "step": 243789
     },
     {
-      "epoch": 21.3,
-      "learning_rate": 0.00032217659269541973,
-      "loss": 0.0044,
-      "step": 245518
-    },
-    {
-      "epoch": 21.45,
-      "learning_rate": 0.0003166207158051684,
-      "loss": 0.0036,
-      "step": 247247
     },
     {
-      "epoch": 21.6,
-      "learning_rate": 0.000311064838914917,
-      "loss": 0.0031,
-      "step": 248976
-    },
-    {
-      "epoch": 21.75,
-      "learning_rate": 0.0003055089620246657,
-      "loss": 0.0031,
-      "step": 250705
     },
     {
-      "epoch": 21.9,
-      "learning_rate": 0.0002999530851344143,
-      "loss": 0.0034,
-      "step": 252434
     },
     {
       "epoch": 22.0,
-      "eval_loss": 0.040287140756845474,
-      "eval_max_distance": 18,
       "eval_mean_distance": 0,
-      "eval_runtime": 21.6664,
-      "eval_samples_per_second": 46.155,
-      "eval_steps_per_second": 2.308,
-      "step": 253572
     },
     {
-      "epoch": 22.05,
-      "learning_rate": 0.0002943972082441629,
-      "loss": 0.0082,
-      "step": 254163
-    },
-    {
-      "epoch": 22.2,
-      "learning_rate": 0.0002888413313539116,
-      "loss": 0.0053,
-      "step": 255892
-    },
-    {
-      "epoch": 22.35,
-      "learning_rate": 0.00028328545446366026,
-      "loss": 0.0034,
-      "step": 257621
-    },
-    {
-      "epoch": 22.5,
-      "learning_rate": 0.00027772957757340896,
-      "loss": 0.0031,
-      "step": 259350
-    },
-    {
-      "epoch": 22.65,
-      "learning_rate": 0.00027217370068315756,
-      "loss": 0.0029,
-      "step": 261079
     },
     {
-      "epoch": 22.8,
-      "learning_rate": 0.0002666178237929062,
-      "loss": 0.0027,
-      "step": 262808
     },
     {
-      "epoch": 22.95,
-      "learning_rate": 0.0002610619469026549,
-      "loss": 0.0029,
-      "step": 264537
     },
     {
       "epoch": 23.0,
-      "eval_loss": 0.04222797229886055,
-      "eval_max_distance": 21,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.874,
-      "eval_samples_per_second": 43.718,
-      "eval_steps_per_second": 2.186,
-      "step": 265098
     },
     {
-      "epoch": 23.1,
-      "learning_rate": 0.0002555060700124035,
-      "loss": 0.0081,
-      "step": 266266
     },
     {
-      "epoch": 23.25,
-      "learning_rate": 0.00024995019312215214,
-      "loss": 0.0038,
-      "step": 267995
-    },
-    {
-      "epoch": 23.4,
-      "learning_rate": 0.00024439431623190085,
-      "loss": 0.0028,
-      "step": 269724
-    },
-    {
-      "epoch": 23.55,
-      "learning_rate": 0.00023883843934164947,
-      "loss": 0.0025,
-      "step": 271453
-    },
-    {
-      "epoch": 23.7,
-      "learning_rate": 0.00023328256245139814,
-      "loss": 0.0026,
-      "step": 273182
     },
     {
       "epoch": 23.85,
-      "learning_rate": 0.0002277266855611468,
-      "loss": 0.0024,
-      "step": 274911
     },
     {
       "epoch": 24.0,
-      "eval_loss": 0.04101773351430893,
-      "eval_max_distance": 21,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.8008,
-      "eval_samples_per_second": 43.858,
-      "eval_steps_per_second": 2.193,
-      "step": 276624
-    },
-    {
-      "epoch": 24.0,
-      "learning_rate": 0.00022217080867089543,
-      "loss": 0.0033,
-      "step": 276640
-    },
-    {
-      "epoch": 24.15,
-      "learning_rate": 0.00021661493178064408,
-      "loss": 0.0069,
-      "step": 278369
-    },
-    {
-      "epoch": 24.3,
-      "learning_rate": 0.00021105905489039273,
-      "loss": 0.0029,
-      "step": 280098
-    },
-    {
-      "epoch": 24.45,
-      "learning_rate": 0.0002055031780001414,
-      "loss": 0.0024,
-      "step": 281827
     },
     {
-      "epoch": 24.6,
-      "learning_rate": 0.00019994730110989005,
-      "loss": 0.0021,
-      "step": 283556
     },
     {
-      "epoch": 24.75,
-      "learning_rate": 0.0001943914242196387,
-      "loss": 0.002,
-      "step": 285285
     },
     {
-      "epoch": 24.9,
-      "learning_rate": 0.00018883554732938734,
-      "loss": 0.002,
-      "step": 287014
     },
     {
       "epoch": 25.0,
-      "eval_loss": 0.043479613959789276,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 21.481,
-      "eval_samples_per_second": 46.553,
-      "eval_steps_per_second": 2.328,
-      "step": 288150
-    },
-    {
-      "epoch": 25.05,
-      "learning_rate": 0.000183279670439136,
-      "loss": 0.0055,
-      "step": 288743
-    },
-    {
-      "epoch": 25.2,
-      "learning_rate": 0.00017772379354888466,
-      "loss": 0.0038,
-      "step": 290472
     },
     {
-      "epoch": 25.35,
-      "learning_rate": 0.00017216791665863328,
-      "loss": 0.0023,
-      "step": 292201
     },
     {
       "epoch": 25.5,
-      "learning_rate": 0.00016661203976838196,
-      "loss": 0.002,
-      "step": 293930
-    },
-    {
-      "epoch": 25.65,
-      "learning_rate": 0.0001610561628781306,
-      "loss": 0.0017,
-      "step": 295659
-    },
-    {
-      "epoch": 25.8,
-      "learning_rate": 0.00015550028598787928,
-      "loss": 0.0018,
-      "step": 297388
     },
     {
-      "epoch": 25.95,
-      "learning_rate": 0.0001499444090976279,
-      "loss": 0.0016,
-      "step": 299117
     },
     {
       "epoch": 26.0,
-      "eval_loss": 0.04517431557178497,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.7192,
-      "eval_samples_per_second": 44.016,
-      "eval_steps_per_second": 2.201,
-      "step": 299676
-    },
-    {
-      "epoch": 26.1,
-      "learning_rate": 0.00014438853220737654,
-      "loss": 0.0054,
-      "step": 300846
-    },
-    {
-      "epoch": 26.25,
-      "learning_rate": 0.00013883265531712522,
-      "loss": 0.0026,
-      "step": 302575
     },
     {
-      "epoch": 26.4,
-      "learning_rate": 0.00013327677842687387,
-      "loss": 0.0018,
-      "step": 304304
     },
     {
-      "epoch": 26.55,
-      "learning_rate": 0.0001277209015366225,
-      "loss": 0.0016,
-      "step": 306033
     },
     {
-      "epoch": 26.7,
-      "learning_rate": 0.00012216502464637116,
-      "loss": 0.0015,
-      "step": 307762
-    },
-    {
-      "epoch": 26.85,
-      "learning_rate": 0.00011660914775611982,
-      "loss": 0.0013,
-      "step": 309491
     },
     {
       "epoch": 27.0,
-      "eval_loss": 0.04144546017050743,
-      "eval_max_distance": 14,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.686,
-      "eval_samples_per_second": 44.08,
-      "eval_steps_per_second": 2.204,
-      "step": 311202
     },
     {
-      "epoch": 27.0,
-      "learning_rate": 0.00011105327086586847,
-      "loss": 0.0021,
-      "step": 311220
     },
     {
-      "epoch": 27.15,
-      "learning_rate": 0.00010549739397561713,
-      "loss": 0.0046,
-      "step": 312949
     },
     {
-      "epoch": 27.3,
-      "learning_rate": 9.994151708536577e-05,
-      "loss": 0.002,
-      "step": 314678
     },
     {
-      "epoch": 27.45,
-      "learning_rate": 9.438564019511443e-05,
-      "loss": 0.0016,
-      "step": 316407
     },
     {
-      "epoch": 27.6,
-      "learning_rate": 8.882976330486308e-05,
-      "loss": 0.0013,
-      "step": 318136
     },
     {
-      "epoch": 27.75,
-      "learning_rate": 8.327388641461173e-05,
-      "loss": 0.0013,
-      "step": 319865
     },
     {
-      "epoch": 27.9,
-      "learning_rate": 7.771800952436038e-05,
-      "loss": 0.0012,
-      "step": 321594
     },
     {
-      "epoch": 28.0,
-      "eval_loss": 0.04387975484132767,
-      "eval_max_distance": 14,
       "eval_mean_distance": 0,
-      "eval_runtime": 21.586,
-      "eval_samples_per_second": 46.326,
-      "eval_steps_per_second": 2.316,
-      "step": 322728
     },
     {
-      "epoch": 28.05,
-      "learning_rate": 7.216213263410904e-05,
-      "loss": 0.0037,
-      "step": 323323
     },
     {
-      "epoch": 28.2,
-      "learning_rate": 6.660625574385768e-05,
-      "loss": 0.0027,
-      "step": 325052
     },
     {
-      "epoch": 28.35,
-      "learning_rate": 6.105037885360634e-05,
-      "loss": 0.0016,
-      "step": 326781
     },
     {
-      "epoch": 28.5,
-      "learning_rate": 5.5494501963355e-05,
-      "loss": 0.0013,
-      "step": 328510
     },
     {
-      "epoch": 28.65,
-      "learning_rate": 4.9938625073103644e-05,
-      "loss": 0.0011,
-      "step": 330239
     },
     {
-      "epoch": 28.8,
-      "learning_rate": 4.43827481828523e-05,
-      "loss": 0.001,
-      "step": 331968
     },
     {
-      "epoch": 28.95,
-      "learning_rate": 3.882687129260095e-05,
-      "loss": 0.001,
-      "step": 333697
     },
     {
-      "epoch": 29.0,
-      "eval_loss": 0.044395141303539276,
       "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 22.6289,
-      "eval_samples_per_second": 44.191,
-      "eval_steps_per_second": 2.21,
-      "step": 334254
-    },
-    {
-      "epoch": 29.1,
-      "learning_rate": 3.32709944023496e-05,
-      "loss": 0.0039,
-      "step": 335426
     },
     {
-      "epoch": 29.25,
-      "learning_rate": 2.771511751209825e-05,
-      "loss": 0.0017,
-      "step": 337155
-    },
-    {
-      "epoch": 29.4,
-      "learning_rate": 2.2159240621846906e-05,
-      "loss": 0.0012,
-      "step": 338884
-    },
-    {
-      "epoch": 29.55,
-      "learning_rate": 1.6603363731595556e-05,
-      "loss": 0.0011,
-      "step": 340613
     },
     {
-      "epoch": 29.7,
-      "learning_rate": 1.1047486841344207e-05,
-      "loss": 0.001,
-      "step": 342342
     },
     {
-      "epoch": 29.85,
-      "learning_rate": 0.0004477394104151002,
       "loss": 0.0026,
-      "step": 344071
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.042660146951675415,
-      "eval_max_distance": 19,
       "eval_mean_distance": 0,
-      "eval_runtime": 48.9711,
-      "eval_samples_per_second": 20.42,
-      "eval_steps_per_second": 1.021,
-      "step": 345780
-    },
-    {
-      "epoch": 30.0,
-      "learning_rate": 0.00044440588428094934,
-      "loss": 0.0045,
-      "step": 345800
     },
     {
-      "epoch": 30.15,
-      "learning_rate": 0.00044107235814679855,
-      "loss": 0.0068,
-      "step": 347529
     },
     {
-      "epoch": 30.3,
-      "learning_rate": 0.00043773883201264776,
-      "loss": 0.0036,
-      "step": 349258
     },
     {
-      "epoch": 30.45,
-      "learning_rate": 0.0004344053058784969,
-      "loss": 0.0032,
-      "step": 350987
     },
     {
-      "epoch": 30.6,
-      "learning_rate": 0.0004310717797443461,
-      "loss": 0.0033,
-      "step": 352716
     },
     {
-      "epoch": 30.75,
-      "learning_rate": 0.0004277382536101953,
-      "loss": 0.0034,
-      "step": 354445
     },
     {
-      "epoch": 30.9,
-      "learning_rate": 0.00042440472747604454,
-      "loss": 0.004,
-      "step": 356174
     },
     {
-      "epoch": 23.29,
-      "learning_rate": 0.000593547500777279,
-      "loss": 0.0057,
-      "step": 357903
     },
     {
-      "epoch": 23.4,
-      "learning_rate": 0.0005910471934809801,
-      "loss": 0.0053,
-      "step": 359632
     },
     {
-      "epoch": 23.52,
-      "learning_rate": 0.0005885468861846814,
-      "loss": 0.0055,
-      "step": 361361
     },
     {
-      "epoch": 23.63,
-      "learning_rate": 0.0005860465788883828,
-      "loss": 0.0056,
-      "step": 363090
     },
     {
-      "epoch": 23.74,
-      "learning_rate": 0.0005835462715920841,
-      "loss": 0.006,
-      "step": 364819
     },
     {
-      "epoch": 23.85,
-      "learning_rate": 0.0005810459642957853,
-      "loss": 0.0064,
-      "step": 366548
     },
     {
-      "epoch": 23.97,
-      "learning_rate": 0.0005785456569994867,
-      "loss": 0.0077,
-      "step": 368277
     },
     {
-      "epoch": 24.0,
-      "eval_loss": 0.049542564898729324,
-      "eval_max_distance": 27,
-      "eval_mean_distance": 0,
-      "eval_runtime": 72.4399,
-      "eval_samples_per_second": 13.805,
-      "eval_steps_per_second": 0.925,
-      "step": 368808
     },
     {
-      "epoch": 24.08,
-      "learning_rate": 0.0005760453497031879,
-      "loss": 0.0158,
-      "step": 370006
     },
     {
-      "epoch": 24.19,
-      "learning_rate": 0.0005735450424068892,
-      "loss": 0.0082,
-      "step": 371735
     },
     {
-      "epoch": 24.3,
-      "learning_rate": 0.0005710447351105905,
-      "loss": 0.0057,
-      "step": 373464
     },
     {
-      "epoch": 24.42,
-      "learning_rate": 0.0005685444278142918,
-      "loss": 0.0059,
-      "step": 375193
     },
     {
-      "epoch": 24.53,
-      "learning_rate": 0.0005660441205179932,
-      "loss": 0.0055,
-      "step": 376922
     },
     {
-      "epoch": 24.64,
-      "learning_rate": 0.0005635438132216944,
-      "loss": 0.0062,
-      "step": 378651
     },
     {
-      "epoch": 24.75,
-      "learning_rate": 0.0005610435059253957,
-      "loss": 0.0059,
-      "step": 380380
     },
     {
-      "epoch": 24.87,
-      "learning_rate": 0.000558543198629097,
-      "loss": 0.0062,
-      "step": 382109
     },
     {
-      "epoch": 24.98,
-      "learning_rate": 0.0005560428913327982,
-      "loss": 0.0083,
-      "step": 383838
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.044624801725149155,
-      "eval_max_distance": 37,
       "eval_mean_distance": 0,
-      "eval_runtime": 35.859,
-      "eval_samples_per_second": 27.887,
-      "eval_steps_per_second": 1.868,
-      "step": 384175
     },
     {
-      "epoch": 25.09,
-      "learning_rate": 0.0005535425840364996,
-      "loss": 0.0154,
-      "step": 385567
-    },
-    {
-      "epoch": 25.2,
-      "learning_rate": 0.0005510422767402009,
-      "loss": 0.0075,
-      "step": 387296
     },
     {
-      "epoch": 25.32,
-      "learning_rate": 0.0005485419694439023,
-      "loss": 0.006,
-      "step": 389025
     },
     {
-      "epoch": 25.43,
-      "learning_rate": 0.0005460416621476034,
-      "loss": 0.0057,
-      "step": 390754
     },
     {
-      "epoch": 25.54,
-      "learning_rate": 0.0005435413548513047,
-      "loss": 0.0057,
-      "step": 392483
     },
     {
-      "epoch": 25.65,
-      "learning_rate": 0.0005410410475550061,
-      "loss": 0.0056,
-      "step": 394212
     },
     {
-      "epoch": 25.77,
-      "learning_rate": 0.0005385407402587073,
-      "loss": 0.0059,
-      "step": 395941
     },
     {
-      "epoch": 25.88,
-      "learning_rate": 0.0005360404329624087,
-      "loss": 0.0067,
-      "step": 397670
     },
     {
-      "epoch": 25.99,
-      "learning_rate": 0.0005335401256661099,
-      "loss": 0.0078,
-      "step": 399399
     },
     {
-      "epoch": 26.0,
-      "eval_loss": 0.048115409910678864,
-      "eval_max_distance": 47,
-      "eval_mean_distance": 0,
-      "eval_runtime": 35.8872,
-      "eval_samples_per_second": 27.865,
-      "eval_steps_per_second": 1.867,
-      "step": 399542
     },
     {
-      "epoch": 26.1,
-      "learning_rate": 0.0005310398183698112,
-      "loss": 0.0151,
-      "step": 401128
     },
     {
-      "epoch": 26.22,
-      "learning_rate": 0.0005285395110735125,
-      "loss": 0.0068,
-      "step": 402857
     },
     {
-      "epoch": 26.33,
-      "learning_rate": 0.0005260392037772138,
-      "loss": 0.0055,
-      "step": 404586
     },
     {
-      "epoch": 26.44,
-      "learning_rate": 0.0005235388964809152,
-      "loss": 0.0052,
-      "step": 406315
     },
     {
-      "epoch": 26.55,
-      "learning_rate": 0.0005210385891846165,
-      "loss": 0.0054,
-      "step": 408044
     },
     {
-      "epoch": 26.67,
-      "learning_rate": 0.0005185382818883176,
-      "loss": 0.0053,
-      "step": 409773
     },
     {
-      "epoch": 26.78,
-      "learning_rate": 0.000516037974592019,
-      "loss": 0.0052,
-      "step": 411502
     },
     {
-      "epoch": 26.89,
-      "learning_rate": 0.0005135376672957203,
-      "loss": 0.006,
-      "step": 413231
     },
     {
-      "epoch": 27.0,
-      "eval_loss": 0.042408570647239685,
-      "eval_max_distance": 37,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.3824,
-      "eval_samples_per_second": 69.529,
-      "eval_steps_per_second": 4.658,
-      "step": 414909
     },
     {
-      "epoch": 27.0,
-      "learning_rate": 0.0005110373599994215,
-      "loss": 0.0095,
-      "step": 414960
     },
     {
-      "epoch": 27.12,
-      "learning_rate": 0.0005085370527031229,
-      "loss": 0.0115,
-      "step": 416689
     },
     {
-      "epoch": 27.23,
-      "learning_rate": 0.0005060367454068242,
-      "loss": 0.006,
-      "step": 418418
     },
     {
-      "epoch": 27.34,
-      "learning_rate": 0.0005035364381105254,
-      "loss": 0.0051,
-      "step": 420147
     },
     {
-      "epoch": 27.45,
-      "learning_rate": 0.0005010361308142267,
-      "loss": 0.0047,
-      "step": 421876
     },
     {
-      "epoch": 27.57,
-      "learning_rate": 0.000498535823517928,
-      "loss": 0.0047,
-      "step": 423605
     },
     {
-      "epoch": 27.68,
-      "learning_rate": 0.0004960355162216294,
-      "loss": 0.0054,
-      "step": 425334
     },
     {
-      "epoch": 27.79,
-      "learning_rate": 0.0004935352089253306,
-      "loss": 0.0052,
-      "step": 427063
     },
     {
-      "epoch": 27.9,
-      "learning_rate": 0.000491034901629032,
-      "loss": 0.0056,
-      "step": 428792
     },
     {
-      "epoch": 28.0,
-      "eval_loss": 0.04393070191144943,
-      "eval_max_distance": 22,
       "eval_mean_distance": 0,
-      "eval_runtime": 26.5483,
-      "eval_samples_per_second": 37.667,
-      "eval_steps_per_second": 2.524,
-      "step": 430276
     },
     {
-      "epoch": 28.02,
-      "learning_rate": 0.0004885345943327332,
-      "loss": 0.0105,
-      "step": 430521
     },
     {
-      "epoch": 28.13,
-      "learning_rate": 0.0004860342870364345,
-      "loss": 0.0093,
-      "step": 432250
     },
     {
-      "epoch": 28.24,
-      "learning_rate": 0.0004835339797401358,
-      "loss": 0.0055,
-      "step": 433979
     },
     {
-      "epoch": 28.35,
-      "learning_rate": 0.0004810336724438371,
-      "loss": 0.0049,
-      "step": 435708
     },
     {
-      "epoch": 28.47,
-      "learning_rate": 0.00047853336514753835,
-      "loss": 0.0044,
-      "step": 437437
     },
     {
-      "epoch": 28.58,
-      "learning_rate": 0.0004760330578512397,
-      "loss": 0.0044,
-      "step": 439166
     },
     {
-      "epoch": 28.69,
-      "learning_rate": 0.000473532750554941,
-      "loss": 0.0047,
-      "step": 440895
     },
     {
-      "epoch": 28.8,
-      "learning_rate": 0.0004710324432586423,
-      "loss": 0.0047,
-      "step": 442624
     },
     {
-      "epoch": 28.92,
-      "learning_rate": 0.00046853213596234356,
-      "loss": 0.0054,
-      "step": 444353
     },
     {
-      "epoch": 29.0,
-      "eval_loss": 0.04814203828573227,
-      "eval_max_distance": 23,
-      "eval_mean_distance": 0,
-      "eval_runtime": 35.122,
-      "eval_samples_per_second": 28.472,
-      "eval_steps_per_second": 1.908,
-      "step": 445643
     },
     {
-      "epoch": 29.03,
-      "learning_rate": 0.00046603182866604485,
-      "loss": 0.0103,
-      "step": 446082
     },
     {
-      "epoch": 29.14,
-      "learning_rate": 0.00046353152136974614,
-      "loss": 0.0076,
-      "step": 447811
     },
     {
-      "epoch": 29.25,
-      "learning_rate": 0.00046103121407344743,
-      "loss": 0.005,
-      "step": 449540
     },
     {
-      "epoch": 29.37,
-      "learning_rate": 0.00045853090677714877,
-      "loss": 0.0043,
-      "step": 451269
     },
     {
-      "epoch": 29.48,
-      "learning_rate": 0.00045603059948085,
-      "loss": 0.0043,
-      "step": 452998
     },
     {
-      "epoch": 29.59,
-      "learning_rate": 0.00045353029218455135,
-      "loss": 0.004,
-      "step": 454727
     },
     {
-      "epoch": 29.7,
-      "learning_rate": 0.0004510299848882526,
-      "loss": 0.0042,
-      "step": 456456
     },
     {
-      "epoch": 29.82,
-      "learning_rate": 6.808721912515757e-06,
-      "loss": 0.0039,
-      "step": 458185
     },
     {
-      "epoch": 29.93,
-      "learning_rate": 2.641543085351246e-06,
-      "loss": 0.004,
-      "step": 459914
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.04417673125863075,
-      "eval_max_distance": 25,
       "eval_mean_distance": 0,
-      "eval_runtime": 68.6071,
-      "eval_samples_per_second": 14.576,
-      "eval_steps_per_second": 0.977,
-      "step": 461010
-    },
-    {
-      "epoch": 30.0,
-      "step": 461010,
-      "total_flos": 1.1619438964958822e+17,
-      "train_loss": 3.931375028864634e-05,
-      "train_runtime": 411.3459,
-      "train_samples_per_second": 16810.814,
-      "train_steps_per_second": 1120.736
     }
   ],
-  "logging_steps": 1729,
-  "max_steps": 461010,
-  "num_train_epochs": 30,
-  "save_steps": 3458,
-  "total_flos": 1.1619438964958822e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 50.0,
   "eval_steps": 500,
+  "global_step": 577550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.3071041108424287e-08,
+      "loss": 13.0422,
       "step": 1
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 5.000980328083132e-05,
+      "loss": 1.5626,
+      "step": 3826
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.00010001960656166264,
+      "loss": 0.2997,
+      "step": 7652
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00015002940984249396,
+      "loss": 0.2198,
+      "step": 11478
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.7378385066986084,
+      "eval_max_distance": 206,
+      "eval_mean_distance": 16,
+      "eval_runtime": 214.8198,
+      "eval_samples_per_second": 9.31,
+      "eval_steps_per_second": 0.624,
+      "step": 15301
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 0.00026498138689290976,
+      "loss": 1.5195,
+      "step": 15304
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 0.00033122673361613713,
+      "loss": 0.1366,
+      "step": 19130
     },
     {
+      "epoch": 1.99,
+      "learning_rate": 0.00039747208033936456,
+      "loss": 0.1431,
+      "step": 22956
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.983799397945404,
+      "eval_max_distance": 183,
+      "eval_mean_distance": 22,
+      "eval_runtime": 10.3439,
+      "eval_samples_per_second": 48.338,
+      "eval_steps_per_second": 2.417,
+      "step": 23102
     },
     {
+      "epoch": 2.32,
+      "learning_rate": 0.000463717427062592,
+      "loss": 0.1221,
+      "step": 26782
     },
     {
+      "epoch": 2.65,
+      "learning_rate": 0.0005299627737858195,
+      "loss": 0.0829,
+      "step": 30608
     },
     {
+      "epoch": 2.98,
+      "learning_rate": 0.0005962081205090468,
+      "loss": 0.1014,
+      "step": 34434
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.5182881951332092,
       "eval_max_distance": 122,
+      "eval_mean_distance": 13,
+      "eval_runtime": 8.5861,
+      "eval_samples_per_second": 58.233,
+      "eval_steps_per_second": 2.912,
+      "step": 34653
     },
     {
+      "epoch": 3.31,
+      "learning_rate": 0.0006624534672322743,
+      "loss": 0.0865,
+      "step": 38260
     },
     {
+      "epoch": 3.64,
+      "learning_rate": 0.0007286988139555017,
+      "loss": 0.0645,
+      "step": 42086
     },
     {
+      "epoch": 3.97,
+      "learning_rate": 0.0007949441606787291,
+      "loss": 0.0818,
+      "step": 45912
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.3150796592235565,
+      "eval_max_distance": 94,
+      "eval_mean_distance": 7,
+      "eval_runtime": 10.1617,
+      "eval_samples_per_second": 49.204,
+      "eval_steps_per_second": 2.46,
+      "step": 46204
     },
     {
+      "epoch": 4.31,
+      "learning_rate": 0.0008611895074019565,
+      "loss": 0.0713,
+      "step": 49738
     },
     {
+      "epoch": 4.64,
+      "learning_rate": 0.000927434854125184,
+      "loss": 0.0547,
+      "step": 53564
     },
     {
+      "epoch": 4.97,
+      "learning_rate": 0.0009936802008484113,
+      "loss": 0.07,
+      "step": 57390
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.48977312445640564,
       "eval_max_distance": 100,
+      "eval_mean_distance": 12,
+      "eval_runtime": 8.5226,
+      "eval_samples_per_second": 58.667,
+      "eval_steps_per_second": 2.933,
+      "step": 57755
     },
     {
+      "epoch": 5.3,
+      "learning_rate": 0.0009933416058253734,
+      "loss": 0.0632,
+      "step": 61216
     },
     {
+      "epoch": 5.63,
+      "learning_rate": 0.0009859810117450148,
+      "loss": 0.0462,
+      "step": 65042
     },
     {
+      "epoch": 5.96,
+      "learning_rate": 0.0009786204176646563,
+      "loss": 0.0555,
+      "step": 68868
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.3158600926399231,
+      "eval_max_distance": 99,
+      "eval_mean_distance": 8,
+      "eval_runtime": 8.627,
+      "eval_samples_per_second": 57.958,
+      "eval_steps_per_second": 2.898,
+      "step": 69306
     },
     {
+      "epoch": 6.29,
+      "learning_rate": 0.0009712598235842977,
+      "loss": 0.0532,
+      "step": 72694
     },
     {
+      "epoch": 6.62,
+      "learning_rate": 0.000963899229503939,
+      "loss": 0.0367,
+      "step": 76520
     },
     {
+      "epoch": 6.96,
+      "learning_rate": 0.0009565386354235804,
+      "loss": 0.0442,
+      "step": 80346
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.2628127336502075,
+      "eval_max_distance": 91,
+      "eval_mean_distance": 6,
+      "eval_runtime": 8.3481,
+      "eval_samples_per_second": 59.894,
+      "eval_steps_per_second": 2.995,
+      "step": 80857
     },
     {
+      "epoch": 7.29,
+      "learning_rate": 0.0009491780413432219,
+      "loss": 0.0455,
+      "step": 84172
     },
     {
+      "epoch": 7.62,
+      "learning_rate": 0.0009418174472628632,
+      "loss": 0.0307,
+      "step": 87998
     },
     {
       "epoch": 7.95,
+      "learning_rate": 0.0009344568531825046,
+      "loss": 0.0358,
+      "step": 91824
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.2341708391904831,
+      "eval_max_distance": 69,
+      "eval_mean_distance": 5,
+      "eval_runtime": 8.2389,
+      "eval_samples_per_second": 60.688,
+      "eval_steps_per_second": 3.034,
+      "step": 92408
     },
     {
+      "epoch": 8.28,
+      "learning_rate": 0.000927096259102146,
+      "loss": 0.0397,
+      "step": 95650
     },
     {
+      "epoch": 8.61,
+      "learning_rate": 0.0009197356650217874,
+      "loss": 0.0261,
+      "step": 99476
     },
     {
+      "epoch": 8.94,
+      "learning_rate": 0.0009123750709414288,
+      "loss": 0.0299,
+      "step": 103302
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.11001851409673691,
+      "eval_max_distance": 63,
       "eval_mean_distance": 2,
+      "eval_runtime": 7.3095,
+      "eval_samples_per_second": 68.405,
+      "eval_steps_per_second": 3.42,
+      "step": 103959
     },
     {
+      "epoch": 9.27,
+      "learning_rate": 0.0009050144768610703,
+      "loss": 0.0346,
+      "step": 107128
     },
     {
+      "epoch": 9.61,
+      "learning_rate": 0.0008976538827807117,
+      "loss": 0.0225,
+      "step": 110954
     },
     {
+      "epoch": 9.94,
+      "learning_rate": 0.0008902932887003531,
+      "loss": 0.0252,
+      "step": 114780
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.09344363212585449,
+      "eval_max_distance": 51,
       "eval_mean_distance": 1,
+      "eval_runtime": 7.6397,
+      "eval_samples_per_second": 65.447,
+      "eval_steps_per_second": 3.272,
+      "step": 115510
     },
     {
+      "epoch": 10.27,
+      "learning_rate": 0.0008829326946199945,
+      "loss": 0.0308,
+      "step": 118606
     },
     {
+      "epoch": 10.6,
+      "learning_rate": 0.0008755721005396359,
+      "loss": 0.0194,
+      "step": 122432
     },
     {
+      "epoch": 10.93,
+      "learning_rate": 0.0008682115064592773,
+      "loss": 0.022,
+      "step": 126258
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.13300806283950806,
+      "eval_max_distance": 53,
+      "eval_mean_distance": 3,
+      "eval_runtime": 7.8584,
+      "eval_samples_per_second": 63.626,
+      "eval_steps_per_second": 3.181,
+      "step": 127061
     },
     {
+      "epoch": 11.26,
+      "learning_rate": 0.0008608509123789186,
+      "loss": 0.028,
+      "step": 130084
     },
     {
+      "epoch": 11.59,
+      "learning_rate": 0.0008534903182985601,
+      "loss": 0.017,
+      "step": 133910
     },
     {
+      "epoch": 11.92,
+      "learning_rate": 0.0008461297242182014,
+      "loss": 0.019,
+      "step": 137736
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.12166010588407516,
+      "eval_max_distance": 51,
+      "eval_mean_distance": 2,
+      "eval_runtime": 7.7916,
+      "eval_samples_per_second": 64.172,
+      "eval_steps_per_second": 3.209,
+      "step": 138612
     },
     {
+      "epoch": 12.26,
+      "learning_rate": 0.0008387691301378428,
+      "loss": 0.0252,
+      "step": 141562
     },
     {
+      "epoch": 12.59,
+      "learning_rate": 0.0008314085360574843,
+      "loss": 0.0151,
+      "step": 145388
     },
     {
+      "epoch": 12.92,
+      "learning_rate": 0.0008240479419771256,
+      "loss": 0.0163,
+      "step": 149214
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.07717631012201309,
+      "eval_max_distance": 37,
+      "eval_mean_distance": 1,
+      "eval_runtime": 7.0966,
+      "eval_samples_per_second": 70.457,
+      "eval_steps_per_second": 3.523,
+      "step": 150163
     },
     {
+      "epoch": 13.25,
+      "learning_rate": 0.000816687347896767,
+      "loss": 0.0228,
+      "step": 153040
     },
     {
+      "epoch": 13.58,
+      "learning_rate": 0.0008093267538164085,
+      "loss": 0.0132,
+      "step": 156866
     },
     {
+      "epoch": 13.91,
+      "learning_rate": 0.0008019661597360498,
+      "loss": 0.0145,
+      "step": 160692
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.12677042186260223,
+      "eval_max_distance": 65,
+      "eval_mean_distance": 2,
+      "eval_runtime": 7.3512,
+      "eval_samples_per_second": 68.016,
+      "eval_steps_per_second": 3.401,
+      "step": 161714
     },
     {
+      "epoch": 14.24,
+      "learning_rate": 0.0007946055656556912,
+      "loss": 0.0211,
+      "step": 164518
     },
     {
+      "epoch": 14.57,
+      "learning_rate": 0.0007872449715753325,
+      "loss": 0.0119,
+      "step": 168344
     },
     {
+      "epoch": 14.91,
+      "learning_rate": 0.000779884377494974,
+      "loss": 0.0131,
+      "step": 172170
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.08834327012300491,
+      "eval_max_distance": 34,
+      "eval_mean_distance": 1,
+      "eval_runtime": 7.4014,
+      "eval_samples_per_second": 67.555,
+      "eval_steps_per_second": 3.378,
+      "step": 173265
     },
     {
+      "epoch": 15.24,
+      "learning_rate": 0.0007725237834146154,
+      "loss": 0.019,
+      "step": 175996
     },
     {
+      "epoch": 15.57,
+      "learning_rate": 0.0007651631893342567,
+      "loss": 0.0109,
+      "step": 179822
     },
     {
       "epoch": 15.9,
+      "learning_rate": 0.0007578025952538982,
+      "loss": 0.0115,
+      "step": 183648
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.07092861831188202,
+      "eval_max_distance": 30,
+      "eval_mean_distance": 1,
+      "eval_runtime": 7.346,
+      "eval_samples_per_second": 68.064,
+      "eval_steps_per_second": 3.403,
+      "step": 184816
     },
     {
+      "epoch": 16.23,
+      "learning_rate": 0.0007504420011735396,
+      "loss": 0.0175,
+      "step": 187474
     },
     {
+      "epoch": 16.56,
+      "learning_rate": 0.0007430814070931809,
+      "loss": 0.0097,
+      "step": 191300
     },
     {
+      "epoch": 16.89,
+      "learning_rate": 0.0007357208130128224,
+      "loss": 0.0104,
+      "step": 195126
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.06687292456626892,
+      "eval_max_distance": 38,
+      "eval_mean_distance": 1,
+      "eval_runtime": 7.1541,
+      "eval_samples_per_second": 69.89,
+      "eval_steps_per_second": 3.494,
+      "step": 196367
     },
     {
+      "epoch": 17.22,
+      "learning_rate": 0.0007283602189324637,
+      "loss": 0.0161,
+      "step": 198952
     },
     {
+      "epoch": 17.56,
+      "learning_rate": 0.0007209996248521051,
+      "loss": 0.0088,
+      "step": 202778
     },
     {
+      "epoch": 17.89,
+      "learning_rate": 0.0007136390307717465,
+      "loss": 0.0094,
+      "step": 206604
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.06669158488512039,
+      "eval_max_distance": 29,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.7997,
+      "eval_samples_per_second": 73.532,
+      "eval_steps_per_second": 3.677,
+      "step": 207918
     },
     {
+      "epoch": 18.22,
+      "learning_rate": 0.0007062784366913879,
+      "loss": 0.0144,
+      "step": 210430
     },
     {
+      "epoch": 18.55,
+      "learning_rate": 0.0006989178426110293,
+      "loss": 0.0081,
+      "step": 214256
     },
     {
+      "epoch": 18.88,
+      "learning_rate": 0.0006915572485306708,
+      "loss": 0.0086,
+      "step": 218082
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.06412819027900696,
+      "eval_max_distance": 27,
       "eval_mean_distance": 0,
+      "eval_runtime": 7.0833,
+      "eval_samples_per_second": 70.589,
+      "eval_steps_per_second": 3.529,
+      "step": 219469
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 0.0006841966544503122,
       "loss": 0.0075,
+      "step": 221908
     },
     {
+      "epoch": 19.54,
+      "learning_rate": 0.0006768360603699536,
+      "loss": 0.0075,
+      "step": 225734
     },
     {
+      "epoch": 19.87,
+      "learning_rate": 0.000669475466289595,
+      "loss": 0.0078,
+      "step": 229560
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.06507006287574768,
+      "eval_max_distance": 22,
       "eval_mean_distance": 0,
+      "eval_runtime": 8.9369,
+      "eval_samples_per_second": 55.948,
+      "eval_steps_per_second": 2.797,
+      "step": 231020
     },
     {
+      "epoch": 20.2,
+      "learning_rate": 0.0006621148722092364,
+      "loss": 0.0127,
+      "step": 233386
     },
     {
+      "epoch": 20.54,
+      "learning_rate": 0.0006547542781288778,
+      "loss": 0.0068,
+      "step": 237212
     },
     {
+      "epoch": 20.87,
+      "learning_rate": 0.0006473936840485191,
+      "loss": 0.007,
+      "step": 241038
     },
     {
       "epoch": 21.0,
+      "eval_loss": 0.06505928188562393,
+      "eval_max_distance": 33,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.7396,
+      "eval_samples_per_second": 74.188,
+      "eval_steps_per_second": 3.709,
+      "step": 242571
     },
     {
+      "epoch": 21.2,
+      "learning_rate": 0.0006400330899681606,
+      "loss": 0.0116,
+      "step": 244864
     },
     {
+      "epoch": 21.53,
+      "learning_rate": 0.000632672495887802,
+      "loss": 0.0064,
+      "step": 248690
     },
     {
+      "epoch": 21.86,
+      "learning_rate": 0.0006253119018074433,
+      "loss": 0.0064,
+      "step": 252516
     },
     {
       "epoch": 22.0,
+      "eval_loss": 0.06048734113574028,
+      "eval_max_distance": 31,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.4223,
+      "eval_samples_per_second": 77.853,
+      "eval_steps_per_second": 3.893,
+      "step": 254122
     },
     {
+      "epoch": 22.19,
+      "learning_rate": 0.0006179513077270847,
+      "loss": 0.0105,
+      "step": 256342
     },
     {
+      "epoch": 22.52,
+      "learning_rate": 0.0006105907136467262,
+      "loss": 0.0059,
+      "step": 260168
     },
     {
+      "epoch": 22.85,
+      "learning_rate": 0.0006032301195663675,
+      "loss": 0.0059,
+      "step": 263994
     },
     {
       "epoch": 23.0,
+      "eval_loss": 0.0561179518699646,
+      "eval_max_distance": 25,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.4339,
+      "eval_samples_per_second": 77.714,
+      "eval_steps_per_second": 3.886,
+      "step": 265673
     },
     {
+      "epoch": 23.19,
+      "learning_rate": 0.0005958695254860089,
+      "loss": 0.01,
+      "step": 267820
     },
     {
+      "epoch": 23.52,
+      "learning_rate": 0.0005885089314056503,
+      "loss": 0.0054,
+      "step": 271646
     },
     {
       "epoch": 23.85,
+      "learning_rate": 0.0005811483373252917,
+      "loss": 0.0053,
+      "step": 275472
     },
     {
       "epoch": 24.0,
+      "eval_loss": 0.05673111602663994,
+      "eval_max_distance": 36,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.5025,
+      "eval_samples_per_second": 76.893,
+      "eval_steps_per_second": 3.845,
+      "step": 277224
     },
     {
+      "epoch": 24.18,
+      "learning_rate": 0.0005737877432449331,
+      "loss": 0.0091,
+      "step": 279298
     },
     {
+      "epoch": 24.51,
+      "learning_rate": 0.0005664271491645745,
+      "loss": 0.005,
+      "step": 283124
     },
     {
+      "epoch": 24.84,
+      "learning_rate": 0.0005590665550842159,
+      "loss": 0.0049,
+      "step": 286950
     },
     {
       "epoch": 25.0,
+      "eval_loss": 0.0556904599070549,
+      "eval_max_distance": 25,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.3704,
+      "eval_samples_per_second": 78.489,
+      "eval_steps_per_second": 3.924,
+      "step": 288775
     },
     {
+      "epoch": 25.17,
+      "learning_rate": 0.0005517059610038573,
+      "loss": 0.0086,
+      "step": 290776
     },
     {
       "epoch": 25.5,
+      "learning_rate": 0.0005443453669234986,
+      "loss": 0.0047,
+      "step": 294602
     },
     {
+      "epoch": 25.84,
+      "learning_rate": 0.0005369847728431401,
+      "loss": 0.0045,
+      "step": 298428
     },
     {
       "epoch": 26.0,
+      "eval_loss": 0.052325230091810226,
+      "eval_max_distance": 26,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.5774,
+      "eval_samples_per_second": 76.017,
+      "eval_steps_per_second": 3.801,
+      "step": 300326
     },
     {
+      "epoch": 26.17,
+      "learning_rate": 0.0005296241787627815,
+      "loss": 0.008,
+      "step": 302254
     },
     {
+      "epoch": 26.5,
+      "learning_rate": 0.0005222635846824228,
+      "loss": 0.0044,
+      "step": 306080
     },
     {
+      "epoch": 26.83,
+      "learning_rate": 0.0005149029906020643,
+      "loss": 0.0041,
+      "step": 309906
     },
     {
       "epoch": 27.0,
+      "eval_loss": 0.05767456814646721,
+      "eval_max_distance": 25,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.3552,
+      "eval_samples_per_second": 78.676,
+      "eval_steps_per_second": 3.934,
+      "step": 311877
     },
     {
+      "epoch": 27.16,
+      "learning_rate": 0.0005075423965217056,
+      "loss": 0.0073,
+      "step": 313732
     },
     {
+      "epoch": 27.49,
+      "learning_rate": 0.000500181802441347,
+      "loss": 0.004,
+      "step": 317558
     },
     {
+      "epoch": 27.82,
+      "learning_rate": 0.0004928212083609885,
+      "loss": 0.0038,
+      "step": 321384
     },
     {
+      "epoch": 28.0,
+      "eval_loss": 0.057724930346012115,
+      "eval_max_distance": 32,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.472,
+      "eval_samples_per_second": 77.256,
+      "eval_steps_per_second": 3.863,
+      "step": 323428
     },
     {
+      "epoch": 28.15,
+      "learning_rate": 0.0004854606142806299,
+      "loss": 0.0066,
+      "step": 325210
     },
     {
+      "epoch": 28.49,
+      "learning_rate": 0.00047810002020027127,
+      "loss": 0.0039,
+      "step": 329036
     },
     {
+      "epoch": 28.82,
+      "learning_rate": 0.00047073942611991265,
+      "loss": 0.0033,
+      "step": 332862
     },
     {
+      "epoch": 29.0,
+      "eval_loss": 0.05752771720290184,
+      "eval_max_distance": 20,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.3104,
+      "eval_samples_per_second": 79.234,
+      "eval_steps_per_second": 3.962,
+      "step": 334979
     },
     {
+      "epoch": 29.15,
+      "learning_rate": 0.00046337883203955403,
+      "loss": 0.0061,
+      "step": 336688
     },
     {
+      "epoch": 29.48,
+      "learning_rate": 0.00045601823795919546,
+      "loss": 0.0034,
+      "step": 340514
     },
     {
+      "epoch": 29.81,
+      "learning_rate": 0.00044865764387883684,
+      "loss": 0.0031,
+      "step": 344340
     },
     {
+      "epoch": 30.0,
+      "eval_loss": 0.05623897165060043,
+      "eval_max_distance": 16,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2956,
+      "eval_samples_per_second": 79.42,
+      "eval_steps_per_second": 3.971,
+      "step": 346530
     },
     {
+      "epoch": 30.14,
+      "learning_rate": 0.0004412970497984782,
+      "loss": 0.0058,
+      "step": 348166
     },
     {
+      "epoch": 30.47,
+      "learning_rate": 0.00043393645571811965,
+      "loss": 0.0032,
+      "step": 351992
     },
     {
+      "epoch": 30.8,
+      "learning_rate": 0.0004265758616377611,
+      "loss": 0.0026,
+      "step": 355818
     },
     {
+      "epoch": 31.0,
+      "eval_loss": 0.05957825854420662,
       "eval_max_distance": 15,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.4083,
+      "eval_samples_per_second": 78.023,
+      "eval_steps_per_second": 3.901,
+      "step": 358081
     },
     {
+      "epoch": 31.14,
+      "learning_rate": 0.00041921526755740247,
+      "loss": 0.0051,
+      "step": 359644
     },
     {
+      "epoch": 31.47,
+      "learning_rate": 0.00041185467347704385,
+      "loss": 0.0031,
+      "step": 363470
     },
     {
+      "epoch": 31.8,
+      "learning_rate": 0.0004044940793966853,
       "loss": 0.0026,
+      "step": 367296
     },
     {
+      "epoch": 32.0,
+      "eval_loss": 0.06173785403370857,
+      "eval_max_distance": 30,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.2839,
+      "eval_samples_per_second": 79.568,
+      "eval_steps_per_second": 3.978,
+      "step": 369632
     },
     {
+      "epoch": 32.13,
+      "learning_rate": 0.00039713348531632666,
+      "loss": 0.0047,
+      "step": 371122
     },
     {
+      "epoch": 32.46,
+      "learning_rate": 0.00038977289123596804,
+      "loss": 0.0028,
+      "step": 374948
     },
     {
+      "epoch": 32.79,
+      "learning_rate": 0.0003824122971556094,
+      "loss": 0.0024,
+      "step": 378774
     },
     {
+      "epoch": 33.0,
+      "eval_loss": 0.05716051906347275,
+      "eval_max_distance": 20,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.221,
+      "eval_samples_per_second": 80.373,
+      "eval_steps_per_second": 4.019,
+      "step": 381183
     },
     {
+      "epoch": 33.12,
+      "learning_rate": 0.00037505170307525085,
+      "loss": 0.0042,
+      "step": 382600
     },
     {
+      "epoch": 33.45,
+      "learning_rate": 0.00036769110899489223,
+      "loss": 0.0026,
+      "step": 386426
     },
     {
+      "epoch": 33.79,
+      "learning_rate": 0.0003603305149145336,
+      "loss": 0.0022,
+      "step": 390252
     },
     {
+      "epoch": 34.0,
+      "eval_loss": 0.05569161847233772,
+      "eval_max_distance": 19,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2592,
+      "eval_samples_per_second": 79.883,
+      "eval_steps_per_second": 3.994,
+      "step": 392734
     },
     {
+      "epoch": 34.12,
+      "learning_rate": 0.000352969920834175,
+      "loss": 0.0039,
+      "step": 394078
     },
     {
+      "epoch": 34.45,
+      "learning_rate": 0.0003456093267538164,
+      "loss": 0.0024,
+      "step": 397904
     },
     {
+      "epoch": 34.78,
+      "learning_rate": 0.0003382487326734578,
+      "loss": 0.002,
+      "step": 401730
     },
     {
+      "epoch": 35.0,
+      "eval_loss": 0.06119859591126442,
+      "eval_max_distance": 17,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2535,
+      "eval_samples_per_second": 79.955,
+      "eval_steps_per_second": 3.998,
+      "step": 404285
     },
     {
+      "epoch": 35.11,
+      "learning_rate": 0.0003308881385930992,
+      "loss": 0.0035,
+      "step": 405556
     },
     {
+      "epoch": 35.44,
+      "learning_rate": 0.00032352754451274056,
+      "loss": 0.0023,
+      "step": 409382
     },
     {
+      "epoch": 35.77,
+      "learning_rate": 0.00031616695043238204,
+      "loss": 0.0017,
+      "step": 413208
     },
     {
+      "epoch": 36.0,
+      "eval_loss": 0.057597871869802475,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2578,
+      "eval_samples_per_second": 79.9,
+      "eval_steps_per_second": 3.995,
+      "step": 415836
     },
     {
+      "epoch": 36.1,
+      "learning_rate": 0.0003088063563520234,
+      "loss": 0.0032,
+      "step": 417034
     },
     {
+      "epoch": 36.43,
+      "learning_rate": 0.0003014457622716648,
+      "loss": 0.0021,
+      "step": 420860
     },
     {
+      "epoch": 36.77,
+      "learning_rate": 0.00029408516819130623,
+      "loss": 0.0016,
+      "step": 424686
     },
     {
+      "epoch": 37.0,
+      "eval_loss": 0.060558244585990906,
+      "eval_max_distance": 16,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2656,
+      "eval_samples_per_second": 79.801,
+      "eval_steps_per_second": 3.99,
+      "step": 427387
     },
     {
+      "epoch": 37.1,
+      "learning_rate": 0.0002867245741109476,
+      "loss": 0.003,
+      "step": 428512
     },
     {
+      "epoch": 37.43,
+      "learning_rate": 0.000279363980030589,
+      "loss": 0.0019,
+      "step": 432338
     },
     {
+      "epoch": 37.76,
+      "learning_rate": 0.00027200338595023037,
+      "loss": 0.0015,
+      "step": 436164
     },
     {
+      "epoch": 38.0,
+      "eval_loss": 0.057046957314014435,
+      "eval_max_distance": 24,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.266,
+      "eval_samples_per_second": 79.796,
+      "eval_steps_per_second": 3.99,
+      "step": 438938
     },
     {
+      "epoch": 38.09,
+      "learning_rate": 0.0002646427918698718,
+      "loss": 0.0026,
+      "step": 439990
     },
     {
+      "epoch": 38.42,
+      "learning_rate": 0.0002572821977895132,
+      "loss": 0.0018,
+      "step": 443816
     },
     {
+      "epoch": 38.75,
+      "learning_rate": 0.00024992160370915456,
+      "loss": 0.0013,
+      "step": 447642
     },
     {
+      "epoch": 39.0,
+      "eval_loss": 0.059430696070194244,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2947,
+      "eval_samples_per_second": 79.432,
+      "eval_steps_per_second": 3.972,
+      "step": 450489
     },
     {
+      "epoch": 39.08,
+      "learning_rate": 0.00024256100962879597,
+      "loss": 0.0024,
+      "step": 451468
     },
     {
+      "epoch": 39.42,
+      "learning_rate": 0.00023520041554843737,
+      "loss": 0.0017,
+      "step": 455294
     },
     {
+      "epoch": 39.75,
+      "learning_rate": 0.00022783982146807878,
+      "loss": 0.0012,
+      "step": 459120
     },
     {
+      "epoch": 40.0,
+      "eval_loss": 0.06027701497077942,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2086,
+      "eval_samples_per_second": 80.533,
+      "eval_steps_per_second": 4.027,
+      "step": 462040
     },
     {
+      "epoch": 40.08,
+      "learning_rate": 0.00022047922738772016,
+      "loss": 0.0021,
+      "step": 462946
     },
     {
+      "epoch": 40.41,
+      "learning_rate": 0.00021311863330736156,
+      "loss": 0.0015,
+      "step": 466772
     },
     {
+      "epoch": 40.74,
+      "learning_rate": 0.00020575803922700294,
+      "loss": 0.001,
+      "step": 470598
     },
     {
+      "epoch": 41.0,
+      "eval_loss": 0.06419633328914642,
+      "eval_max_distance": 20,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2439,
+      "eval_samples_per_second": 80.078,
+      "eval_steps_per_second": 4.004,
+      "step": 473591
     },
     {
+      "epoch": 41.07,
+      "learning_rate": 0.00019839744514664435,
+      "loss": 0.0019,
+      "step": 474424
     },
     {
+      "epoch": 41.4,
+      "learning_rate": 0.00019103685106628573,
+      "loss": 0.0014,
+      "step": 478250
     },
     {
+      "epoch": 41.73,
+      "learning_rate": 0.00018367625698592716,
+      "loss": 0.0009,
+      "step": 482076
     },
     {
+      "epoch": 42.0,
+      "eval_loss": 0.06380578130483627,
+      "eval_max_distance": 29,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2294,
+      "eval_samples_per_second": 80.264,
+      "eval_steps_per_second": 4.013,
+      "step": 485142
     },
     {
+      "epoch": 42.07,
+      "learning_rate": 0.00017631566290556854,
+      "loss": 0.0016,
+      "step": 485902
     },
     {
+      "epoch": 42.4,
+      "learning_rate": 0.00016895506882520995,
+      "loss": 0.0013,
+      "step": 489728
     },
     {
+      "epoch": 42.73,
+      "learning_rate": 0.00016159447474485133,
+      "loss": 0.0008,
+      "step": 493554
     },
     {
+      "epoch": 43.0,
+      "eval_loss": 0.0659068301320076,
+      "eval_max_distance": 29,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2148,
+      "eval_samples_per_second": 80.454,
+      "eval_steps_per_second": 4.023,
+      "step": 496693
     },
     {
+      "epoch": 43.06,
+      "learning_rate": 0.00015423388066449273,
+      "loss": 0.0014,
+      "step": 497380
     },
     {
+      "epoch": 43.39,
+      "learning_rate": 0.00014687328658413414,
+      "loss": 0.0012,
+      "step": 501206
     },
     {
+      "epoch": 43.72,
+      "learning_rate": 0.00013951269250377552,
+      "loss": 0.0007,
+      "step": 505032
     },
     {
+      "epoch": 44.0,
+      "eval_loss": 0.06715985387563705,
+      "eval_max_distance": 29,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.224,
+      "eval_samples_per_second": 80.334,
+      "eval_steps_per_second": 4.017,
+      "step": 508244
     },
     {
+      "epoch": 44.05,
+      "learning_rate": 0.00013215209842341695,
+      "loss": 0.0012,
+      "step": 508858
     },
     {
+      "epoch": 44.38,
+      "learning_rate": 0.00012479150434305833,
+      "loss": 0.0011,
+      "step": 512684
     },
     {
+      "epoch": 44.72,
+      "learning_rate": 0.00011743091026269972,
+      "loss": 0.0007,
+      "step": 516510
     },
     {
+      "epoch": 45.0,
+      "eval_loss": 0.06622961163520813,
+      "eval_max_distance": 19,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.2443,
+      "eval_samples_per_second": 80.072,
+      "eval_steps_per_second": 4.004,
+      "step": 519795
     },
     {
+      "epoch": 45.05,
+      "learning_rate": 0.00011007031618234111,
+      "loss": 0.0012,
+      "step": 520336
     },
     {
+      "epoch": 45.38,
+      "learning_rate": 0.0001027097221019825,
+      "loss": 0.001,
+      "step": 524162
     },
     {
+      "epoch": 45.71,
+      "learning_rate": 9.534912802162391e-05,
+      "loss": 0.0006,
+      "step": 527988
     },
     {
+      "epoch": 46.0,
+      "eval_loss": 0.06662679463624954,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.231,
+      "eval_samples_per_second": 80.244,
+      "eval_steps_per_second": 4.012,
+      "step": 531346
     },
     {
+      "epoch": 46.04,
+      "learning_rate": 8.79885339412653e-05,
+      "loss": 0.001,
+      "step": 531814
     },
     {
+      "epoch": 46.37,
+      "learning_rate": 8.062793986090671e-05,
+      "loss": 0.0009,
+      "step": 535640
     },
     {
+      "epoch": 46.7,
+      "learning_rate": 7.32673457805481e-05,
+      "loss": 0.0006,
+      "step": 539466
     },
     {
+      "epoch": 47.0,
+      "eval_loss": 0.06897546350955963,
+      "eval_max_distance": 22,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.1748,
+      "eval_samples_per_second": 80.974,
+      "eval_steps_per_second": 4.049,
+      "step": 542897
     },
     {
+      "epoch": 47.03,
+      "learning_rate": 6.590675170018951e-05,
+      "loss": 0.0008,
+      "step": 543292
     },
     {
+      "epoch": 47.37,
+      "learning_rate": 5.8546157619830895e-05,
+      "loss": 0.0009,
+      "step": 547118
     },
     {
+      "epoch": 47.7,
+      "learning_rate": 5.118556353947229e-05,
+      "loss": 0.0005,
+      "step": 550944
     },
     {
+      "epoch": 48.0,
+      "eval_loss": 0.06699105352163315,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.2182,
+      "eval_samples_per_second": 80.408,
+      "eval_steps_per_second": 4.02,
+      "step": 554448
     },
     {
+      "epoch": 48.03,
+      "learning_rate": 4.3824969459113694e-05,
+      "loss": 0.0007,
+      "step": 554770
     },
     {
+      "epoch": 48.36,
+      "learning_rate": 3.6464375378755086e-05,
+      "loss": 0.0008,
+      "step": 558596
     },
     {
+      "epoch": 48.69,
+      "learning_rate": 2.9103781298396486e-05,
+      "loss": 0.0005,
+      "step": 562422
     },
     {
+      "epoch": 49.0,
+      "eval_loss": 0.06619732826948166,
+      "eval_max_distance": 18,
+      "eval_mean_distance": 0,
+      "eval_runtime": 6.1996,
+      "eval_samples_per_second": 80.65,
+      "eval_steps_per_second": 4.033,
+      "step": 565999
     },
     {
+      "epoch": 49.02,
+      "learning_rate": 2.174318721803788e-05,
+      "loss": 0.0006,
+      "step": 566248
     },
     {
+      "epoch": 49.35,
+      "learning_rate": 1.4382593137679277e-05,
+      "loss": 0.0008,
+      "step": 570074
     },
     {
+      "epoch": 49.68,
+      "learning_rate": 7.021999057320674e-06,
+      "loss": 0.0004,
+      "step": 573900
     },
     {
+      "epoch": 50.0,
+      "eval_loss": 0.06643164157867432,
+      "eval_max_distance": 18,
       "eval_mean_distance": 0,
+      "eval_runtime": 6.1338,
+      "eval_samples_per_second": 81.515,
+      "eval_steps_per_second": 4.076,
+      "step": 577550
+    },
+    {
+      "epoch": 50.0,
+      "step": 577550,
+      "total_flos": 1.5364586760247296e+17,
+      "train_loss": 0.0020910642477260833,
+      "train_runtime": 25597.0641,
+      "train_samples_per_second": 451.228,
+      "train_steps_per_second": 22.563
     }
   ],
+  "logging_steps": 3826,
+  "max_steps": 577550,
+  "num_train_epochs": 50,
+  "save_steps": 7651,
+  "total_flos": 1.5364586760247296e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d22aeb992bd9320e28438aa9818e67e4f3f8675fde0b30b307f79b248f69c20
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:a64071366e9d286f33b1e765c4a984a49be987c34b012df2ba201216f721839e
 size 4091