text-translit-detector-ru / trainer_state.json

End of training

750214d 12 months ago

35.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 40.0,
	"eval_steps": 500,
	"global_step": 106560,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 9.384384384384385e-09,
	"loss": 30.0191,
	"step": 1
	},
	{
	"epoch": 0.2,
	"learning_rate": 5.001876876876877e-06,
	"loss": 28.4983,
	"step": 533
	},
	{
	"epoch": 0.4,
	"learning_rate": 1.0003753753753754e-05,
	"loss": 21.5164,
	"step": 1066
	},
	{
	"epoch": 0.6,
	"learning_rate": 1.5005630630630632e-05,
	"loss": 7.132,
	"step": 1599
	},
	{
	"epoch": 0.8,
	"learning_rate": 2.000750750750751e-05,
	"loss": 0.8541,
	"step": 2132
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.3403850197792053,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 1.1154,
	"eval_samples_per_second": 320.968,
	"eval_steps_per_second": 21.517,
	"step": 2664
	},
	{
	"epoch": 1.0,
	"learning_rate": 2.500938438438439e-05,
	"loss": 0.3348,
	"step": 2665
	},
	{
	"epoch": 1.2,
	"learning_rate": 3.0011261261261263e-05,
	"loss": 0.5279,
	"step": 3198
	},
	{
	"epoch": 1.4,
	"learning_rate": 3.501313813813814e-05,
	"loss": 0.2294,
	"step": 3731
	},
	{
	"epoch": 1.6,
	"learning_rate": 4.001501501501502e-05,
	"loss": 0.0605,
	"step": 4264
	},
	{
	"epoch": 1.8,
	"learning_rate": 4.5016891891891895e-05,
	"loss": 0.0451,
	"step": 4797
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.060470160096883774,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9182,
	"eval_samples_per_second": 389.888,
	"eval_steps_per_second": 26.138,
	"step": 5328
	},
	{
	"epoch": 2.0,
	"learning_rate": 5.001876876876878e-05,
	"loss": 0.0605,
	"step": 5330
	},
	{
	"epoch": 2.2,
	"learning_rate": 5.502064564564565e-05,
	"loss": 0.025,
	"step": 5863
	},
	{
	"epoch": 2.4,
	"learning_rate": 6.0022522522522526e-05,
	"loss": 0.0193,
	"step": 6396
	},
	{
	"epoch": 2.6,
	"learning_rate": 6.502439939939941e-05,
	"loss": 0.0153,
	"step": 6929
	},
	{
	"epoch": 2.8,
	"learning_rate": 7.002627627627628e-05,
	"loss": 0.0112,
	"step": 7462
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.04112406447529793,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9146,
	"eval_samples_per_second": 391.418,
	"eval_steps_per_second": 26.24,
	"step": 7992
	},
	{
	"epoch": 3.0,
	"learning_rate": 7.502815315315315e-05,
	"loss": 0.0109,
	"step": 7995
	},
	{
	"epoch": 3.2,
	"learning_rate": 8.003003003003004e-05,
	"loss": 0.0095,
	"step": 8528
	},
	{
	"epoch": 3.4,
	"learning_rate": 8.50319069069069e-05,
	"loss": 0.012,
	"step": 9061
	},
	{
	"epoch": 3.6,
	"learning_rate": 9.003378378378379e-05,
	"loss": 0.0223,
	"step": 9594
	},
	{
	"epoch": 3.8,
	"learning_rate": 9.503566066066066e-05,
	"loss": 0.0068,
	"step": 10127
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.020507752895355225,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9253,
	"eval_samples_per_second": 386.912,
	"eval_steps_per_second": 25.938,
	"step": 10656
	},
	{
	"epoch": 4.0,
	"learning_rate": 9.999582916249583e-05,
	"loss": 0.0077,
	"step": 10660
	},
	{
	"epoch": 4.2,
	"learning_rate": 9.944006506506507e-05,
	"loss": 0.0058,
	"step": 11193
	},
	{
	"epoch": 4.4,
	"learning_rate": 9.88843009676343e-05,
	"loss": 0.0072,
	"step": 11726
	},
	{
	"epoch": 4.6,
	"learning_rate": 9.832853687020355e-05,
	"loss": 0.0097,
	"step": 12259
	},
	{
	"epoch": 4.8,
	"learning_rate": 9.777277277277279e-05,
	"loss": 0.007,
	"step": 12792
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.02420434169471264,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9141,
	"eval_samples_per_second": 391.658,
	"eval_steps_per_second": 26.256,
	"step": 13320
	},
	{
	"epoch": 5.0,
	"learning_rate": 9.721700867534201e-05,
	"loss": 0.0049,
	"step": 13325
	},
	{
	"epoch": 5.2,
	"learning_rate": 9.666124457791124e-05,
	"loss": 0.005,
	"step": 13858
	},
	{
	"epoch": 5.4,
	"learning_rate": 9.610548048048048e-05,
	"loss": 0.0035,
	"step": 14391
	},
	{
	"epoch": 5.6,
	"learning_rate": 9.554971638304973e-05,
	"loss": 0.0061,
	"step": 14924
	},
	{
	"epoch": 5.8,
	"learning_rate": 9.499395228561896e-05,
	"loss": 0.0022,
	"step": 15457
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.027173461392521858,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9101,
	"eval_samples_per_second": 393.378,
	"eval_steps_per_second": 26.372,
	"step": 15984
	},
	{
	"epoch": 6.0,
	"learning_rate": 9.44381881881882e-05,
	"loss": 0.0048,
	"step": 15990
	},
	{
	"epoch": 6.2,
	"learning_rate": 9.388242409075743e-05,
	"loss": 0.0053,
	"step": 16523
	},
	{
	"epoch": 6.4,
	"learning_rate": 9.332665999332665e-05,
	"loss": 0.005,
	"step": 17056
	},
	{
	"epoch": 6.6,
	"learning_rate": 9.27708958958959e-05,
	"loss": 0.0034,
	"step": 17589
	},
	{
	"epoch": 6.8,
	"learning_rate": 9.221513179846514e-05,
	"loss": 0.0054,
	"step": 18122
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.008011276833713055,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9187,
	"eval_samples_per_second": 389.697,
	"eval_steps_per_second": 26.125,
	"step": 18648
	},
	{
	"epoch": 7.0,
	"learning_rate": 9.165936770103437e-05,
	"loss": 0.0036,
	"step": 18655
	},
	{
	"epoch": 7.2,
	"learning_rate": 9.110360360360361e-05,
	"loss": 0.002,
	"step": 19188
	},
	{
	"epoch": 7.4,
	"learning_rate": 9.054783950617284e-05,
	"loss": 0.0029,
	"step": 19721
	},
	{
	"epoch": 7.6,
	"learning_rate": 8.999207540874208e-05,
	"loss": 0.0031,
	"step": 20254
	},
	{
	"epoch": 7.8,
	"learning_rate": 8.943631131131131e-05,
	"loss": 0.0036,
	"step": 20787
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.025212394073605537,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9136,
	"eval_samples_per_second": 391.872,
	"eval_steps_per_second": 26.271,
	"step": 21312
	},
	{
	"epoch": 8.0,
	"learning_rate": 8.888054721388055e-05,
	"loss": 0.0022,
	"step": 21320
	},
	{
	"epoch": 8.2,
	"learning_rate": 8.832478311644978e-05,
	"loss": 0.0021,
	"step": 21853
	},
	{
	"epoch": 8.4,
	"learning_rate": 8.776901901901903e-05,
	"loss": 0.0016,
	"step": 22386
	},
	{
	"epoch": 8.6,
	"learning_rate": 8.721325492158827e-05,
	"loss": 0.0021,
	"step": 22919
	},
	{
	"epoch": 8.8,
	"learning_rate": 8.665749082415749e-05,
	"loss": 0.0039,
	"step": 23452
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.020978303626179695,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9126,
	"eval_samples_per_second": 392.285,
	"eval_steps_per_second": 26.298,
	"step": 23976
	},
	{
	"epoch": 9.0,
	"learning_rate": 8.610172672672672e-05,
	"loss": 0.0032,
	"step": 23985
	},
	{
	"epoch": 9.2,
	"learning_rate": 8.554596262929596e-05,
	"loss": 0.0027,
	"step": 24518
	},
	{
	"epoch": 9.4,
	"learning_rate": 8.499019853186521e-05,
	"loss": 0.0022,
	"step": 25051
	},
	{
	"epoch": 9.6,
	"learning_rate": 8.443443443443444e-05,
	"loss": 0.002,
	"step": 25584
	},
	{
	"epoch": 9.8,
	"learning_rate": 8.387867033700368e-05,
	"loss": 0.0026,
	"step": 26117
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.017031751573085785,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9145,
	"eval_samples_per_second": 391.481,
	"eval_steps_per_second": 26.245,
	"step": 26640
	},
	{
	"epoch": 10.0,
	"learning_rate": 8.332290623957291e-05,
	"loss": 0.0014,
	"step": 26650
	},
	{
	"epoch": 10.2,
	"learning_rate": 8.276714214214215e-05,
	"loss": 0.0016,
	"step": 27183
	},
	{
	"epoch": 10.4,
	"learning_rate": 8.221137804471138e-05,
	"loss": 0.0045,
	"step": 27716
	},
	{
	"epoch": 10.6,
	"learning_rate": 8.165561394728062e-05,
	"loss": 0.0017,
	"step": 28249
	},
	{
	"epoch": 10.8,
	"learning_rate": 8.109984984984985e-05,
	"loss": 0.0026,
	"step": 28782
	},
	{
	"epoch": 11.0,
	"eval_loss": 0.004335461650043726,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9104,
	"eval_samples_per_second": 393.245,
	"eval_steps_per_second": 26.363,
	"step": 29304
	},
	{
	"epoch": 11.0,
	"learning_rate": 8.054408575241909e-05,
	"loss": 0.0016,
	"step": 29315
	},
	{
	"epoch": 11.2,
	"learning_rate": 7.998832165498832e-05,
	"loss": 0.0006,
	"step": 29848
	},
	{
	"epoch": 11.4,
	"learning_rate": 7.943255755755756e-05,
	"loss": 0.0011,
	"step": 30381
	},
	{
	"epoch": 11.6,
	"learning_rate": 7.88767934601268e-05,
	"loss": 0.0009,
	"step": 30914
	},
	{
	"epoch": 11.8,
	"learning_rate": 7.832102936269603e-05,
	"loss": 0.0029,
	"step": 31447
	},
	{
	"epoch": 12.0,
	"eval_loss": 0.013542454689741135,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9125,
	"eval_samples_per_second": 392.323,
	"eval_steps_per_second": 26.301,
	"step": 31968
	},
	{
	"epoch": 12.0,
	"learning_rate": 7.776526526526526e-05,
	"loss": 0.0029,
	"step": 31980
	},
	{
	"epoch": 12.2,
	"learning_rate": 7.720950116783451e-05,
	"loss": 0.0008,
	"step": 32513
	},
	{
	"epoch": 12.4,
	"learning_rate": 7.665373707040375e-05,
	"loss": 0.0027,
	"step": 33046
	},
	{
	"epoch": 12.6,
	"learning_rate": 7.609797297297297e-05,
	"loss": 0.0016,
	"step": 33579
	},
	{
	"epoch": 12.8,
	"learning_rate": 7.55422088755422e-05,
	"loss": 0.0011,
	"step": 34112
	},
	{
	"epoch": 13.0,
	"eval_loss": 0.03128792718052864,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9117,
	"eval_samples_per_second": 392.662,
	"eval_steps_per_second": 26.324,
	"step": 34632
	},
	{
	"epoch": 13.0,
	"learning_rate": 7.498644477811145e-05,
	"loss": 0.0007,
	"step": 34645
	},
	{
	"epoch": 13.2,
	"learning_rate": 7.443068068068069e-05,
	"loss": 0.0014,
	"step": 35178
	},
	{
	"epoch": 13.41,
	"learning_rate": 7.387491658324992e-05,
	"loss": 0.0067,
	"step": 35711
	},
	{
	"epoch": 13.61,
	"learning_rate": 7.331915248581916e-05,
	"loss": 0.0008,
	"step": 36244
	},
	{
	"epoch": 13.81,
	"learning_rate": 7.27633883883884e-05,
	"loss": 0.0017,
	"step": 36777
	},
	{
	"epoch": 14.0,
	"eval_loss": 0.03530227765440941,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9178,
	"eval_samples_per_second": 390.083,
	"eval_steps_per_second": 26.151,
	"step": 37296
	},
	{
	"epoch": 14.01,
	"learning_rate": 7.220762429095763e-05,
	"loss": 0.001,
	"step": 37310
	},
	{
	"epoch": 14.21,
	"learning_rate": 7.165186019352686e-05,
	"loss": 0.001,
	"step": 37843
	},
	{
	"epoch": 14.41,
	"learning_rate": 7.10960960960961e-05,
	"loss": 0.0012,
	"step": 38376
	},
	{
	"epoch": 14.61,
	"learning_rate": 7.054033199866533e-05,
	"loss": 0.0011,
	"step": 38909
	},
	{
	"epoch": 14.81,
	"learning_rate": 6.998456790123458e-05,
	"loss": 0.0014,
	"step": 39442
	},
	{
	"epoch": 15.0,
	"eval_loss": 0.011675473302602768,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.916,
	"eval_samples_per_second": 390.823,
	"eval_steps_per_second": 26.2,
	"step": 39960
	},
	{
	"epoch": 15.01,
	"learning_rate": 6.94288038038038e-05,
	"loss": 0.001,
	"step": 39975
	},
	{
	"epoch": 15.21,
	"learning_rate": 6.887303970637304e-05,
	"loss": 0.0003,
	"step": 40508
	},
	{
	"epoch": 15.41,
	"learning_rate": 6.831727560894227e-05,
	"loss": 0.002,
	"step": 41041
	},
	{
	"epoch": 15.61,
	"learning_rate": 6.776151151151151e-05,
	"loss": 0.001,
	"step": 41574
	},
	{
	"epoch": 15.81,
	"learning_rate": 6.720574741408076e-05,
	"loss": 0.0014,
	"step": 42107
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.0139808664098382,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9131,
	"eval_samples_per_second": 392.074,
	"eval_steps_per_second": 26.284,
	"step": 42624
	},
	{
	"epoch": 16.01,
	"learning_rate": 6.664998331665e-05,
	"loss": 0.0007,
	"step": 42640
	},
	{
	"epoch": 16.21,
	"learning_rate": 6.609421921921923e-05,
	"loss": 0.0004,
	"step": 43173
	},
	{
	"epoch": 16.41,
	"learning_rate": 6.553845512178845e-05,
	"loss": 0.0006,
	"step": 43706
	},
	{
	"epoch": 16.61,
	"learning_rate": 6.498269102435769e-05,
	"loss": 0.0017,
	"step": 44239
	},
	{
	"epoch": 16.81,
	"learning_rate": 6.442692692692693e-05,
	"loss": 0.0013,
	"step": 44772
	},
	{
	"epoch": 17.0,
	"eval_loss": 0.022025227546691895,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9176,
	"eval_samples_per_second": 390.127,
	"eval_steps_per_second": 26.154,
	"step": 45288
	},
	{
	"epoch": 17.01,
	"learning_rate": 6.387116282949617e-05,
	"loss": 0.0013,
	"step": 45305
	},
	{
	"epoch": 17.21,
	"learning_rate": 6.33153987320654e-05,
	"loss": 0.0003,
	"step": 45838
	},
	{
	"epoch": 17.41,
	"learning_rate": 6.275963463463464e-05,
	"loss": 0.0011,
	"step": 46371
	},
	{
	"epoch": 17.61,
	"learning_rate": 6.220387053720387e-05,
	"loss": 0.0004,
	"step": 46904
	},
	{
	"epoch": 17.81,
	"learning_rate": 6.164810643977311e-05,
	"loss": 0.0009,
	"step": 47437
	},
	{
	"epoch": 18.0,
	"eval_loss": 0.024678541347384453,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.908,
	"eval_samples_per_second": 394.28,
	"eval_steps_per_second": 26.432,
	"step": 47952
	},
	{
	"epoch": 18.01,
	"learning_rate": 6.109234234234234e-05,
	"loss": 0.0023,
	"step": 47970
	},
	{
	"epoch": 18.21,
	"learning_rate": 6.053657824491158e-05,
	"loss": 0.0007,
	"step": 48503
	},
	{
	"epoch": 18.41,
	"learning_rate": 5.9980814147480815e-05,
	"loss": 0.0015,
	"step": 49036
	},
	{
	"epoch": 18.61,
	"learning_rate": 5.9425050050050057e-05,
	"loss": 0.0004,
	"step": 49569
	},
	{
	"epoch": 18.81,
	"learning_rate": 5.886928595261929e-05,
	"loss": 0.0017,
	"step": 50102
	},
	{
	"epoch": 19.0,
	"eval_loss": 0.03220739960670471,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9151,
	"eval_samples_per_second": 391.2,
	"eval_steps_per_second": 26.226,
	"step": 50616
	},
	{
	"epoch": 19.01,
	"learning_rate": 5.831352185518853e-05,
	"loss": 0.0011,
	"step": 50635
	},
	{
	"epoch": 19.21,
	"learning_rate": 5.7757757757757755e-05,
	"loss": 0.0009,
	"step": 51168
	},
	{
	"epoch": 19.41,
	"learning_rate": 5.720199366032699e-05,
	"loss": 0.0005,
	"step": 51701
	},
	{
	"epoch": 19.61,
	"learning_rate": 5.664622956289624e-05,
	"loss": 0.0011,
	"step": 52234
	},
	{
	"epoch": 19.81,
	"learning_rate": 5.609046546546547e-05,
	"loss": 0.0022,
	"step": 52767
	},
	{
	"epoch": 20.0,
	"eval_loss": 0.0314439982175827,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9074,
	"eval_samples_per_second": 394.526,
	"eval_steps_per_second": 26.449,
	"step": 53280
	},
	{
	"epoch": 20.01,
	"learning_rate": 5.55347013680347e-05,
	"loss": 0.001,
	"step": 53300
	},
	{
	"epoch": 20.21,
	"learning_rate": 5.497893727060394e-05,
	"loss": 0.001,
	"step": 53833
	},
	{
	"epoch": 20.41,
	"learning_rate": 5.442317317317318e-05,
	"loss": 0.0,
	"step": 54366
	},
	{
	"epoch": 20.61,
	"learning_rate": 5.3867409075742415e-05,
	"loss": 0.0015,
	"step": 54899
	},
	{
	"epoch": 20.81,
	"learning_rate": 5.331164497831165e-05,
	"loss": 0.0006,
	"step": 55432
	},
	{
	"epoch": 21.0,
	"eval_loss": 0.030524656176567078,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9097,
	"eval_samples_per_second": 393.555,
	"eval_steps_per_second": 26.384,
	"step": 55944
	},
	{
	"epoch": 21.01,
	"learning_rate": 5.275588088088088e-05,
	"loss": 0.0005,
	"step": 55965
	},
	{
	"epoch": 21.21,
	"learning_rate": 5.220011678345011e-05,
	"loss": 0.0006,
	"step": 56498
	},
	{
	"epoch": 21.41,
	"learning_rate": 5.164435268601936e-05,
	"loss": 0.0012,
	"step": 57031
	},
	{
	"epoch": 21.61,
	"learning_rate": 5.108858858858859e-05,
	"loss": 0.0005,
	"step": 57564
	},
	{
	"epoch": 21.81,
	"learning_rate": 5.0532824491157825e-05,
	"loss": 0.001,
	"step": 58097
	},
	{
	"epoch": 22.0,
	"eval_loss": 0.029209736734628677,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9114,
	"eval_samples_per_second": 392.814,
	"eval_steps_per_second": 26.334,
	"step": 58608
	},
	{
	"epoch": 22.01,
	"learning_rate": 4.997706039372707e-05,
	"loss": 0.0007,
	"step": 58630
	},
	{
	"epoch": 22.21,
	"learning_rate": 4.94212962962963e-05,
	"loss": 0.0011,
	"step": 59163
	},
	{
	"epoch": 22.41,
	"learning_rate": 4.886553219886553e-05,
	"loss": 0.0004,
	"step": 59696
	},
	{
	"epoch": 22.61,
	"learning_rate": 4.830976810143477e-05,
	"loss": 0.001,
	"step": 60229
	},
	{
	"epoch": 22.81,
	"learning_rate": 4.775400400400401e-05,
	"loss": 0.0008,
	"step": 60762
	},
	{
	"epoch": 23.0,
	"eval_loss": 0.03728558123111725,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9095,
	"eval_samples_per_second": 393.613,
	"eval_steps_per_second": 26.387,
	"step": 61272
	},
	{
	"epoch": 23.01,
	"learning_rate": 4.719823990657324e-05,
	"loss": 0.0001,
	"step": 61295
	},
	{
	"epoch": 23.21,
	"learning_rate": 4.664247580914248e-05,
	"loss": 0.0006,
	"step": 61828
	},
	{
	"epoch": 23.41,
	"learning_rate": 4.608671171171172e-05,
	"loss": 0.0002,
	"step": 62361
	},
	{
	"epoch": 23.61,
	"learning_rate": 4.553094761428095e-05,
	"loss": 0.0009,
	"step": 62894
	},
	{
	"epoch": 23.81,
	"learning_rate": 4.497518351685018e-05,
	"loss": 0.0008,
	"step": 63427
	},
	{
	"epoch": 24.0,
	"eval_loss": 0.030942877754569054,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9149,
	"eval_samples_per_second": 391.282,
	"eval_steps_per_second": 26.231,
	"step": 63936
	},
	{
	"epoch": 24.01,
	"learning_rate": 4.4419419419419425e-05,
	"loss": 0.0003,
	"step": 63960
	},
	{
	"epoch": 24.21,
	"learning_rate": 4.386365532198865e-05,
	"loss": 0.0007,
	"step": 64493
	},
	{
	"epoch": 24.41,
	"learning_rate": 4.3307891224557895e-05,
	"loss": 0.0004,
	"step": 65026
	},
	{
	"epoch": 24.61,
	"learning_rate": 4.275212712712713e-05,
	"loss": 0.0001,
	"step": 65559
	},
	{
	"epoch": 24.81,
	"learning_rate": 4.2196363029696365e-05,
	"loss": 0.0008,
	"step": 66092
	},
	{
	"epoch": 25.0,
	"eval_loss": 0.038451410830020905,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9087,
	"eval_samples_per_second": 393.969,
	"eval_steps_per_second": 26.411,
	"step": 66600
	},
	{
	"epoch": 25.01,
	"learning_rate": 4.16405989322656e-05,
	"loss": 0.0006,
	"step": 66625
	},
	{
	"epoch": 25.21,
	"learning_rate": 4.1084834834834836e-05,
	"loss": 0.0,
	"step": 67158
	},
	{
	"epoch": 25.41,
	"learning_rate": 4.052907073740407e-05,
	"loss": 0.0013,
	"step": 67691
	},
	{
	"epoch": 25.61,
	"learning_rate": 3.9973306639973306e-05,
	"loss": 0.0001,
	"step": 68224
	},
	{
	"epoch": 25.81,
	"learning_rate": 3.941754254254255e-05,
	"loss": 0.0014,
	"step": 68757
	},
	{
	"epoch": 26.0,
	"eval_loss": 0.0133729362860322,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9209,
	"eval_samples_per_second": 388.755,
	"eval_steps_per_second": 26.062,
	"step": 69264
	},
	{
	"epoch": 26.01,
	"learning_rate": 3.8861778445111776e-05,
	"loss": 0.0001,
	"step": 69290
	},
	{
	"epoch": 26.21,
	"learning_rate": 3.830601434768102e-05,
	"loss": 0.0008,
	"step": 69823
	},
	{
	"epoch": 26.41,
	"learning_rate": 3.775025025025025e-05,
	"loss": 0.0008,
	"step": 70356
	},
	{
	"epoch": 26.61,
	"learning_rate": 3.719448615281949e-05,
	"loss": 0.0002,
	"step": 70889
	},
	{
	"epoch": 26.81,
	"learning_rate": 3.663872205538872e-05,
	"loss": 0.0004,
	"step": 71422
	},
	{
	"epoch": 27.0,
	"eval_loss": 0.023867754265666008,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9071,
	"eval_samples_per_second": 394.647,
	"eval_steps_per_second": 26.457,
	"step": 71928
	},
	{
	"epoch": 27.01,
	"learning_rate": 3.608295795795796e-05,
	"loss": 0.0009,
	"step": 71955
	},
	{
	"epoch": 27.21,
	"learning_rate": 3.55271938605272e-05,
	"loss": 0.0005,
	"step": 72488
	},
	{
	"epoch": 27.41,
	"learning_rate": 3.497142976309643e-05,
	"loss": 0.0007,
	"step": 73021
	},
	{
	"epoch": 27.61,
	"learning_rate": 3.441566566566567e-05,
	"loss": 0.0001,
	"step": 73554
	},
	{
	"epoch": 27.81,
	"learning_rate": 3.3859901568234906e-05,
	"loss": 0.0011,
	"step": 74087
	},
	{
	"epoch": 28.0,
	"eval_loss": 0.01642591878771782,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9124,
	"eval_samples_per_second": 392.371,
	"eval_steps_per_second": 26.304,
	"step": 74592
	},
	{
	"epoch": 28.01,
	"learning_rate": 3.3304137470804134e-05,
	"loss": 0.0006,
	"step": 74620
	},
	{
	"epoch": 28.21,
	"learning_rate": 3.2748373373373376e-05,
	"loss": 0.0008,
	"step": 75153
	},
	{
	"epoch": 28.41,
	"learning_rate": 3.219260927594261e-05,
	"loss": 0.0005,
	"step": 75686
	},
	{
	"epoch": 28.61,
	"learning_rate": 3.1636845178511846e-05,
	"loss": 0.0002,
	"step": 76219
	},
	{
	"epoch": 28.81,
	"learning_rate": 3.108108108108108e-05,
	"loss": 0.0002,
	"step": 76752
	},
	{
	"epoch": 29.0,
	"eval_loss": 0.018625039607286453,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9144,
	"eval_samples_per_second": 391.524,
	"eval_steps_per_second": 26.247,
	"step": 77256
	},
	{
	"epoch": 29.01,
	"learning_rate": 3.052531698365032e-05,
	"loss": 0.0003,
	"step": 77285
	},
	{
	"epoch": 29.21,
	"learning_rate": 2.9969552886219555e-05,
	"loss": 0.0002,
	"step": 77818
	},
	{
	"epoch": 29.41,
	"learning_rate": 2.9413788788788787e-05,
	"loss": 0.0001,
	"step": 78351
	},
	{
	"epoch": 29.61,
	"learning_rate": 2.8858024691358025e-05,
	"loss": 0.0013,
	"step": 78884
	},
	{
	"epoch": 29.81,
	"learning_rate": 2.830226059392726e-05,
	"loss": 0.0001,
	"step": 79417
	},
	{
	"epoch": 30.0,
	"eval_loss": 0.029812639579176903,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9075,
	"eval_samples_per_second": 394.481,
	"eval_steps_per_second": 26.446,
	"step": 79920
	},
	{
	"epoch": 30.01,
	"learning_rate": 2.77464964964965e-05,
	"loss": 0.0012,
	"step": 79950
	},
	{
	"epoch": 30.21,
	"learning_rate": 2.7190732399065734e-05,
	"loss": 0.0003,
	"step": 80483
	},
	{
	"epoch": 30.41,
	"learning_rate": 2.6634968301634972e-05,
	"loss": 0.0001,
	"step": 81016
	},
	{
	"epoch": 30.61,
	"learning_rate": 2.6079204204204204e-05,
	"loss": 0.0004,
	"step": 81549
	},
	{
	"epoch": 30.81,
	"learning_rate": 2.5523440106773443e-05,
	"loss": 0.0008,
	"step": 82082
	},
	{
	"epoch": 31.0,
	"eval_loss": 0.027695728465914726,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9096,
	"eval_samples_per_second": 393.574,
	"eval_steps_per_second": 26.385,
	"step": 82584
	},
	{
	"epoch": 31.01,
	"learning_rate": 2.4967676009342678e-05,
	"loss": 0.0008,
	"step": 82615
	},
	{
	"epoch": 31.21,
	"learning_rate": 2.4411911911911913e-05,
	"loss": 0.0003,
	"step": 83148
	},
	{
	"epoch": 31.41,
	"learning_rate": 2.385614781448115e-05,
	"loss": 0.0003,
	"step": 83681
	},
	{
	"epoch": 31.61,
	"learning_rate": 2.3300383717050383e-05,
	"loss": 0.0002,
	"step": 84214
	},
	{
	"epoch": 31.81,
	"learning_rate": 2.2744619619619618e-05,
	"loss": 0.0003,
	"step": 84747
	},
	{
	"epoch": 32.0,
	"eval_loss": 0.03773302584886551,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9096,
	"eval_samples_per_second": 393.585,
	"eval_steps_per_second": 26.386,
	"step": 85248
	},
	{
	"epoch": 32.01,
	"learning_rate": 2.2188855522188857e-05,
	"loss": 0.0007,
	"step": 85280
	},
	{
	"epoch": 32.21,
	"learning_rate": 2.1633091424758092e-05,
	"loss": 0.001,
	"step": 85813
	},
	{
	"epoch": 32.41,
	"learning_rate": 2.107732732732733e-05,
	"loss": 0.0002,
	"step": 86346
	},
	{
	"epoch": 32.61,
	"learning_rate": 2.0521563229896565e-05,
	"loss": 0.0002,
	"step": 86879
	},
	{
	"epoch": 32.81,
	"learning_rate": 1.99657991324658e-05,
	"loss": 0.0003,
	"step": 87412
	},
	{
	"epoch": 33.0,
	"eval_loss": 0.03536462038755417,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9089,
	"eval_samples_per_second": 393.87,
	"eval_steps_per_second": 26.405,
	"step": 87912
	},
	{
	"epoch": 33.01,
	"learning_rate": 1.9410035035035036e-05,
	"loss": 0.0006,
	"step": 87945
	},
	{
	"epoch": 33.21,
	"learning_rate": 1.885427093760427e-05,
	"loss": 0.0003,
	"step": 88478
	},
	{
	"epoch": 33.41,
	"learning_rate": 1.8298506840173506e-05,
	"loss": 0.0003,
	"step": 89011
	},
	{
	"epoch": 33.61,
	"learning_rate": 1.7742742742742744e-05,
	"loss": 0.0006,
	"step": 89544
	},
	{
	"epoch": 33.81,
	"learning_rate": 1.718697864531198e-05,
	"loss": 0.0007,
	"step": 90077
	},
	{
	"epoch": 34.0,
	"eval_loss": 0.05854496732354164,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9101,
	"eval_samples_per_second": 393.356,
	"eval_steps_per_second": 26.37,
	"step": 90576
	},
	{
	"epoch": 34.01,
	"learning_rate": 1.6631214547881215e-05,
	"loss": 0.0002,
	"step": 90610
	},
	{
	"epoch": 34.21,
	"learning_rate": 1.6075450450450453e-05,
	"loss": 0.0006,
	"step": 91143
	},
	{
	"epoch": 34.41,
	"learning_rate": 1.5519686353019688e-05,
	"loss": 0.0003,
	"step": 91676
	},
	{
	"epoch": 34.61,
	"learning_rate": 1.4963922255588922e-05,
	"loss": 0.0006,
	"step": 92209
	},
	{
	"epoch": 34.81,
	"learning_rate": 1.4408158158158158e-05,
	"loss": 0.0005,
	"step": 92742
	},
	{
	"epoch": 35.0,
	"eval_loss": 0.05680559575557709,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9087,
	"eval_samples_per_second": 393.956,
	"eval_steps_per_second": 26.41,
	"step": 93240
	},
	{
	"epoch": 35.01,
	"learning_rate": 1.3852394060727395e-05,
	"loss": 0.0,
	"step": 93275
	},
	{
	"epoch": 35.21,
	"learning_rate": 1.329662996329663e-05,
	"loss": 0.0005,
	"step": 93808
	},
	{
	"epoch": 35.41,
	"learning_rate": 1.2740865865865867e-05,
	"loss": 0.0002,
	"step": 94341
	},
	{
	"epoch": 35.61,
	"learning_rate": 1.2185101768435102e-05,
	"loss": 0.0007,
	"step": 94874
	},
	{
	"epoch": 35.81,
	"learning_rate": 1.1629337671004337e-05,
	"loss": 0.0001,
	"step": 95407
	},
	{
	"epoch": 36.0,
	"eval_loss": 0.05670797452330589,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9196,
	"eval_samples_per_second": 389.279,
	"eval_steps_per_second": 26.097,
	"step": 95904
	},
	{
	"epoch": 36.01,
	"learning_rate": 1.1073573573573574e-05,
	"loss": 0.0003,
	"step": 95940
	},
	{
	"epoch": 36.21,
	"learning_rate": 1.0517809476142811e-05,
	"loss": 0.0004,
	"step": 96473
	},
	{
	"epoch": 36.41,
	"learning_rate": 9.962045378712046e-06,
	"loss": 0.0002,
	"step": 97006
	},
	{
	"epoch": 36.61,
	"learning_rate": 9.406281281281281e-06,
	"loss": 0.0006,
	"step": 97539
	},
	{
	"epoch": 36.81,
	"learning_rate": 8.850517183850518e-06,
	"loss": 0.0009,
	"step": 98072
	},
	{
	"epoch": 37.0,
	"eval_loss": 0.060491062700748444,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9347,
	"eval_samples_per_second": 383.022,
	"eval_steps_per_second": 25.677,
	"step": 98568
	},
	{
	"epoch": 37.01,
	"learning_rate": 8.294753086419753e-06,
	"loss": 0.0002,
	"step": 98605
	},
	{
	"epoch": 37.21,
	"learning_rate": 7.738988988988988e-06,
	"loss": 0.001,
	"step": 99138
	},
	{
	"epoch": 37.41,
	"learning_rate": 7.183224891558225e-06,
	"loss": 0.0003,
	"step": 99671
	},
	{
	"epoch": 37.61,
	"learning_rate": 6.627460794127462e-06,
	"loss": 0.0001,
	"step": 100204
	},
	{
	"epoch": 37.81,
	"learning_rate": 6.071696696696697e-06,
	"loss": 0.0002,
	"step": 100737
	},
	{
	"epoch": 38.0,
	"eval_loss": 0.06128498166799545,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9116,
	"eval_samples_per_second": 392.708,
	"eval_steps_per_second": 26.327,
	"step": 101232
	},
	{
	"epoch": 38.01,
	"learning_rate": 5.515932599265933e-06,
	"loss": 0.0002,
	"step": 101270
	},
	{
	"epoch": 38.21,
	"learning_rate": 4.960168501835169e-06,
	"loss": 0.0002,
	"step": 101803
	},
	{
	"epoch": 38.41,
	"learning_rate": 4.404404404404405e-06,
	"loss": 0.0001,
	"step": 102336
	},
	{
	"epoch": 38.61,
	"learning_rate": 3.848640306973641e-06,
	"loss": 0.0006,
	"step": 102869
	},
	{
	"epoch": 38.81,
	"learning_rate": 3.2928762095428764e-06,
	"loss": 0.0002,
	"step": 103402
	},
	{
	"epoch": 39.0,
	"eval_loss": 0.05631242319941521,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9146,
	"eval_samples_per_second": 391.433,
	"eval_steps_per_second": 26.241,
	"step": 103896
	},
	{
	"epoch": 39.01,
	"learning_rate": 2.7371121121121123e-06,
	"loss": 0.0004,
	"step": 103935
	},
	{
	"epoch": 39.21,
	"learning_rate": 2.1813480146813483e-06,
	"loss": 0.0004,
	"step": 104468
	},
	{
	"epoch": 39.41,
	"learning_rate": 1.625583917250584e-06,
	"loss": 0.0001,
	"step": 105001
	},
	{
	"epoch": 39.61,
	"learning_rate": 1.0698198198198198e-06,
	"loss": 0.0013,
	"step": 105534
	},
	{
	"epoch": 39.81,
	"learning_rate": 5.140557223890558e-07,
	"loss": 0.0002,
	"step": 106067
	},
	{
	"epoch": 40.0,
	"eval_loss": 0.06320372968912125,
	"eval_max_distance": 1,
	"eval_mean_distance": 0,
	"eval_runtime": 0.9155,
	"eval_samples_per_second": 391.055,
	"eval_steps_per_second": 26.216,
	"step": 106560
	},
	{
	"epoch": 40.0,
	"step": 106560,
	"total_flos": 6.005678715251712e+16,
	"train_loss": 0.2983123329788039,
	"train_runtime": 9788.1362,
	"train_samples_per_second": 163.251,
	"train_steps_per_second": 10.887
	}
	],
	"logging_steps": 533,
	"max_steps": 106560,
	"num_train_epochs": 40,
	"save_steps": 1066,
	"total_flos": 6.005678715251712e+16,
	"trial_name": null,
	"trial_params": null
	}