text-normalization-ru-new / trainer_state.json

End of training

4312d76 about 1 year ago

30.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 20.0,
	"eval_steps": 500,
	"global_step": 280880,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 3.5609999287800016e-09,
	"loss": 0.0011,
	"step": 1
	},
	{
	"epoch": 0.1,
	"learning_rate": 5.003204899935903e-06,
	"loss": 0.0046,
	"step": 1405
	},
	{
	"epoch": 0.2,
	"learning_rate": 1.0006409799871805e-05,
	"loss": 0.005,
	"step": 2810
	},
	{
	"epoch": 0.3,
	"learning_rate": 1.5009614699807706e-05,
	"loss": 0.0052,
	"step": 4215
	},
	{
	"epoch": 0.4,
	"learning_rate": 2.001281959974361e-05,
	"loss": 0.005,
	"step": 5620
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.5016024499679513e-05,
	"loss": 0.0048,
	"step": 7025
	},
	{
	"epoch": 0.6,
	"learning_rate": 3.001922939961541e-05,
	"loss": 0.0045,
	"step": 8430
	},
	{
	"epoch": 0.7,
	"learning_rate": 3.5022434299551316e-05,
	"loss": 0.0049,
	"step": 9835
	},
	{
	"epoch": 0.8,
	"learning_rate": 4.002563919948722e-05,
	"loss": 0.0051,
	"step": 11240
	},
	{
	"epoch": 0.9,
	"learning_rate": 4.502884409942312e-05,
	"loss": 0.0052,
	"step": 12645
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.027173755690455437,
	"eval_max_distance": 9,
	"eval_mean_distance": 0,
	"eval_runtime": 13.945,
	"eval_samples_per_second": 17.928,
	"eval_steps_per_second": 1.219,
	"step": 14041
	},
	{
	"epoch": 1.0,
	"learning_rate": 5.0032048999359025e-05,
	"loss": 0.0045,
	"step": 14050
	},
	{
	"epoch": 1.1,
	"learning_rate": 5.5035253899294924e-05,
	"loss": 0.0047,
	"step": 15455
	},
	{
	"epoch": 1.2,
	"learning_rate": 6.003845879923082e-05,
	"loss": 0.0044,
	"step": 16860
	},
	{
	"epoch": 1.3,
	"learning_rate": 6.504166369916673e-05,
	"loss": 0.0045,
	"step": 18265
	},
	{
	"epoch": 1.4,
	"learning_rate": 7.002990600968385e-05,
	"loss": 0.0046,
	"step": 19670
	},
	{
	"epoch": 1.5,
	"learning_rate": 7.50320421532327e-05,
	"loss": 0.0043,
	"step": 21075
	},
	{
	"epoch": 1.6,
	"learning_rate": 8.003417829678155e-05,
	"loss": 0.0042,
	"step": 22480
	},
	{
	"epoch": 1.7,
	"learning_rate": 8.503631444033039e-05,
	"loss": 0.0046,
	"step": 23885
	},
	{
	"epoch": 1.8,
	"learning_rate": 9.003845058387924e-05,
	"loss": 0.0043,
	"step": 25290
	},
	{
	"epoch": 1.9,
	"learning_rate": 9.504058672742809e-05,
	"loss": 0.0045,
	"step": 26695
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.03272660821676254,
	"eval_max_distance": 9,
	"eval_mean_distance": 0,
	"eval_runtime": 12.7866,
	"eval_samples_per_second": 19.552,
	"eval_steps_per_second": 1.33,
	"step": 28088
	},
	{
	"epoch": 2.0,
	"learning_rate": 9.99952530143359e-05,
	"loss": 0.0046,
	"step": 28100
	},
	{
	"epoch": 2.1,
	"learning_rate": 9.943946010949714e-05,
	"loss": 0.0042,
	"step": 29505
	},
	{
	"epoch": 2.2,
	"learning_rate": 9.888366720465838e-05,
	"loss": 0.0043,
	"step": 30910
	},
	{
	"epoch": 2.3,
	"learning_rate": 9.832787429981962e-05,
	"loss": 0.0044,
	"step": 32315
	},
	{
	"epoch": 2.4,
	"learning_rate": 9.777208139498087e-05,
	"loss": 0.0045,
	"step": 33720
	},
	{
	"epoch": 2.5,
	"learning_rate": 9.721628849014209e-05,
	"loss": 0.0041,
	"step": 35125
	},
	{
	"epoch": 2.6,
	"learning_rate": 9.666049558530333e-05,
	"loss": 0.0043,
	"step": 36530
	},
	{
	"epoch": 2.7,
	"learning_rate": 9.610470268046457e-05,
	"loss": 0.0046,
	"step": 37935
	},
	{
	"epoch": 2.8,
	"learning_rate": 9.554890977562582e-05,
	"loss": 0.0043,
	"step": 39340
	},
	{
	"epoch": 2.9,
	"learning_rate": 9.499311687078706e-05,
	"loss": 0.0043,
	"step": 40745
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.03169206902384758,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.3553,
	"eval_samples_per_second": 20.234,
	"eval_steps_per_second": 1.376,
	"step": 42132
	},
	{
	"epoch": 3.0,
	"learning_rate": 9.44373239659483e-05,
	"loss": 0.0048,
	"step": 42150
	},
	{
	"epoch": 3.1,
	"learning_rate": 9.388153106110953e-05,
	"loss": 0.0034,
	"step": 43555
	},
	{
	"epoch": 3.2,
	"learning_rate": 9.332573815627077e-05,
	"loss": 0.0036,
	"step": 44960
	},
	{
	"epoch": 3.3,
	"learning_rate": 9.276994525143201e-05,
	"loss": 0.0037,
	"step": 46365
	},
	{
	"epoch": 3.4,
	"learning_rate": 9.221415234659325e-05,
	"loss": 0.004,
	"step": 47770
	},
	{
	"epoch": 3.5,
	"learning_rate": 9.16583594417545e-05,
	"loss": 0.0041,
	"step": 49175
	},
	{
	"epoch": 3.6,
	"learning_rate": 9.110256653691574e-05,
	"loss": 0.0039,
	"step": 50580
	},
	{
	"epoch": 3.7,
	"learning_rate": 9.054677363207696e-05,
	"loss": 0.0039,
	"step": 51985
	},
	{
	"epoch": 3.8,
	"learning_rate": 8.99909807272382e-05,
	"loss": 0.0039,
	"step": 53390
	},
	{
	"epoch": 3.9,
	"learning_rate": 8.943518782239945e-05,
	"loss": 0.0042,
	"step": 54795
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.031554438173770905,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1943,
	"eval_samples_per_second": 20.501,
	"eval_steps_per_second": 1.394,
	"step": 56176
	},
	{
	"epoch": 4.0,
	"learning_rate": 8.887939491756069e-05,
	"loss": 0.004,
	"step": 56200
	},
	{
	"epoch": 4.1,
	"learning_rate": 8.832360201272193e-05,
	"loss": 0.0034,
	"step": 57605
	},
	{
	"epoch": 4.2,
	"learning_rate": 8.776780910788317e-05,
	"loss": 0.0033,
	"step": 59010
	},
	{
	"epoch": 4.3,
	"learning_rate": 8.72120162030444e-05,
	"loss": 0.0034,
	"step": 60415
	},
	{
	"epoch": 4.4,
	"learning_rate": 8.665622329820564e-05,
	"loss": 0.0034,
	"step": 61820
	},
	{
	"epoch": 4.5,
	"learning_rate": 8.610043039336688e-05,
	"loss": 0.0032,
	"step": 63225
	},
	{
	"epoch": 4.6,
	"learning_rate": 8.554463748852812e-05,
	"loss": 0.0035,
	"step": 64630
	},
	{
	"epoch": 4.7,
	"learning_rate": 8.498884458368937e-05,
	"loss": 0.0035,
	"step": 66035
	},
	{
	"epoch": 4.8,
	"learning_rate": 8.443305167885061e-05,
	"loss": 0.0035,
	"step": 67440
	},
	{
	"epoch": 4.9,
	"learning_rate": 8.387725877401183e-05,
	"loss": 0.0035,
	"step": 68845
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.03568544238805771,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.3273,
	"eval_samples_per_second": 20.28,
	"eval_steps_per_second": 1.379,
	"step": 70220
	},
	{
	"epoch": 5.0,
	"learning_rate": 8.332146586917307e-05,
	"loss": 0.0037,
	"step": 70250
	},
	{
	"epoch": 5.1,
	"learning_rate": 8.276567296433432e-05,
	"loss": 0.0028,
	"step": 71655
	},
	{
	"epoch": 5.2,
	"learning_rate": 8.220988005949556e-05,
	"loss": 0.0029,
	"step": 73060
	},
	{
	"epoch": 5.3,
	"learning_rate": 8.16540871546568e-05,
	"loss": 0.003,
	"step": 74465
	},
	{
	"epoch": 5.4,
	"learning_rate": 8.109829424981804e-05,
	"loss": 0.0031,
	"step": 75870
	},
	{
	"epoch": 5.5,
	"learning_rate": 8.054250134497927e-05,
	"loss": 0.0032,
	"step": 77275
	},
	{
	"epoch": 5.6,
	"learning_rate": 7.998670844014051e-05,
	"loss": 0.003,
	"step": 78680
	},
	{
	"epoch": 5.7,
	"learning_rate": 7.943091553530175e-05,
	"loss": 0.0032,
	"step": 80085
	},
	{
	"epoch": 5.8,
	"learning_rate": 7.8875122630463e-05,
	"loss": 0.0031,
	"step": 81490
	},
	{
	"epoch": 5.9,
	"learning_rate": 7.831932972562424e-05,
	"loss": 0.0032,
	"step": 82895
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.03648597374558449,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1121,
	"eval_samples_per_second": 20.641,
	"eval_steps_per_second": 1.404,
	"step": 84264
	},
	{
	"epoch": 6.0,
	"learning_rate": 7.776353682078548e-05,
	"loss": 0.0032,
	"step": 84300
	},
	{
	"epoch": 6.1,
	"learning_rate": 7.72077439159467e-05,
	"loss": 0.0027,
	"step": 85705
	},
	{
	"epoch": 6.2,
	"learning_rate": 7.665195101110795e-05,
	"loss": 0.0026,
	"step": 87110
	},
	{
	"epoch": 6.3,
	"learning_rate": 7.609615810626919e-05,
	"loss": 0.0028,
	"step": 88515
	},
	{
	"epoch": 6.4,
	"learning_rate": 7.554036520143043e-05,
	"loss": 0.0029,
	"step": 89920
	},
	{
	"epoch": 6.5,
	"learning_rate": 7.498457229659167e-05,
	"loss": 0.0026,
	"step": 91325
	},
	{
	"epoch": 6.6,
	"learning_rate": 7.442877939175292e-05,
	"loss": 0.0028,
	"step": 92730
	},
	{
	"epoch": 6.7,
	"learning_rate": 7.387298648691414e-05,
	"loss": 0.0031,
	"step": 94135
	},
	{
	"epoch": 6.8,
	"learning_rate": 7.331719358207538e-05,
	"loss": 0.0027,
	"step": 95540
	},
	{
	"epoch": 6.9,
	"learning_rate": 7.276140067723662e-05,
	"loss": 0.0027,
	"step": 96945
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.04028007388114929,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1827,
	"eval_samples_per_second": 20.521,
	"eval_steps_per_second": 1.395,
	"step": 98308
	},
	{
	"epoch": 7.0,
	"learning_rate": 7.220560777239787e-05,
	"loss": 0.0028,
	"step": 98350
	},
	{
	"epoch": 7.1,
	"learning_rate": 7.164981486755911e-05,
	"loss": 0.0027,
	"step": 99755
	},
	{
	"epoch": 7.2,
	"learning_rate": 7.109402196272035e-05,
	"loss": 0.0025,
	"step": 101160
	},
	{
	"epoch": 7.3,
	"learning_rate": 7.053822905788158e-05,
	"loss": 0.0025,
	"step": 102565
	},
	{
	"epoch": 7.4,
	"learning_rate": 6.998243615304282e-05,
	"loss": 0.0024,
	"step": 103970
	},
	{
	"epoch": 7.5,
	"learning_rate": 6.942664324820406e-05,
	"loss": 0.0026,
	"step": 105375
	},
	{
	"epoch": 7.6,
	"learning_rate": 6.88708503433653e-05,
	"loss": 0.0026,
	"step": 106780
	},
	{
	"epoch": 7.7,
	"learning_rate": 6.831505743852654e-05,
	"loss": 0.0026,
	"step": 108185
	},
	{
	"epoch": 7.8,
	"learning_rate": 6.775926453368779e-05,
	"loss": 0.0025,
	"step": 109590
	},
	{
	"epoch": 7.9,
	"learning_rate": 6.720347162884901e-05,
	"loss": 0.0027,
	"step": 110995
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.03977961093187332,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1864,
	"eval_samples_per_second": 20.515,
	"eval_steps_per_second": 1.395,
	"step": 112352
	},
	{
	"epoch": 8.0,
	"learning_rate": 6.664767872401025e-05,
	"loss": 0.0028,
	"step": 112400
	},
	{
	"epoch": 8.1,
	"learning_rate": 6.60918858191715e-05,
	"loss": 0.0023,
	"step": 113805
	},
	{
	"epoch": 8.2,
	"learning_rate": 6.553609291433274e-05,
	"loss": 0.0023,
	"step": 115210
	},
	{
	"epoch": 8.3,
	"learning_rate": 6.498030000949398e-05,
	"loss": 0.0022,
	"step": 116615
	},
	{
	"epoch": 8.4,
	"learning_rate": 6.442450710465522e-05,
	"loss": 0.0023,
	"step": 118020
	},
	{
	"epoch": 8.5,
	"learning_rate": 6.386871419981645e-05,
	"loss": 0.0024,
	"step": 119425
	},
	{
	"epoch": 8.6,
	"learning_rate": 6.331292129497769e-05,
	"loss": 0.0025,
	"step": 120830
	},
	{
	"epoch": 8.7,
	"learning_rate": 6.275712839013893e-05,
	"loss": 0.0024,
	"step": 122235
	},
	{
	"epoch": 8.8,
	"learning_rate": 6.220133548530017e-05,
	"loss": 0.0022,
	"step": 123640
	},
	{
	"epoch": 8.9,
	"learning_rate": 6.164554258046142e-05,
	"loss": 0.0023,
	"step": 125045
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.040445487946271896,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.3201,
	"eval_samples_per_second": 20.292,
	"eval_steps_per_second": 1.38,
	"step": 126396
	},
	{
	"epoch": 9.0,
	"learning_rate": 6.108974967562266e-05,
	"loss": 0.0024,
	"step": 126450
	},
	{
	"epoch": 9.1,
	"learning_rate": 6.053395677078388e-05,
	"loss": 0.002,
	"step": 127855
	},
	{
	"epoch": 9.2,
	"learning_rate": 5.9978163865945126e-05,
	"loss": 0.0021,
	"step": 129260
	},
	{
	"epoch": 9.3,
	"learning_rate": 5.9422370961106364e-05,
	"loss": 0.0022,
	"step": 130665
	},
	{
	"epoch": 9.4,
	"learning_rate": 5.886657805626761e-05,
	"loss": 0.0023,
	"step": 132070
	},
	{
	"epoch": 9.5,
	"learning_rate": 5.831078515142885e-05,
	"loss": 0.0022,
	"step": 133475
	},
	{
	"epoch": 9.6,
	"learning_rate": 5.775499224659009e-05,
	"loss": 0.0021,
	"step": 134880
	},
	{
	"epoch": 9.7,
	"learning_rate": 5.719919934175132e-05,
	"loss": 0.0021,
	"step": 136285
	},
	{
	"epoch": 9.8,
	"learning_rate": 5.664340643691256e-05,
	"loss": 0.0021,
	"step": 137690
	},
	{
	"epoch": 9.9,
	"learning_rate": 5.60876135320738e-05,
	"loss": 0.0023,
	"step": 139095
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.03852245956659317,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.131,
	"eval_samples_per_second": 20.608,
	"eval_steps_per_second": 1.401,
	"step": 140440
	},
	{
	"epoch": 10.0,
	"learning_rate": 5.5531820627235044e-05,
	"loss": 0.0023,
	"step": 140500
	},
	{
	"epoch": 10.1,
	"learning_rate": 5.497602772239628e-05,
	"loss": 0.0018,
	"step": 141905
	},
	{
	"epoch": 10.2,
	"learning_rate": 5.4420234817557526e-05,
	"loss": 0.0021,
	"step": 143310
	},
	{
	"epoch": 10.3,
	"learning_rate": 5.386444191271876e-05,
	"loss": 0.0021,
	"step": 144715
	},
	{
	"epoch": 10.4,
	"learning_rate": 5.3308649007879995e-05,
	"loss": 0.0021,
	"step": 146120
	},
	{
	"epoch": 10.5,
	"learning_rate": 5.275285610304124e-05,
	"loss": 0.0021,
	"step": 147525
	},
	{
	"epoch": 10.6,
	"learning_rate": 5.219706319820248e-05,
	"loss": 0.002,
	"step": 148930
	},
	{
	"epoch": 10.7,
	"learning_rate": 5.1641270293363716e-05,
	"loss": 0.002,
	"step": 150335
	},
	{
	"epoch": 10.8,
	"learning_rate": 5.108547738852496e-05,
	"loss": 0.0019,
	"step": 151740
	},
	{
	"epoch": 10.9,
	"learning_rate": 5.052968448368619e-05,
	"loss": 0.002,
	"step": 153145
	},
	{
	"epoch": 11.0,
	"eval_loss": 0.040671207010746,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.2718,
	"eval_samples_per_second": 20.372,
	"eval_steps_per_second": 1.385,
	"step": 154484
	},
	{
	"epoch": 11.0,
	"learning_rate": 4.997389157884743e-05,
	"loss": 0.0018,
	"step": 154550
	},
	{
	"epoch": 11.1,
	"learning_rate": 4.9418098674008675e-05,
	"loss": 0.002,
	"step": 155955
	},
	{
	"epoch": 11.2,
	"learning_rate": 4.886230576916991e-05,
	"loss": 0.0019,
	"step": 157360
	},
	{
	"epoch": 11.3,
	"learning_rate": 4.830651286433115e-05,
	"loss": 0.0018,
	"step": 158765
	},
	{
	"epoch": 11.4,
	"learning_rate": 4.775071995949239e-05,
	"loss": 0.0018,
	"step": 160170
	},
	{
	"epoch": 11.5,
	"learning_rate": 4.7194927054653634e-05,
	"loss": 0.002,
	"step": 161575
	},
	{
	"epoch": 11.6,
	"learning_rate": 4.6639134149814865e-05,
	"loss": 0.0019,
	"step": 162980
	},
	{
	"epoch": 11.7,
	"learning_rate": 4.608334124497611e-05,
	"loss": 0.0017,
	"step": 164385
	},
	{
	"epoch": 11.81,
	"learning_rate": 4.552754834013735e-05,
	"loss": 0.002,
	"step": 165790
	},
	{
	"epoch": 11.91,
	"learning_rate": 4.4971755435298586e-05,
	"loss": 0.0018,
	"step": 167195
	},
	{
	"epoch": 12.0,
	"eval_loss": 0.04258317872881889,
	"eval_max_distance": 9,
	"eval_mean_distance": 0,
	"eval_runtime": 12.8224,
	"eval_samples_per_second": 19.497,
	"eval_steps_per_second": 1.326,
	"step": 168528
	},
	{
	"epoch": 12.01,
	"learning_rate": 4.4415962530459824e-05,
	"loss": 0.0017,
	"step": 168600
	},
	{
	"epoch": 12.11,
	"learning_rate": 4.386016962562107e-05,
	"loss": 0.0016,
	"step": 170005
	},
	{
	"epoch": 12.21,
	"learning_rate": 4.33043767207823e-05,
	"loss": 0.0018,
	"step": 171410
	},
	{
	"epoch": 12.31,
	"learning_rate": 4.2748583815943544e-05,
	"loss": 0.0016,
	"step": 172815
	},
	{
	"epoch": 12.41,
	"learning_rate": 4.219279091110478e-05,
	"loss": 0.0018,
	"step": 174220
	},
	{
	"epoch": 12.51,
	"learning_rate": 4.163699800626602e-05,
	"loss": 0.0018,
	"step": 175625
	},
	{
	"epoch": 12.61,
	"learning_rate": 4.108120510142726e-05,
	"loss": 0.0018,
	"step": 177030
	},
	{
	"epoch": 12.71,
	"learning_rate": 4.05254121965885e-05,
	"loss": 0.0016,
	"step": 178435
	},
	{
	"epoch": 12.81,
	"learning_rate": 3.996961929174974e-05,
	"loss": 0.002,
	"step": 179840
	},
	{
	"epoch": 12.91,
	"learning_rate": 3.941382638691098e-05,
	"loss": 0.0018,
	"step": 181245
	},
	{
	"epoch": 13.0,
	"eval_loss": 0.042234089225530624,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 13.9619,
	"eval_samples_per_second": 17.906,
	"eval_steps_per_second": 1.218,
	"step": 182572
	},
	{
	"epoch": 13.01,
	"learning_rate": 3.885803348207222e-05,
	"loss": 0.0018,
	"step": 182650
	},
	{
	"epoch": 13.11,
	"learning_rate": 3.8302240577233455e-05,
	"loss": 0.0017,
	"step": 184055
	},
	{
	"epoch": 13.21,
	"learning_rate": 3.77464476723947e-05,
	"loss": 0.0017,
	"step": 185460
	},
	{
	"epoch": 13.31,
	"learning_rate": 3.719065476755594e-05,
	"loss": 0.0016,
	"step": 186865
	},
	{
	"epoch": 13.41,
	"learning_rate": 3.6634861862717176e-05,
	"loss": 0.0016,
	"step": 188270
	},
	{
	"epoch": 13.51,
	"learning_rate": 3.6079068957878414e-05,
	"loss": 0.0016,
	"step": 189675
	},
	{
	"epoch": 13.61,
	"learning_rate": 3.552327605303966e-05,
	"loss": 0.0017,
	"step": 191080
	},
	{
	"epoch": 13.71,
	"learning_rate": 3.4967483148200896e-05,
	"loss": 0.0017,
	"step": 192485
	},
	{
	"epoch": 13.81,
	"learning_rate": 3.4411690243362134e-05,
	"loss": 0.0015,
	"step": 193890
	},
	{
	"epoch": 13.91,
	"learning_rate": 3.385589733852337e-05,
	"loss": 0.0016,
	"step": 195295
	},
	{
	"epoch": 14.0,
	"eval_loss": 0.04207869619131088,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.3358,
	"eval_samples_per_second": 20.266,
	"eval_steps_per_second": 1.378,
	"step": 196616
	},
	{
	"epoch": 14.01,
	"learning_rate": 3.330010443368462e-05,
	"loss": 0.0016,
	"step": 196700
	},
	{
	"epoch": 14.11,
	"learning_rate": 3.274431152884585e-05,
	"loss": 0.0016,
	"step": 198105
	},
	{
	"epoch": 14.21,
	"learning_rate": 3.218851862400709e-05,
	"loss": 0.0015,
	"step": 199510
	},
	{
	"epoch": 14.31,
	"learning_rate": 3.163272571916833e-05,
	"loss": 0.0016,
	"step": 200915
	},
	{
	"epoch": 14.41,
	"learning_rate": 3.107693281432957e-05,
	"loss": 0.0016,
	"step": 202320
	},
	{
	"epoch": 14.51,
	"learning_rate": 3.052113990949081e-05,
	"loss": 0.0016,
	"step": 203725
	},
	{
	"epoch": 14.61,
	"learning_rate": 2.9965347004652052e-05,
	"loss": 0.0016,
	"step": 205130
	},
	{
	"epoch": 14.71,
	"learning_rate": 2.9409554099813286e-05,
	"loss": 0.0015,
	"step": 206535
	},
	{
	"epoch": 14.81,
	"learning_rate": 2.8853761194974528e-05,
	"loss": 0.0016,
	"step": 207940
	},
	{
	"epoch": 14.91,
	"learning_rate": 2.829796829013577e-05,
	"loss": 0.0016,
	"step": 209345
	},
	{
	"epoch": 15.0,
	"eval_loss": 0.04015611857175827,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1736,
	"eval_samples_per_second": 20.536,
	"eval_steps_per_second": 1.396,
	"step": 210660
	},
	{
	"epoch": 15.01,
	"learning_rate": 2.7742175385297004e-05,
	"loss": 0.0015,
	"step": 210750
	},
	{
	"epoch": 15.11,
	"learning_rate": 2.7186382480458245e-05,
	"loss": 0.0015,
	"step": 212155
	},
	{
	"epoch": 15.21,
	"learning_rate": 2.6630589575619486e-05,
	"loss": 0.0014,
	"step": 213560
	},
	{
	"epoch": 15.31,
	"learning_rate": 2.607479667078072e-05,
	"loss": 0.0016,
	"step": 214965
	},
	{
	"epoch": 15.41,
	"learning_rate": 2.5519003765941962e-05,
	"loss": 0.0014,
	"step": 216370
	},
	{
	"epoch": 15.51,
	"learning_rate": 2.49632108611032e-05,
	"loss": 0.0016,
	"step": 217775
	},
	{
	"epoch": 15.61,
	"learning_rate": 2.440741795626444e-05,
	"loss": 0.0014,
	"step": 219180
	},
	{
	"epoch": 15.71,
	"learning_rate": 2.385162505142568e-05,
	"loss": 0.0015,
	"step": 220585
	},
	{
	"epoch": 15.81,
	"learning_rate": 2.3295832146586918e-05,
	"loss": 0.0015,
	"step": 221990
	},
	{
	"epoch": 15.91,
	"learning_rate": 2.2740039241748156e-05,
	"loss": 0.0014,
	"step": 223395
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.04069029539823532,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.2719,
	"eval_samples_per_second": 20.372,
	"eval_steps_per_second": 1.385,
	"step": 224704
	},
	{
	"epoch": 16.01,
	"learning_rate": 2.2184246336909397e-05,
	"loss": 0.0015,
	"step": 224800
	},
	{
	"epoch": 16.11,
	"learning_rate": 2.1628453432070635e-05,
	"loss": 0.0013,
	"step": 226205
	},
	{
	"epoch": 16.21,
	"learning_rate": 2.1072660527231873e-05,
	"loss": 0.0014,
	"step": 227610
	},
	{
	"epoch": 16.31,
	"learning_rate": 2.0516867622393114e-05,
	"loss": 0.0014,
	"step": 229015
	},
	{
	"epoch": 16.41,
	"learning_rate": 1.9961074717554352e-05,
	"loss": 0.0015,
	"step": 230420
	},
	{
	"epoch": 16.51,
	"learning_rate": 1.9405281812715594e-05,
	"loss": 0.0016,
	"step": 231825
	},
	{
	"epoch": 16.61,
	"learning_rate": 1.8849488907876832e-05,
	"loss": 0.0015,
	"step": 233230
	},
	{
	"epoch": 16.71,
	"learning_rate": 1.8293696003038073e-05,
	"loss": 0.0014,
	"step": 234635
	},
	{
	"epoch": 16.81,
	"learning_rate": 1.773790309819931e-05,
	"loss": 0.0013,
	"step": 236040
	},
	{
	"epoch": 16.91,
	"learning_rate": 1.7182110193360553e-05,
	"loss": 0.0014,
	"step": 237445
	},
	{
	"epoch": 17.0,
	"eval_loss": 0.042702946811914444,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1336,
	"eval_samples_per_second": 20.604,
	"eval_steps_per_second": 1.401,
	"step": 238748
	},
	{
	"epoch": 17.01,
	"learning_rate": 1.662631728852179e-05,
	"loss": 0.0013,
	"step": 238850
	},
	{
	"epoch": 17.11,
	"learning_rate": 1.607052438368303e-05,
	"loss": 0.0014,
	"step": 240255
	},
	{
	"epoch": 17.21,
	"learning_rate": 1.551473147884427e-05,
	"loss": 0.0014,
	"step": 241660
	},
	{
	"epoch": 17.31,
	"learning_rate": 1.4958938574005508e-05,
	"loss": 0.0013,
	"step": 243065
	},
	{
	"epoch": 17.41,
	"learning_rate": 1.4403145669166746e-05,
	"loss": 0.0014,
	"step": 244470
	},
	{
	"epoch": 17.51,
	"learning_rate": 1.3847352764327987e-05,
	"loss": 0.0013,
	"step": 245875
	},
	{
	"epoch": 17.61,
	"learning_rate": 1.3291559859489225e-05,
	"loss": 0.0013,
	"step": 247280
	},
	{
	"epoch": 17.71,
	"learning_rate": 1.2735766954650463e-05,
	"loss": 0.0014,
	"step": 248685
	},
	{
	"epoch": 17.81,
	"learning_rate": 1.2179974049811703e-05,
	"loss": 0.0014,
	"step": 250090
	},
	{
	"epoch": 17.91,
	"learning_rate": 1.1624181144972943e-05,
	"loss": 0.0014,
	"step": 251495
	},
	{
	"epoch": 18.0,
	"eval_loss": 0.04110053926706314,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.0446,
	"eval_samples_per_second": 20.756,
	"eval_steps_per_second": 1.411,
	"step": 252792
	},
	{
	"epoch": 18.01,
	"learning_rate": 1.1068388240134182e-05,
	"loss": 0.0014,
	"step": 252900
	},
	{
	"epoch": 18.11,
	"learning_rate": 1.051259533529542e-05,
	"loss": 0.0014,
	"step": 254305
	},
	{
	"epoch": 18.21,
	"learning_rate": 9.95680243045666e-06,
	"loss": 0.0012,
	"step": 255710
	},
	{
	"epoch": 18.31,
	"learning_rate": 9.4010095256179e-06,
	"loss": 0.0012,
	"step": 257115
	},
	{
	"epoch": 18.41,
	"learning_rate": 8.84521662077914e-06,
	"loss": 0.0014,
	"step": 258520
	},
	{
	"epoch": 18.51,
	"learning_rate": 8.289423715940379e-06,
	"loss": 0.0012,
	"step": 259925
	},
	{
	"epoch": 18.61,
	"learning_rate": 7.733630811101619e-06,
	"loss": 0.0013,
	"step": 261330
	},
	{
	"epoch": 18.71,
	"learning_rate": 7.1778379062628565e-06,
	"loss": 0.0014,
	"step": 262735
	},
	{
	"epoch": 18.81,
	"learning_rate": 6.622045001424096e-06,
	"loss": 0.0012,
	"step": 264140
	},
	{
	"epoch": 18.91,
	"learning_rate": 6.066252096585336e-06,
	"loss": 0.0013,
	"step": 265545
	},
	{
	"epoch": 19.0,
	"eval_loss": 0.040625352412462234,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.0757,
	"eval_samples_per_second": 20.703,
	"eval_steps_per_second": 1.408,
	"step": 266836
	},
	{
	"epoch": 19.01,
	"learning_rate": 5.510459191746575e-06,
	"loss": 0.0013,
	"step": 266950
	},
	{
	"epoch": 19.11,
	"learning_rate": 4.9546662869078136e-06,
	"loss": 0.0014,
	"step": 268355
	},
	{
	"epoch": 19.21,
	"learning_rate": 4.398873382069053e-06,
	"loss": 0.0013,
	"step": 269760
	},
	{
	"epoch": 19.31,
	"learning_rate": 3.843080477230292e-06,
	"loss": 0.0013,
	"step": 271165
	},
	{
	"epoch": 19.41,
	"learning_rate": 3.2872875723915313e-06,
	"loss": 0.0013,
	"step": 272570
	},
	{
	"epoch": 19.51,
	"learning_rate": 2.7314946675527706e-06,
	"loss": 0.0012,
	"step": 273975
	},
	{
	"epoch": 19.61,
	"learning_rate": 2.1757017627140103e-06,
	"loss": 0.0012,
	"step": 275380
	},
	{
	"epoch": 19.71,
	"learning_rate": 1.619908857875249e-06,
	"loss": 0.0013,
	"step": 276785
	},
	{
	"epoch": 19.81,
	"learning_rate": 1.0641159530364886e-06,
	"loss": 0.0014,
	"step": 278190
	},
	{
	"epoch": 19.91,
	"learning_rate": 5.083230481977278e-07,
	"loss": 0.0013,
	"step": 279595
	},
	{
	"epoch": 20.0,
	"eval_loss": 0.040508754551410675,
	"eval_max_distance": 6,
	"eval_mean_distance": 0,
	"eval_runtime": 12.1336,
	"eval_samples_per_second": 20.604,
	"eval_steps_per_second": 1.401,
	"step": 280880
	},
	{
	"epoch": 20.0,
	"step": 280880,
	"total_flos": 7.269950341627085e+16,
	"train_loss": 0.0021448437322240947,
	"train_runtime": 20054.4611,
	"train_samples_per_second": 210.084,
	"train_steps_per_second": 14.006
	}
	],
	"logging_steps": 1405,
	"max_steps": 280880,
	"num_train_epochs": 20,
	"save_steps": 2809,
	"total_flos": 7.269950341627085e+16,
	"trial_name": null,
	"trial_params": null
	}