Evaluation on the test set completed on 2024_11_06.

c377a3c verified 1 day ago

29.7 kB

	{
	"best_metric": 0.32638314366340637,
	"best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-produttoria-probabilities-large-2024_11_06-batch-size16_freeze_probs/checkpoint-25235",
	"epoch": 45.0,
	"eval_steps": 500,
	"global_step": 32445,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.6934812760055479,
	"grad_norm": 0.6020499467849731,
	"learning_rate": 0.001,
	"loss": 0.4549,
	"step": 500
	},
	{
	"epoch": 1.0,
	"eval_explained_variance": 0.28087472915649414,
	"eval_loss": 0.36246591806411743,
	"eval_mae": 0.18796318769454956,
	"eval_r2": 0.2743779420852661,
	"eval_rmse": 0.26685553789138794,
	"eval_runtime": 84.6117,
	"eval_samples_per_second": 45.431,
	"eval_steps_per_second": 2.848,
	"learning_rate": 0.001,
	"step": 721
	},
	{
	"epoch": 1.3869625520110958,
	"grad_norm": 0.48873767256736755,
	"learning_rate": 0.001,
	"loss": 0.3806,
	"step": 1000
	},
	{
	"epoch": 2.0,
	"eval_explained_variance": 0.339480996131897,
	"eval_loss": 0.3457428216934204,
	"eval_mae": 0.16845344007015228,
	"eval_r2": 0.3366556167602539,
	"eval_rmse": 0.25599098205566406,
	"eval_runtime": 81.9342,
	"eval_samples_per_second": 46.916,
	"eval_steps_per_second": 2.941,
	"learning_rate": 0.001,
	"step": 1442
	},
	{
	"epoch": 2.0804438280166435,
	"grad_norm": 0.4343818128108978,
	"learning_rate": 0.001,
	"loss": 0.3697,
	"step": 1500
	},
	{
	"epoch": 2.7739251040221915,
	"grad_norm": 0.44139501452445984,
	"learning_rate": 0.001,
	"loss": 0.368,
	"step": 2000
	},
	{
	"epoch": 3.0,
	"eval_explained_variance": 0.3180062472820282,
	"eval_loss": 0.3518487811088562,
	"eval_mae": 0.17466770112514496,
	"eval_r2": 0.3157402276992798,
	"eval_rmse": 0.25968268513679504,
	"eval_runtime": 85.9096,
	"eval_samples_per_second": 44.745,
	"eval_steps_per_second": 2.805,
	"learning_rate": 0.001,
	"step": 2163
	},
	{
	"epoch": 3.4674063800277395,
	"grad_norm": 0.4190344512462616,
	"learning_rate": 0.001,
	"loss": 0.3637,
	"step": 2500
	},
	{
	"epoch": 4.0,
	"eval_explained_variance": 0.3375174403190613,
	"eval_loss": 0.3507988750934601,
	"eval_mae": 0.17512458562850952,
	"eval_r2": 0.3344818949699402,
	"eval_rmse": 0.2562903165817261,
	"eval_runtime": 82.3152,
	"eval_samples_per_second": 46.699,
	"eval_steps_per_second": 2.928,
	"learning_rate": 0.001,
	"step": 2884
	},
	{
	"epoch": 4.160887656033287,
	"grad_norm": 0.46223729848861694,
	"learning_rate": 0.001,
	"loss": 0.3604,
	"step": 3000
	},
	{
	"epoch": 4.854368932038835,
	"grad_norm": 0.397588312625885,
	"learning_rate": 0.001,
	"loss": 0.36,
	"step": 3500
	},
	{
	"epoch": 5.0,
	"eval_explained_variance": 0.3404175043106079,
	"eval_loss": 0.3436409533023834,
	"eval_mae": 0.16958864033222198,
	"eval_r2": 0.33709797263145447,
	"eval_rmse": 0.25463980436325073,
	"eval_runtime": 87.0977,
	"eval_samples_per_second": 44.134,
	"eval_steps_per_second": 2.767,
	"learning_rate": 0.001,
	"step": 3605
	},
	{
	"epoch": 5.547850208044383,
	"grad_norm": 0.3559507429599762,
	"learning_rate": 0.001,
	"loss": 0.3585,
	"step": 4000
	},
	{
	"epoch": 6.0,
	"eval_explained_variance": 0.321065753698349,
	"eval_loss": 0.35096481442451477,
	"eval_mae": 0.17673969268798828,
	"eval_r2": 0.31747376918792725,
	"eval_rmse": 0.25984567403793335,
	"eval_runtime": 88.6251,
	"eval_samples_per_second": 43.374,
	"eval_steps_per_second": 2.719,
	"learning_rate": 0.001,
	"step": 4326
	},
	{
	"epoch": 6.2413314840499305,
	"grad_norm": 0.3629322946071625,
	"learning_rate": 0.001,
	"loss": 0.3617,
	"step": 4500
	},
	{
	"epoch": 6.934812760055479,
	"grad_norm": 0.26215413212776184,
	"learning_rate": 0.001,
	"loss": 0.3581,
	"step": 5000
	},
	{
	"epoch": 7.0,
	"eval_explained_variance": 0.35101062059402466,
	"eval_loss": 0.3412320613861084,
	"eval_mae": 0.1749519258737564,
	"eval_r2": 0.3471425771713257,
	"eval_rmse": 0.2537590265274048,
	"eval_runtime": 86.9964,
	"eval_samples_per_second": 44.186,
	"eval_steps_per_second": 2.77,
	"learning_rate": 0.001,
	"step": 5047
	},
	{
	"epoch": 7.6282940360610265,
	"grad_norm": 0.23537978529930115,
	"learning_rate": 0.001,
	"loss": 0.3601,
	"step": 5500
	},
	{
	"epoch": 8.0,
	"eval_explained_variance": 0.3551764190196991,
	"eval_loss": 0.3456409275531769,
	"eval_mae": 0.167846217751503,
	"eval_r2": 0.34348151087760925,
	"eval_rmse": 0.25611478090286255,
	"eval_runtime": 87.0061,
	"eval_samples_per_second": 44.181,
	"eval_steps_per_second": 2.77,
	"learning_rate": 0.001,
	"step": 5768
	},
	{
	"epoch": 8.321775312066574,
	"grad_norm": 0.24255254864692688,
	"learning_rate": 0.001,
	"loss": 0.3619,
	"step": 6000
	},
	{
	"epoch": 9.0,
	"eval_explained_variance": 0.3427416980266571,
	"eval_loss": 0.3425351679325104,
	"eval_mae": 0.17405511438846588,
	"eval_r2": 0.3409159481525421,
	"eval_rmse": 0.25445955991744995,
	"eval_runtime": 87.2735,
	"eval_samples_per_second": 44.045,
	"eval_steps_per_second": 2.761,
	"learning_rate": 0.001,
	"step": 6489
	},
	{
	"epoch": 9.015256588072122,
	"grad_norm": 0.2687969207763672,
	"learning_rate": 0.001,
	"loss": 0.3527,
	"step": 6500
	},
	{
	"epoch": 9.70873786407767,
	"grad_norm": 0.22893770039081573,
	"learning_rate": 0.001,
	"loss": 0.355,
	"step": 7000
	},
	{
	"epoch": 10.0,
	"eval_explained_variance": 0.36017459630966187,
	"eval_loss": 0.33964109420776367,
	"eval_mae": 0.1710653305053711,
	"eval_r2": 0.3582787811756134,
	"eval_rmse": 0.25249695777893066,
	"eval_runtime": 92.8944,
	"eval_samples_per_second": 41.38,
	"eval_steps_per_second": 2.594,
	"learning_rate": 0.001,
	"step": 7210
	},
	{
	"epoch": 10.402219140083218,
	"grad_norm": 0.2397356480360031,
	"learning_rate": 0.001,
	"loss": 0.3574,
	"step": 7500
	},
	{
	"epoch": 11.0,
	"eval_explained_variance": 0.35241732001304626,
	"eval_loss": 0.34479108452796936,
	"eval_mae": 0.17209044098854065,
	"eval_r2": 0.3498174250125885,
	"eval_rmse": 0.25417372584342957,
	"eval_runtime": 93.2158,
	"eval_samples_per_second": 41.238,
	"eval_steps_per_second": 2.585,
	"learning_rate": 0.001,
	"step": 7931
	},
	{
	"epoch": 11.095700416088766,
	"grad_norm": 0.23666760325431824,
	"learning_rate": 0.001,
	"loss": 0.3548,
	"step": 8000
	},
	{
	"epoch": 11.789181692094314,
	"grad_norm": 0.17148445546627045,
	"learning_rate": 0.001,
	"loss": 0.3549,
	"step": 8500
	},
	{
	"epoch": 12.0,
	"eval_explained_variance": 0.3604218363761902,
	"eval_loss": 0.3415849804878235,
	"eval_mae": 0.17670249938964844,
	"eval_r2": 0.35767847299575806,
	"eval_rmse": 0.2527333199977875,
	"eval_runtime": 92.5773,
	"eval_samples_per_second": 41.522,
	"eval_steps_per_second": 2.603,
	"learning_rate": 0.001,
	"step": 8652
	},
	{
	"epoch": 12.482662968099861,
	"grad_norm": 0.2034599930047989,
	"learning_rate": 0.001,
	"loss": 0.354,
	"step": 9000
	},
	{
	"epoch": 13.0,
	"eval_explained_variance": 0.35451599955558777,
	"eval_loss": 0.33990854024887085,
	"eval_mae": 0.16771164536476135,
	"eval_r2": 0.3523372411727905,
	"eval_rmse": 0.25265443325042725,
	"eval_runtime": 91.5276,
	"eval_samples_per_second": 41.998,
	"eval_steps_per_second": 2.633,
	"learning_rate": 0.001,
	"step": 9373
	},
	{
	"epoch": 13.176144244105409,
	"grad_norm": 0.21185149252414703,
	"learning_rate": 0.001,
	"loss": 0.3555,
	"step": 9500
	},
	{
	"epoch": 13.869625520110956,
	"grad_norm": 0.24503760039806366,
	"learning_rate": 0.001,
	"loss": 0.3566,
	"step": 10000
	},
	{
	"epoch": 14.0,
	"eval_explained_variance": 0.34794220328330994,
	"eval_loss": 0.34520208835601807,
	"eval_mae": 0.1745852380990982,
	"eval_r2": 0.34426644444465637,
	"eval_rmse": 0.25396791100502014,
	"eval_runtime": 93.4248,
	"eval_samples_per_second": 41.145,
	"eval_steps_per_second": 2.58,
	"learning_rate": 0.001,
	"step": 10094
	},
	{
	"epoch": 14.563106796116505,
	"grad_norm": 0.29965028166770935,
	"learning_rate": 0.001,
	"loss": 0.3553,
	"step": 10500
	},
	{
	"epoch": 15.0,
	"eval_explained_variance": 0.3463059067726135,
	"eval_loss": 0.34849879145622253,
	"eval_mae": 0.18007972836494446,
	"eval_r2": 0.3333212435245514,
	"eval_rmse": 0.2568492293357849,
	"eval_runtime": 100.4245,
	"eval_samples_per_second": 38.278,
	"eval_steps_per_second": 2.4,
	"learning_rate": 0.001,
	"step": 10815
	},
	{
	"epoch": 15.256588072122053,
	"grad_norm": 0.26795288920402527,
	"learning_rate": 0.001,
	"loss": 0.3571,
	"step": 11000
	},
	{
	"epoch": 15.9500693481276,
	"grad_norm": 0.19320347905158997,
	"learning_rate": 0.001,
	"loss": 0.3536,
	"step": 11500
	},
	{
	"epoch": 16.0,
	"eval_explained_variance": 0.34989917278289795,
	"eval_loss": 0.34347954392433167,
	"eval_mae": 0.17179666459560394,
	"eval_r2": 0.34726396203041077,
	"eval_rmse": 0.2537030875682831,
	"eval_runtime": 103.999,
	"eval_samples_per_second": 36.962,
	"eval_steps_per_second": 2.317,
	"learning_rate": 0.001,
	"step": 11536
	},
	{
	"epoch": 16.643550624133148,
	"grad_norm": 0.19884039461612701,
	"learning_rate": 0.0001,
	"loss": 0.3518,
	"step": 12000
	},
	{
	"epoch": 17.0,
	"eval_explained_variance": 0.366793692111969,
	"eval_loss": 0.341246634721756,
	"eval_mae": 0.17114569246768951,
	"eval_r2": 0.36331599950790405,
	"eval_rmse": 0.25078731775283813,
	"eval_runtime": 92.1763,
	"eval_samples_per_second": 41.703,
	"eval_steps_per_second": 2.615,
	"learning_rate": 0.0001,
	"step": 12257
	},
	{
	"epoch": 17.337031900138697,
	"grad_norm": 0.19435305893421173,
	"learning_rate": 0.0001,
	"loss": 0.3475,
	"step": 12500
	},
	{
	"epoch": 18.0,
	"eval_explained_variance": 0.36558443307876587,
	"eval_loss": 0.3398562967777252,
	"eval_mae": 0.17082427442073822,
	"eval_r2": 0.36493533849716187,
	"eval_rmse": 0.25065672397613525,
	"eval_runtime": 98.7078,
	"eval_samples_per_second": 38.943,
	"eval_steps_per_second": 2.442,
	"learning_rate": 0.0001,
	"step": 12978
	},
	{
	"epoch": 18.030513176144243,
	"grad_norm": 0.2573840022087097,
	"learning_rate": 0.0001,
	"loss": 0.3449,
	"step": 13000
	},
	{
	"epoch": 18.723994452149793,
	"grad_norm": 0.21889527142047882,
	"learning_rate": 0.0001,
	"loss": 0.347,
	"step": 13500
	},
	{
	"epoch": 19.0,
	"eval_explained_variance": 0.3787304162979126,
	"eval_loss": 0.3332718312740326,
	"eval_mae": 0.16749390959739685,
	"eval_r2": 0.3774765133857727,
	"eval_rmse": 0.24829652905464172,
	"eval_runtime": 108.1714,
	"eval_samples_per_second": 35.536,
	"eval_steps_per_second": 2.228,
	"learning_rate": 0.0001,
	"step": 13699
	},
	{
	"epoch": 19.41747572815534,
	"grad_norm": 0.3126258850097656,
	"learning_rate": 0.0001,
	"loss": 0.3445,
	"step": 14000
	},
	{
	"epoch": 20.0,
	"eval_explained_variance": 0.3822024166584015,
	"eval_loss": 0.333162784576416,
	"eval_mae": 0.16876617074012756,
	"eval_r2": 0.3809906542301178,
	"eval_rmse": 0.2478322684764862,
	"eval_runtime": 93.5874,
	"eval_samples_per_second": 41.074,
	"eval_steps_per_second": 2.575,
	"learning_rate": 0.0001,
	"step": 14420
	},
	{
	"epoch": 20.110957004160888,
	"grad_norm": 0.25440576672554016,
	"learning_rate": 0.0001,
	"loss": 0.3474,
	"step": 14500
	},
	{
	"epoch": 20.804438280166437,
	"grad_norm": 0.23914161324501038,
	"learning_rate": 0.0001,
	"loss": 0.3447,
	"step": 15000
	},
	{
	"epoch": 21.0,
	"eval_explained_variance": 0.38327154517173767,
	"eval_loss": 0.3324449062347412,
	"eval_mae": 0.16733573377132416,
	"eval_r2": 0.38100260496139526,
	"eval_rmse": 0.24757729470729828,
	"eval_runtime": 97.5169,
	"eval_samples_per_second": 39.419,
	"eval_steps_per_second": 2.471,
	"learning_rate": 0.0001,
	"step": 15141
	},
	{
	"epoch": 21.497919556171983,
	"grad_norm": 0.23553606867790222,
	"learning_rate": 0.0001,
	"loss": 0.3445,
	"step": 15500
	},
	{
	"epoch": 22.0,
	"eval_explained_variance": 0.38486921787261963,
	"eval_loss": 0.3320053517818451,
	"eval_mae": 0.16713765263557434,
	"eval_r2": 0.38355034589767456,
	"eval_rmse": 0.2471724897623062,
	"eval_runtime": 95.4307,
	"eval_samples_per_second": 40.281,
	"eval_steps_per_second": 2.525,
	"learning_rate": 0.0001,
	"step": 15862
	},
	{
	"epoch": 22.191400832177532,
	"grad_norm": 0.23152843117713928,
	"learning_rate": 0.0001,
	"loss": 0.3441,
	"step": 16000
	},
	{
	"epoch": 22.884882108183078,
	"grad_norm": 0.23495590686798096,
	"learning_rate": 0.0001,
	"loss": 0.3398,
	"step": 16500
	},
	{
	"epoch": 23.0,
	"eval_explained_variance": 0.39000746607780457,
	"eval_loss": 0.3301050662994385,
	"eval_mae": 0.16577981412410736,
	"eval_r2": 0.3889786899089813,
	"eval_rmse": 0.24611681699752808,
	"eval_runtime": 100.934,
	"eval_samples_per_second": 38.084,
	"eval_steps_per_second": 2.388,
	"learning_rate": 0.0001,
	"step": 16583
	},
	{
	"epoch": 23.578363384188627,
	"grad_norm": 0.24516963958740234,
	"learning_rate": 0.0001,
	"loss": 0.3417,
	"step": 17000
	},
	{
	"epoch": 24.0,
	"eval_explained_variance": 0.3905264139175415,
	"eval_loss": 0.3298528492450714,
	"eval_mae": 0.16478358209133148,
	"eval_r2": 0.3899492621421814,
	"eval_rmse": 0.24583497643470764,
	"eval_runtime": 96.7182,
	"eval_samples_per_second": 39.744,
	"eval_steps_per_second": 2.492,
	"learning_rate": 0.0001,
	"step": 17304
	},
	{
	"epoch": 24.271844660194176,
	"grad_norm": 0.2366987019777298,
	"learning_rate": 0.0001,
	"loss": 0.3394,
	"step": 17500
	},
	{
	"epoch": 24.965325936199722,
	"grad_norm": 0.22849540412425995,
	"learning_rate": 0.0001,
	"loss": 0.3406,
	"step": 18000
	},
	{
	"epoch": 25.0,
	"eval_explained_variance": 0.39103788137435913,
	"eval_loss": 0.32962867617607117,
	"eval_mae": 0.1640922725200653,
	"eval_r2": 0.3903038799762726,
	"eval_rmse": 0.2458016723394394,
	"eval_runtime": 94.6291,
	"eval_samples_per_second": 40.622,
	"eval_steps_per_second": 2.547,
	"learning_rate": 0.0001,
	"step": 18025
	},
	{
	"epoch": 25.65880721220527,
	"grad_norm": 0.24230694770812988,
	"learning_rate": 0.0001,
	"loss": 0.3381,
	"step": 18500
	},
	{
	"epoch": 26.0,
	"eval_explained_variance": 0.39299964904785156,
	"eval_loss": 0.32889437675476074,
	"eval_mae": 0.1631881594657898,
	"eval_r2": 0.3926166296005249,
	"eval_rmse": 0.24544604122638702,
	"eval_runtime": 93.5737,
	"eval_samples_per_second": 41.08,
	"eval_steps_per_second": 2.576,
	"learning_rate": 0.0001,
	"step": 18746
	},
	{
	"epoch": 26.352288488210817,
	"grad_norm": 0.2334737330675125,
	"learning_rate": 0.0001,
	"loss": 0.3399,
	"step": 19000
	},
	{
	"epoch": 27.0,
	"eval_explained_variance": 0.39082765579223633,
	"eval_loss": 0.33042922616004944,
	"eval_mae": 0.1674499809741974,
	"eval_r2": 0.38912835717201233,
	"eval_rmse": 0.2460869997739792,
	"eval_runtime": 90.4822,
	"eval_samples_per_second": 42.483,
	"eval_steps_per_second": 2.664,
	"learning_rate": 0.0001,
	"step": 19467
	},
	{
	"epoch": 27.045769764216367,
	"grad_norm": 0.23623766005039215,
	"learning_rate": 0.0001,
	"loss": 0.339,
	"step": 19500
	},
	{
	"epoch": 27.739251040221912,
	"grad_norm": 0.237477108836174,
	"learning_rate": 0.0001,
	"loss": 0.3377,
	"step": 20000
	},
	{
	"epoch": 28.0,
	"eval_explained_variance": 0.3972352147102356,
	"eval_loss": 0.32880541682243347,
	"eval_mae": 0.16454365849494934,
	"eval_r2": 0.3955116868019104,
	"eval_rmse": 0.24511639773845673,
	"eval_runtime": 89.1819,
	"eval_samples_per_second": 43.103,
	"eval_steps_per_second": 2.702,
	"learning_rate": 0.0001,
	"step": 20188
	},
	{
	"epoch": 28.43273231622746,
	"grad_norm": 0.23042118549346924,
	"learning_rate": 0.0001,
	"loss": 0.3384,
	"step": 20500
	},
	{
	"epoch": 29.0,
	"eval_explained_variance": 0.39730560779571533,
	"eval_loss": 0.3293789327144623,
	"eval_mae": 0.16559576988220215,
	"eval_r2": 0.3961379826068878,
	"eval_rmse": 0.24510112404823303,
	"eval_runtime": 88.0385,
	"eval_samples_per_second": 43.663,
	"eval_steps_per_second": 2.737,
	"learning_rate": 0.0001,
	"step": 20909
	},
	{
	"epoch": 29.12621359223301,
	"grad_norm": 0.4347997307777405,
	"learning_rate": 0.0001,
	"loss": 0.3396,
	"step": 21000
	},
	{
	"epoch": 29.819694868238557,
	"grad_norm": 0.38524329662323,
	"learning_rate": 0.0001,
	"loss": 0.3372,
	"step": 21500
	},
	{
	"epoch": 30.0,
	"eval_explained_variance": 0.3955426812171936,
	"eval_loss": 0.33135533332824707,
	"eval_mae": 0.16844958066940308,
	"eval_r2": 0.3913615643978119,
	"eval_rmse": 0.24635259807109833,
	"eval_runtime": 91.08,
	"eval_samples_per_second": 42.205,
	"eval_steps_per_second": 2.646,
	"learning_rate": 0.0001,
	"step": 21630
	},
	{
	"epoch": 30.513176144244106,
	"grad_norm": 0.3073582947254181,
	"learning_rate": 0.0001,
	"loss": 0.3375,
	"step": 22000
	},
	{
	"epoch": 31.0,
	"eval_explained_variance": 0.3935950696468353,
	"eval_loss": 0.32911789417266846,
	"eval_mae": 0.16081956028938293,
	"eval_r2": 0.3904249966144562,
	"eval_rmse": 0.24574027955532074,
	"eval_runtime": 90.421,
	"eval_samples_per_second": 42.512,
	"eval_steps_per_second": 2.665,
	"learning_rate": 0.0001,
	"step": 22351
	},
	{
	"epoch": 31.206657420249652,
	"grad_norm": 0.31049737334251404,
	"learning_rate": 0.0001,
	"loss": 0.339,
	"step": 22500
	},
	{
	"epoch": 31.9001386962552,
	"grad_norm": 0.40785181522369385,
	"learning_rate": 0.0001,
	"loss": 0.3373,
	"step": 23000
	},
	{
	"epoch": 32.0,
	"eval_explained_variance": 0.3971378207206726,
	"eval_loss": 0.3289436399936676,
	"eval_mae": 0.16307200491428375,
	"eval_r2": 0.3959096372127533,
	"eval_rmse": 0.24528969824314117,
	"eval_runtime": 92.2146,
	"eval_samples_per_second": 41.685,
	"eval_steps_per_second": 2.613,
	"learning_rate": 0.0001,
	"step": 23072
	},
	{
	"epoch": 32.59361997226075,
	"grad_norm": 0.3135410249233246,
	"learning_rate": 0.0001,
	"loss": 0.3362,
	"step": 23500
	},
	{
	"epoch": 33.0,
	"eval_explained_variance": 0.3988523483276367,
	"eval_loss": 0.3271527588367462,
	"eval_mae": 0.16276519000530243,
	"eval_r2": 0.3971821069717407,
	"eval_rmse": 0.24443718791007996,
	"eval_runtime": 89.5278,
	"eval_samples_per_second": 42.936,
	"eval_steps_per_second": 2.692,
	"learning_rate": 0.0001,
	"step": 23793
	},
	{
	"epoch": 33.287101248266296,
	"grad_norm": 0.22212661802768707,
	"learning_rate": 0.0001,
	"loss": 0.337,
	"step": 24000
	},
	{
	"epoch": 33.980582524271846,
	"grad_norm": 0.25206565856933594,
	"learning_rate": 0.0001,
	"loss": 0.3371,
	"step": 24500
	},
	{
	"epoch": 34.0,
	"eval_explained_variance": 0.39812082052230835,
	"eval_loss": 0.32699429988861084,
	"eval_mae": 0.16210177540779114,
	"eval_r2": 0.39756229519844055,
	"eval_rmse": 0.24429556727409363,
	"eval_runtime": 90.0899,
	"eval_samples_per_second": 42.668,
	"eval_steps_per_second": 2.675,
	"learning_rate": 0.0001,
	"step": 24514
	},
	{
	"epoch": 34.674063800277395,
	"grad_norm": 0.27033254504203796,
	"learning_rate": 0.0001,
	"loss": 0.3342,
	"step": 25000
	},
	{
	"epoch": 35.0,
	"eval_explained_variance": 0.3996908366680145,
	"eval_loss": 0.32638314366340637,
	"eval_mae": 0.1614546775817871,
	"eval_r2": 0.39874374866485596,
	"eval_rmse": 0.24386192858219147,
	"eval_runtime": 88.9919,
	"eval_samples_per_second": 43.195,
	"eval_steps_per_second": 2.708,
	"learning_rate": 0.0001,
	"step": 25235
	},
	{
	"epoch": 35.36754507628294,
	"grad_norm": 0.3120824098587036,
	"learning_rate": 0.0001,
	"loss": 0.3367,
	"step": 25500
	},
	{
	"epoch": 36.0,
	"eval_explained_variance": 0.3955422639846802,
	"eval_loss": 0.3293066918849945,
	"eval_mae": 0.16555820405483246,
	"eval_r2": 0.39463794231414795,
	"eval_rmse": 0.24545253813266754,
	"eval_runtime": 91.9694,
	"eval_samples_per_second": 41.796,
	"eval_steps_per_second": 2.62,
	"learning_rate": 0.0001,
	"step": 25956
	},
	{
	"epoch": 36.061026352288486,
	"grad_norm": 0.3190695345401764,
	"learning_rate": 0.0001,
	"loss": 0.3386,
	"step": 26000
	},
	{
	"epoch": 36.754507628294036,
	"grad_norm": 0.2679268717765808,
	"learning_rate": 0.0001,
	"loss": 0.3363,
	"step": 26500
	},
	{
	"epoch": 37.0,
	"eval_explained_variance": 0.4032209515571594,
	"eval_loss": 0.3271186649799347,
	"eval_mae": 0.1597272753715515,
	"eval_r2": 0.39962705969810486,
	"eval_rmse": 0.24424488842487335,
	"eval_runtime": 88.1563,
	"eval_samples_per_second": 43.604,
	"eval_steps_per_second": 2.734,
	"learning_rate": 0.0001,
	"step": 26677
	},
	{
	"epoch": 37.447988904299585,
	"grad_norm": 0.2553563714027405,
	"learning_rate": 0.0001,
	"loss": 0.3357,
	"step": 27000
	},
	{
	"epoch": 38.0,
	"eval_explained_variance": 0.4041087031364441,
	"eval_loss": 0.32695677876472473,
	"eval_mae": 0.16126109659671783,
	"eval_r2": 0.402229368686676,
	"eval_rmse": 0.24366919696331024,
	"eval_runtime": 91.2875,
	"eval_samples_per_second": 42.109,
	"eval_steps_per_second": 2.64,
	"learning_rate": 0.0001,
	"step": 27398
	},
	{
	"epoch": 38.141470180305134,
	"grad_norm": 0.3718196451663971,
	"learning_rate": 0.0001,
	"loss": 0.3348,
	"step": 27500
	},
	{
	"epoch": 38.83495145631068,
	"grad_norm": 0.30295658111572266,
	"learning_rate": 0.0001,
	"loss": 0.3377,
	"step": 28000
	},
	{
	"epoch": 39.0,
	"eval_explained_variance": 0.4026513695716858,
	"eval_loss": 0.33263665437698364,
	"eval_mae": 0.1575259119272232,
	"eval_r2": 0.4006690979003906,
	"eval_rmse": 0.24382774531841278,
	"eval_runtime": 93.1613,
	"eval_samples_per_second": 41.262,
	"eval_steps_per_second": 2.587,
	"learning_rate": 0.0001,
	"step": 28119
	},
	{
	"epoch": 39.528432732316226,
	"grad_norm": 0.3047119081020355,
	"learning_rate": 0.0001,
	"loss": 0.3354,
	"step": 28500
	},
	{
	"epoch": 40.0,
	"eval_explained_variance": 0.40179282426834106,
	"eval_loss": 0.33278176188468933,
	"eval_mae": 0.16507098078727722,
	"eval_r2": 0.4002922475337982,
	"eval_rmse": 0.2442423701286316,
	"eval_runtime": 98.0451,
	"eval_samples_per_second": 39.206,
	"eval_steps_per_second": 2.458,
	"learning_rate": 0.0001,
	"step": 28840
	},
	{
	"epoch": 40.221914008321775,
	"grad_norm": 0.2754528522491455,
	"learning_rate": 0.0001,
	"loss": 0.3367,
	"step": 29000
	},
	{
	"epoch": 40.915395284327325,
	"grad_norm": 0.5425918102264404,
	"learning_rate": 0.0001,
	"loss": 0.3363,
	"step": 29500
	},
	{
	"epoch": 41.0,
	"eval_explained_variance": 0.4044828712940216,
	"eval_loss": 0.33069443702697754,
	"eval_mae": 0.16271242499351501,
	"eval_r2": 0.4031254053115845,
	"eval_rmse": 0.24350450932979584,
	"eval_runtime": 93.471,
	"eval_samples_per_second": 41.125,
	"eval_steps_per_second": 2.578,
	"learning_rate": 0.0001,
	"step": 29561
	},
	{
	"epoch": 41.608876560332874,
	"grad_norm": 0.4664023518562317,
	"learning_rate": 1e-05,
	"loss": 0.335,
	"step": 30000
	},
	{
	"epoch": 42.0,
	"eval_explained_variance": 0.4039740562438965,
	"eval_loss": 0.3310275375843048,
	"eval_mae": 0.1640516221523285,
	"eval_r2": 0.40303775668144226,
	"eval_rmse": 0.24363353848457336,
	"eval_runtime": 91.0645,
	"eval_samples_per_second": 42.212,
	"eval_steps_per_second": 2.646,
	"learning_rate": 1e-05,
	"step": 30282
	},
	{
	"epoch": 42.302357836338416,
	"grad_norm": 0.30786848068237305,
	"learning_rate": 1e-05,
	"loss": 0.3348,
	"step": 30500
	},
	{
	"epoch": 42.995839112343965,
	"grad_norm": 0.3475857079029083,
	"learning_rate": 1e-05,
	"loss": 0.334,
	"step": 31000
	},
	{
	"epoch": 43.0,
	"eval_explained_variance": 0.4058697521686554,
	"eval_loss": 0.32956016063690186,
	"eval_mae": 0.16028979420661926,
	"eval_r2": 0.40524527430534363,
	"eval_rmse": 0.2429088056087494,
	"eval_runtime": 91.4351,
	"eval_samples_per_second": 42.041,
	"eval_steps_per_second": 2.636,
	"learning_rate": 1e-05,
	"step": 31003
	},
	{
	"epoch": 43.689320388349515,
	"grad_norm": 0.38462796807289124,
	"learning_rate": 1e-05,
	"loss": 0.3366,
	"step": 31500
	},
	{
	"epoch": 44.0,
	"eval_explained_variance": 0.40545278787612915,
	"eval_loss": 0.33022987842559814,
	"eval_mae": 0.16247908771038055,
	"eval_r2": 0.4038069546222687,
	"eval_rmse": 0.2432354837656021,
	"eval_runtime": 95.2656,
	"eval_samples_per_second": 40.35,
	"eval_steps_per_second": 2.53,
	"learning_rate": 1e-05,
	"step": 31724
	},
	{
	"epoch": 44.382801664355064,
	"grad_norm": 0.3637019395828247,
	"learning_rate": 1e-05,
	"loss": 0.3326,
	"step": 32000
	},
	{
	"epoch": 45.0,
	"eval_explained_variance": 0.405474990606308,
	"eval_loss": 0.3266430199146271,
	"eval_mae": 0.16172955930233002,
	"eval_r2": 0.4047379195690155,
	"eval_rmse": 0.24298621714115143,
	"eval_runtime": 92.749,
	"eval_samples_per_second": 41.445,
	"eval_steps_per_second": 2.598,
	"learning_rate": 1e-05,
	"step": 32445
	},
	{
	"epoch": 45.0,
	"learning_rate": 1e-05,
	"step": 32445,
	"total_flos": 7.674132153670687e+19,
	"train_loss": 0.3477805222434721,
	"train_runtime": 18758.0673,
	"train_samples_per_second": 92.136,
	"train_steps_per_second": 5.766
	}
	],
	"logging_steps": 500,
	"max_steps": 108150,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 150,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.674132153670687e+19,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}