w2v-bert-bem-genbed-combined-model / trainer_state.json

End of training

578a93c verified 4 months ago

10.3 kB

	{
	"best_metric": 0.29688435792922974,
	"best_model_checkpoint": "/scratch/skscla001/results/w2v-bert-bem-genbed-combined-model/checkpoint-2400",
	"epoch": 8.241758241758241,
	"eval_steps": 200,
	"global_step": 3000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.27472527472527475,
	"grad_norm": 3.8470664024353027,
	"learning_rate": 0.00029699999999999996,
	"loss": 1.5247,
	"step": 100
	},
	{
	"epoch": 0.5494505494505495,
	"grad_norm": 4.275773048400879,
	"learning_rate": 0.00029725508317929756,
	"loss": 0.6407,
	"step": 200
	},
	{
	"epoch": 0.5494505494505495,
	"eval_loss": 0.6847326159477234,
	"eval_runtime": 81.9887,
	"eval_samples_per_second": 23.65,
	"eval_steps_per_second": 2.964,
	"eval_wer": 0.8380540540540541,
	"step": 200
	},
	{
	"epoch": 0.8241758241758241,
	"grad_norm": 4.533022403717041,
	"learning_rate": 0.0002944824399260628,
	"loss": 0.5465,
	"step": 300
	},
	{
	"epoch": 1.098901098901099,
	"grad_norm": 1.5235211849212646,
	"learning_rate": 0.00029170979667282804,
	"loss": 0.458,
	"step": 400
	},
	{
	"epoch": 1.098901098901099,
	"eval_loss": 0.4855729043483734,
	"eval_runtime": 81.2075,
	"eval_samples_per_second": 23.877,
	"eval_steps_per_second": 2.992,
	"eval_wer": 0.6787027027027027,
	"step": 400
	},
	{
	"epoch": 1.3736263736263736,
	"grad_norm": 1.3080778121948242,
	"learning_rate": 0.00028893715341959334,
	"loss": 0.4539,
	"step": 500
	},
	{
	"epoch": 1.6483516483516483,
	"grad_norm": 1.1141129732131958,
	"learning_rate": 0.0002861645101663586,
	"loss": 0.4014,
	"step": 600
	},
	{
	"epoch": 1.6483516483516483,
	"eval_loss": 0.4310147762298584,
	"eval_runtime": 81.4044,
	"eval_samples_per_second": 23.819,
	"eval_steps_per_second": 2.985,
	"eval_wer": 0.6258378378378379,
	"step": 600
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 1.3589787483215332,
	"learning_rate": 0.00028339186691312383,
	"loss": 0.4043,
	"step": 700
	},
	{
	"epoch": 2.197802197802198,
	"grad_norm": 1.0690594911575317,
	"learning_rate": 0.0002806192236598891,
	"loss": 0.3523,
	"step": 800
	},
	{
	"epoch": 2.197802197802198,
	"eval_loss": 0.36540287733078003,
	"eval_runtime": 81.4173,
	"eval_samples_per_second": 23.816,
	"eval_steps_per_second": 2.985,
	"eval_wer": 0.5421621621621622,
	"step": 800
	},
	{
	"epoch": 2.4725274725274726,
	"grad_norm": 1.0713083744049072,
	"learning_rate": 0.0002778465804066543,
	"loss": 0.3256,
	"step": 900
	},
	{
	"epoch": 2.7472527472527473,
	"grad_norm": 1.2681094408035278,
	"learning_rate": 0.00027507393715341956,
	"loss": 0.3298,
	"step": 1000
	},
	{
	"epoch": 2.7472527472527473,
	"eval_loss": 0.3534020483493805,
	"eval_runtime": 81.532,
	"eval_samples_per_second": 23.782,
	"eval_steps_per_second": 2.98,
	"eval_wer": 0.5373513513513514,
	"step": 1000
	},
	{
	"epoch": 3.021978021978022,
	"grad_norm": 1.4569008350372314,
	"learning_rate": 0.0002723012939001848,
	"loss": 0.3323,
	"step": 1100
	},
	{
	"epoch": 3.2967032967032965,
	"grad_norm": 0.8082828521728516,
	"learning_rate": 0.00026952865064695005,
	"loss": 0.2749,
	"step": 1200
	},
	{
	"epoch": 3.2967032967032965,
	"eval_loss": 0.34022244811058044,
	"eval_runtime": 81.3749,
	"eval_samples_per_second": 23.828,
	"eval_steps_per_second": 2.986,
	"eval_wer": 0.5196216216216216,
	"step": 1200
	},
	{
	"epoch": 3.571428571428571,
	"grad_norm": 0.5922394394874573,
	"learning_rate": 0.0002667560073937153,
	"loss": 0.2681,
	"step": 1300
	},
	{
	"epoch": 3.8461538461538463,
	"grad_norm": 0.7247134447097778,
	"learning_rate": 0.00026398336414048054,
	"loss": 0.2705,
	"step": 1400
	},
	{
	"epoch": 3.8461538461538463,
	"eval_loss": 0.3283730447292328,
	"eval_runtime": 86.9096,
	"eval_samples_per_second": 22.311,
	"eval_steps_per_second": 2.796,
	"eval_wer": 0.5250270270270271,
	"step": 1400
	},
	{
	"epoch": 4.1208791208791204,
	"grad_norm": 0.9202386140823364,
	"learning_rate": 0.00026121072088724584,
	"loss": 0.2516,
	"step": 1500
	},
	{
	"epoch": 4.395604395604396,
	"grad_norm": 1.350644588470459,
	"learning_rate": 0.0002584380776340111,
	"loss": 0.249,
	"step": 1600
	},
	{
	"epoch": 4.395604395604396,
	"eval_loss": 0.3498856723308563,
	"eval_runtime": 81.8027,
	"eval_samples_per_second": 23.703,
	"eval_steps_per_second": 2.971,
	"eval_wer": 0.5299459459459459,
	"step": 1600
	},
	{
	"epoch": 4.670329670329671,
	"grad_norm": 1.1849825382232666,
	"learning_rate": 0.00025566543438077633,
	"loss": 0.2415,
	"step": 1700
	},
	{
	"epoch": 4.945054945054945,
	"grad_norm": 1.1748567819595337,
	"learning_rate": 0.0002528927911275416,
	"loss": 0.2508,
	"step": 1800
	},
	{
	"epoch": 4.945054945054945,
	"eval_loss": 0.35116615891456604,
	"eval_runtime": 81.4977,
	"eval_samples_per_second": 23.792,
	"eval_steps_per_second": 2.982,
	"eval_wer": 0.5582162162162162,
	"step": 1800
	},
	{
	"epoch": 5.21978021978022,
	"grad_norm": 0.8483781814575195,
	"learning_rate": 0.0002501201478743068,
	"loss": 0.2172,
	"step": 1900
	},
	{
	"epoch": 5.4945054945054945,
	"grad_norm": 0.7349032759666443,
	"learning_rate": 0.00024734750462107206,
	"loss": 0.2081,
	"step": 2000
	},
	{
	"epoch": 5.4945054945054945,
	"eval_loss": 0.3216859996318817,
	"eval_runtime": 81.8476,
	"eval_samples_per_second": 23.69,
	"eval_steps_per_second": 2.969,
	"eval_wer": 0.4808108108108108,
	"step": 2000
	},
	{
	"epoch": 5.769230769230769,
	"grad_norm": 0.5661817193031311,
	"learning_rate": 0.0002445748613678373,
	"loss": 0.2039,
	"step": 2100
	},
	{
	"epoch": 6.043956043956044,
	"grad_norm": 0.5281690359115601,
	"learning_rate": 0.00024180221811460255,
	"loss": 0.2176,
	"step": 2200
	},
	{
	"epoch": 6.043956043956044,
	"eval_loss": 0.3141148090362549,
	"eval_runtime": 81.6241,
	"eval_samples_per_second": 23.755,
	"eval_steps_per_second": 2.977,
	"eval_wer": 0.472,
	"step": 2200
	},
	{
	"epoch": 6.318681318681318,
	"grad_norm": 0.5380920171737671,
	"learning_rate": 0.0002390295748613678,
	"loss": 0.1719,
	"step": 2300
	},
	{
	"epoch": 6.593406593406593,
	"grad_norm": 0.6829392910003662,
	"learning_rate": 0.0002362569316081331,
	"loss": 0.1784,
	"step": 2400
	},
	{
	"epoch": 6.593406593406593,
	"eval_loss": 0.29688435792922974,
	"eval_runtime": 81.2312,
	"eval_samples_per_second": 23.87,
	"eval_steps_per_second": 2.991,
	"eval_wer": 0.4669189189189189,
	"step": 2400
	},
	{
	"epoch": 6.868131868131869,
	"grad_norm": 0.5835310220718384,
	"learning_rate": 0.00023348428835489834,
	"loss": 0.1842,
	"step": 2500
	},
	{
	"epoch": 7.142857142857143,
	"grad_norm": 0.5060920715332031,
	"learning_rate": 0.00023071164510166358,
	"loss": 0.166,
	"step": 2600
	},
	{
	"epoch": 7.142857142857143,
	"eval_loss": 0.3367214798927307,
	"eval_runtime": 81.6166,
	"eval_samples_per_second": 23.757,
	"eval_steps_per_second": 2.977,
	"eval_wer": 0.49135135135135133,
	"step": 2600
	},
	{
	"epoch": 7.417582417582418,
	"grad_norm": 0.5145979523658752,
	"learning_rate": 0.00022793900184842883,
	"loss": 0.1562,
	"step": 2700
	},
	{
	"epoch": 7.6923076923076925,
	"grad_norm": 0.8669461011886597,
	"learning_rate": 0.00022516635859519407,
	"loss": 0.157,
	"step": 2800
	},
	{
	"epoch": 7.6923076923076925,
	"eval_loss": 0.32062390446662903,
	"eval_runtime": 81.6437,
	"eval_samples_per_second": 23.75,
	"eval_steps_per_second": 2.976,
	"eval_wer": 0.49027027027027026,
	"step": 2800
	},
	{
	"epoch": 7.967032967032967,
	"grad_norm": 0.7915688753128052,
	"learning_rate": 0.00022239371534195932,
	"loss": 0.1602,
	"step": 2900
	},
	{
	"epoch": 8.241758241758241,
	"grad_norm": 0.7078336477279663,
	"learning_rate": 0.00021962107208872456,
	"loss": 0.1398,
	"step": 3000
	},
	{
	"epoch": 8.241758241758241,
	"eval_loss": 0.32599326968193054,
	"eval_runtime": 81.2462,
	"eval_samples_per_second": 23.866,
	"eval_steps_per_second": 2.991,
	"eval_wer": 0.4616756756756757,
	"step": 3000
	},
	{
	"epoch": 8.241758241758241,
	"step": 3000,
	"total_flos": 8.892175962497035e+18,
	"train_loss": 0.32454829279581704,
	"train_runtime": 5336.5113,
	"train_samples_per_second": 32.701,
	"train_steps_per_second": 2.046
	}
	],
	"logging_steps": 100,
	"max_steps": 10920,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 30,
	"save_steps": 200,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 3
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.892175962497035e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}