add_BERT_no_pretrain_wnli / trainer_state.json

End of training

532813b over 1 year ago

5.26 kB

	{
	"best_metric": 0.6852201819419861,
	"best_model_checkpoint": "add_BERT_no_pretrain_wnli/checkpoint-40",
	"epoch": 13.0,
	"global_step": 65,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"learning_rate": 3.9200000000000004e-05,
	"loss": 0.9529,
	"step": 5
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6859562397003174,
	"eval_runtime": 0.1385,
	"eval_samples_per_second": 512.641,
	"eval_steps_per_second": 7.22,
	"step": 5
	},
	{
	"epoch": 2.0,
	"learning_rate": 3.8400000000000005e-05,
	"loss": 0.762,
	"step": 10
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.8068376183509827,
	"eval_runtime": 0.1395,
	"eval_samples_per_second": 509.037,
	"eval_steps_per_second": 7.17,
	"step": 10
	},
	{
	"epoch": 3.0,
	"learning_rate": 3.76e-05,
	"loss": 0.7199,
	"step": 15
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.6986883878707886,
	"eval_runtime": 0.14,
	"eval_samples_per_second": 507.156,
	"eval_steps_per_second": 7.143,
	"step": 15
	},
	{
	"epoch": 4.0,
	"learning_rate": 3.680000000000001e-05,
	"loss": 0.7092,
	"step": 20
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6958004236221313,
	"eval_runtime": 0.1388,
	"eval_samples_per_second": 511.607,
	"eval_steps_per_second": 7.206,
	"step": 20
	},
	{
	"epoch": 5.0,
	"learning_rate": 3.6e-05,
	"loss": 0.7149,
	"step": 25
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6853562593460083,
	"eval_runtime": 0.1392,
	"eval_samples_per_second": 509.961,
	"eval_steps_per_second": 7.183,
	"step": 25
	},
	{
	"epoch": 6.0,
	"learning_rate": 3.52e-05,
	"loss": 0.7069,
	"step": 30
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.6955687403678894,
	"eval_runtime": 0.1393,
	"eval_samples_per_second": 509.691,
	"eval_steps_per_second": 7.179,
	"step": 30
	},
	{
	"epoch": 7.0,
	"learning_rate": 3.44e-05,
	"loss": 0.7008,
	"step": 35
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.6985586881637573,
	"eval_runtime": 0.1391,
	"eval_samples_per_second": 510.536,
	"eval_steps_per_second": 7.191,
	"step": 35
	},
	{
	"epoch": 8.0,
	"learning_rate": 3.3600000000000004e-05,
	"loss": 0.7079,
	"step": 40
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6852201819419861,
	"eval_runtime": 0.139,
	"eval_samples_per_second": 510.861,
	"eval_steps_per_second": 7.195,
	"step": 40
	},
	{
	"epoch": 9.0,
	"learning_rate": 3.28e-05,
	"loss": 0.7444,
	"step": 45
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.7381781935691833,
	"eval_runtime": 0.1382,
	"eval_samples_per_second": 513.836,
	"eval_steps_per_second": 7.237,
	"step": 45
	},
	{
	"epoch": 10.0,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.7147,
	"step": 50
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.7008692026138306,
	"eval_runtime": 0.1384,
	"eval_samples_per_second": 512.872,
	"eval_steps_per_second": 7.224,
	"step": 50
	},
	{
	"epoch": 11.0,
	"learning_rate": 3.1200000000000006e-05,
	"loss": 0.7318,
	"step": 55
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.7316415309906006,
	"eval_runtime": 0.1391,
	"eval_samples_per_second": 510.379,
	"eval_steps_per_second": 7.188,
	"step": 55
	},
	{
	"epoch": 12.0,
	"learning_rate": 3.0400000000000004e-05,
	"loss": 0.7212,
	"step": 60
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.5633802816901409,
	"eval_loss": 0.6857689023017883,
	"eval_runtime": 0.1384,
	"eval_samples_per_second": 512.863,
	"eval_steps_per_second": 7.223,
	"step": 60
	},
	{
	"epoch": 13.0,
	"learning_rate": 2.96e-05,
	"loss": 0.7043,
	"step": 65
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.43661971830985913,
	"eval_loss": 0.7075231075286865,
	"eval_runtime": 0.1394,
	"eval_samples_per_second": 509.331,
	"eval_steps_per_second": 7.174,
	"step": 65
	},
	{
	"epoch": 13.0,
	"step": 65,
	"total_flos": 1179011824746496.0,
	"train_loss": 0.7377610133244441,
	"train_runtime": 98.1104,
	"train_samples_per_second": 323.615,
	"train_steps_per_second": 2.548
	}
	],
	"max_steps": 250,
	"num_train_epochs": 50,
	"total_flos": 1179011824746496.0,
	"trial_name": null,
	"trial_params": null
	}