Training in progress, step 550

ee01640 verified 2 months ago

4.65 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0638297872340425,
	"eval_steps": 50,
	"global_step": 550,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.09671179883945841,
	"grad_norm": 0.035103704780340195,
	"learning_rate": 0.00016025641025641028,
	"loss": 1.0483,
	"step": 50
	},
	{
	"epoch": 0.09671179883945841,
	"eval_loss": 0.9260319471359253,
	"eval_runtime": 60.9012,
	"eval_samples_per_second": 1.642,
	"eval_steps_per_second": 0.213,
	"step": 50
	},
	{
	"epoch": 0.19342359767891681,
	"grad_norm": 0.030684856697916985,
	"learning_rate": 0.00032051282051282057,
	"loss": 0.8577,
	"step": 100
	},
	{
	"epoch": 0.19342359767891681,
	"eval_loss": 0.820220410823822,
	"eval_runtime": 56.5241,
	"eval_samples_per_second": 1.769,
	"eval_steps_per_second": 0.23,
	"step": 100
	},
	{
	"epoch": 0.2901353965183752,
	"grad_norm": 0.02802114002406597,
	"learning_rate": 0.0004807692307692308,
	"loss": 0.7996,
	"step": 150
	},
	{
	"epoch": 0.2901353965183752,
	"eval_loss": 0.7894760370254517,
	"eval_runtime": 56.6018,
	"eval_samples_per_second": 1.767,
	"eval_steps_per_second": 0.23,
	"step": 150
	},
	{
	"epoch": 0.38684719535783363,
	"grad_norm": 0.03189089894294739,
	"learning_rate": 0.0004842293906810036,
	"loss": 0.7802,
	"step": 200
	},
	{
	"epoch": 0.38684719535783363,
	"eval_loss": 0.7783958315849304,
	"eval_runtime": 56.5799,
	"eval_samples_per_second": 1.767,
	"eval_steps_per_second": 0.23,
	"step": 200
	},
	{
	"epoch": 0.4835589941972921,
	"grad_norm": 0.03580320626497269,
	"learning_rate": 0.00046630824372759856,
	"loss": 0.7671,
	"step": 250
	},
	{
	"epoch": 0.4835589941972921,
	"eval_loss": 0.7721498012542725,
	"eval_runtime": 57.9466,
	"eval_samples_per_second": 1.726,
	"eval_steps_per_second": 0.224,
	"step": 250
	},
	{
	"epoch": 0.5802707930367504,
	"grad_norm": 0.034203894436359406,
	"learning_rate": 0.00044838709677419355,
	"loss": 0.761,
	"step": 300
	},
	{
	"epoch": 0.5802707930367504,
	"eval_loss": 0.7687731385231018,
	"eval_runtime": 60.6867,
	"eval_samples_per_second": 1.648,
	"eval_steps_per_second": 0.214,
	"step": 300
	},
	{
	"epoch": 0.6769825918762089,
	"grad_norm": 0.03307868540287018,
	"learning_rate": 0.00043046594982078853,
	"loss": 0.7587,
	"step": 350
	},
	{
	"epoch": 0.6769825918762089,
	"eval_loss": 0.766252338886261,
	"eval_runtime": 56.5991,
	"eval_samples_per_second": 1.767,
	"eval_steps_per_second": 0.23,
	"step": 350
	},
	{
	"epoch": 0.7736943907156673,
	"grad_norm": 0.03772694244980812,
	"learning_rate": 0.0004125448028673835,
	"loss": 0.7529,
	"step": 400
	},
	{
	"epoch": 0.7736943907156673,
	"eval_loss": 0.7637045383453369,
	"eval_runtime": 56.5561,
	"eval_samples_per_second": 1.768,
	"eval_steps_per_second": 0.23,
	"step": 400
	},
	{
	"epoch": 0.8704061895551257,
	"grad_norm": 0.04153395816683769,
	"learning_rate": 0.00039462365591397855,
	"loss": 0.7562,
	"step": 450
	},
	{
	"epoch": 0.8704061895551257,
	"eval_loss": 0.7616338133811951,
	"eval_runtime": 56.6718,
	"eval_samples_per_second": 1.765,
	"eval_steps_per_second": 0.229,
	"step": 450
	},
	{
	"epoch": 0.9671179883945842,
	"grad_norm": 0.03528429567813873,
	"learning_rate": 0.00037670250896057353,
	"loss": 0.7507,
	"step": 500
	},
	{
	"epoch": 0.9671179883945842,
	"eval_loss": 0.7601596117019653,
	"eval_runtime": 56.9725,
	"eval_samples_per_second": 1.755,
	"eval_steps_per_second": 0.228,
	"step": 500
	}
	],
	"logging_steps": 50,
	"max_steps": 1551,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 6.507715798573056e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}