|
{ |
|
"best_metric": 0.864288330078125, |
|
"best_model_checkpoint": "vit-base-patch16-224-in21k-rotated-dungeons-v8/checkpoint-200", |
|
"epoch": 22.0, |
|
"eval_steps": 100, |
|
"global_step": 264, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 0.6725011467933655, |
|
"learning_rate": 9.621212121212122e-06, |
|
"loss": 0.2014, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 2.3636183738708496, |
|
"learning_rate": 9.242424242424244e-06, |
|
"loss": 0.2316, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 2.3594517707824707, |
|
"learning_rate": 8.863636363636365e-06, |
|
"loss": 0.2021, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 2.3623316287994385, |
|
"learning_rate": 8.484848484848486e-06, |
|
"loss": 0.1999, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 4.166666666666667, |
|
"grad_norm": 0.8582655191421509, |
|
"learning_rate": 8.106060606060606e-06, |
|
"loss": 0.1825, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"grad_norm": 0.9432439208030701, |
|
"learning_rate": 7.727272727272727e-06, |
|
"loss": 0.1832, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 5.833333333333333, |
|
"grad_norm": 0.9690579175949097, |
|
"learning_rate": 7.348484848484849e-06, |
|
"loss": 0.1772, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 6.666666666666667, |
|
"grad_norm": 1.4010443687438965, |
|
"learning_rate": 6.969696969696971e-06, |
|
"loss": 0.1726, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"grad_norm": 0.7616134285926819, |
|
"learning_rate": 6.590909090909091e-06, |
|
"loss": 0.1767, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"grad_norm": 0.641935408115387, |
|
"learning_rate": 6.212121212121213e-06, |
|
"loss": 0.1574, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"eval_accuracy": 0.875, |
|
"eval_loss": 0.8765411376953125, |
|
"eval_runtime": 0.0757, |
|
"eval_samples_per_second": 105.614, |
|
"eval_steps_per_second": 13.202, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 9.166666666666666, |
|
"grad_norm": 0.8502519130706787, |
|
"learning_rate": 5.833333333333334e-06, |
|
"loss": 0.1655, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 0.6651738882064819, |
|
"learning_rate": 5.4545454545454545e-06, |
|
"loss": 0.1611, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 10.833333333333334, |
|
"grad_norm": 1.1078132390975952, |
|
"learning_rate": 5.075757575757576e-06, |
|
"loss": 0.1598, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 11.666666666666666, |
|
"grad_norm": 0.9000115990638733, |
|
"learning_rate": 4.696969696969698e-06, |
|
"loss": 0.154, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 12.5, |
|
"grad_norm": 0.6342107057571411, |
|
"learning_rate": 4.3181818181818185e-06, |
|
"loss": 0.1486, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 13.333333333333334, |
|
"grad_norm": 0.4974025785923004, |
|
"learning_rate": 3.93939393939394e-06, |
|
"loss": 0.1547, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 14.166666666666666, |
|
"grad_norm": 0.6266921162605286, |
|
"learning_rate": 3.560606060606061e-06, |
|
"loss": 0.1414, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 15.0, |
|
"grad_norm": 0.553960382938385, |
|
"learning_rate": 3.181818181818182e-06, |
|
"loss": 0.1509, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 15.833333333333334, |
|
"grad_norm": 0.6009966135025024, |
|
"learning_rate": 2.803030303030303e-06, |
|
"loss": 0.1497, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 16.666666666666668, |
|
"grad_norm": 0.5110170841217041, |
|
"learning_rate": 2.4242424242424244e-06, |
|
"loss": 0.1364, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 16.666666666666668, |
|
"eval_accuracy": 0.875, |
|
"eval_loss": 0.864288330078125, |
|
"eval_runtime": 0.0706, |
|
"eval_samples_per_second": 113.361, |
|
"eval_steps_per_second": 14.17, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 17.5, |
|
"grad_norm": 0.5791155695915222, |
|
"learning_rate": 2.0454545454545457e-06, |
|
"loss": 0.153, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 18.333333333333332, |
|
"grad_norm": 0.5752493143081665, |
|
"learning_rate": 1.6666666666666667e-06, |
|
"loss": 0.1413, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 19.166666666666668, |
|
"grad_norm": 0.4596743881702423, |
|
"learning_rate": 1.287878787878788e-06, |
|
"loss": 0.1319, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"grad_norm": 0.790753185749054, |
|
"learning_rate": 9.090909090909091e-07, |
|
"loss": 0.1474, |
|
"step": 240 |
|
}, |
|
{ |
|
"epoch": 20.833333333333332, |
|
"grad_norm": 0.6762207746505737, |
|
"learning_rate": 5.303030303030304e-07, |
|
"loss": 0.1368, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 21.666666666666668, |
|
"grad_norm": 0.559245765209198, |
|
"learning_rate": 1.5151515151515152e-07, |
|
"loss": 0.1519, |
|
"step": 260 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"step": 264, |
|
"total_flos": 8.013030801360077e+16, |
|
"train_loss": 0.16366353608442075, |
|
"train_runtime": 97.5562, |
|
"train_samples_per_second": 10.599, |
|
"train_steps_per_second": 2.706 |
|
} |
|
], |
|
"logging_steps": 10, |
|
"max_steps": 264, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 22, |
|
"save_steps": 100, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 8.013030801360077e+16, |
|
"train_batch_size": 4, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|