|
{ |
|
"best_metric": 2.0163416862487793, |
|
"best_model_checkpoint": "910-3-roberta-10/checkpoint-750", |
|
"epoch": 3.0, |
|
"eval_steps": 500, |
|
"global_step": 750, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 23.742645263671875, |
|
"learning_rate": 1.6666666666666667e-06, |
|
"loss": 2.3895, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 11.274296760559082, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 2.3348, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 7.359958171844482, |
|
"learning_rate": 5e-06, |
|
"loss": 2.3217, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 8.179986000061035, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 2.3207, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 18.304018020629883, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 2.2965, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 12.443976402282715, |
|
"learning_rate": 1e-05, |
|
"loss": 2.3036, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 14.003621101379395, |
|
"learning_rate": 1.1666666666666668e-05, |
|
"loss": 2.2321, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 12.123735427856445, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 2.218, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 26.824359893798828, |
|
"learning_rate": 1.5e-05, |
|
"loss": 2.1573, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 12.286924362182617, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 2.146, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_accuracy": 0.1845, |
|
"eval_f1_macro": 0.0987979652095434, |
|
"eval_f1_micro": 0.1845, |
|
"eval_f1_weighted": 0.09879796520954343, |
|
"eval_loss": 2.1069414615631104, |
|
"eval_precision_macro": 0.10847279767673075, |
|
"eval_precision_micro": 0.1845, |
|
"eval_precision_weighted": 0.10847279767673075, |
|
"eval_recall_macro": 0.1845, |
|
"eval_recall_micro": 0.1845, |
|
"eval_recall_weighted": 0.1845, |
|
"eval_runtime": 5.8665, |
|
"eval_samples_per_second": 340.92, |
|
"eval_steps_per_second": 5.455, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 13.818865776062012, |
|
"learning_rate": 1.8333333333333333e-05, |
|
"loss": 2.1453, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 16.149505615234375, |
|
"learning_rate": 2e-05, |
|
"loss": 2.1011, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 24.287403106689453, |
|
"learning_rate": 2.1666666666666667e-05, |
|
"loss": 2.087, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 8.6444673538208, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 2.11, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 18.66366195678711, |
|
"learning_rate": 2.5e-05, |
|
"loss": 2.0991, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 8.785151481628418, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 2.0281, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 9.933465957641602, |
|
"learning_rate": 2.8333333333333335e-05, |
|
"loss": 2.0634, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 13.846152305603027, |
|
"learning_rate": 3e-05, |
|
"loss": 2.0504, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 24.698633193969727, |
|
"learning_rate": 3.1666666666666666e-05, |
|
"loss": 2.0754, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 13.607393264770508, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 2.0, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_accuracy": 0.224, |
|
"eval_f1_macro": 0.15699864365105617, |
|
"eval_f1_micro": 0.224, |
|
"eval_f1_weighted": 0.15699864365105617, |
|
"eval_loss": 2.0973894596099854, |
|
"eval_precision_macro": 0.17293733079797044, |
|
"eval_precision_micro": 0.224, |
|
"eval_precision_weighted": 0.17293733079797044, |
|
"eval_recall_macro": 0.22400000000000003, |
|
"eval_recall_micro": 0.224, |
|
"eval_recall_weighted": 0.224, |
|
"eval_runtime": 5.9646, |
|
"eval_samples_per_second": 335.311, |
|
"eval_steps_per_second": 5.365, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 2.1, |
|
"grad_norm": 10.633151054382324, |
|
"learning_rate": 3.5e-05, |
|
"loss": 1.9934, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 2.2, |
|
"grad_norm": 11.844949722290039, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 1.9635, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 2.3, |
|
"grad_norm": 11.696029663085938, |
|
"learning_rate": 3.8333333333333334e-05, |
|
"loss": 1.9717, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 10.775115966796875, |
|
"learning_rate": 4e-05, |
|
"loss": 1.99, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 12.655854225158691, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 1.9839, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"grad_norm": 11.810218811035156, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 1.9982, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 2.7, |
|
"grad_norm": 8.966118812561035, |
|
"learning_rate": 4.5e-05, |
|
"loss": 1.9561, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 14.116168975830078, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 1.9757, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 2.9, |
|
"grad_norm": 26.801786422729492, |
|
"learning_rate": 4.8333333333333334e-05, |
|
"loss": 2.0137, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 21.48545265197754, |
|
"learning_rate": 5e-05, |
|
"loss": 2.0136, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_accuracy": 0.234, |
|
"eval_f1_macro": 0.17560544673032039, |
|
"eval_f1_micro": 0.234, |
|
"eval_f1_weighted": 0.17560544673032036, |
|
"eval_loss": 2.0163416862487793, |
|
"eval_precision_macro": 0.3230402136577736, |
|
"eval_precision_micro": 0.234, |
|
"eval_precision_weighted": 0.3230402136577736, |
|
"eval_recall_macro": 0.23400000000000004, |
|
"eval_recall_micro": 0.234, |
|
"eval_recall_weighted": 0.234, |
|
"eval_runtime": 5.9722, |
|
"eval_samples_per_second": 334.883, |
|
"eval_steps_per_second": 5.358, |
|
"step": 750 |
|
} |
|
], |
|
"logging_steps": 25, |
|
"max_steps": 7500, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 30, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"EarlyStoppingCallback": { |
|
"args": { |
|
"early_stopping_patience": 5, |
|
"early_stopping_threshold": 0.01 |
|
}, |
|
"attributes": { |
|
"early_stopping_patience_counter": 0 |
|
} |
|
}, |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 5591739389706240.0, |
|
"train_batch_size": 16, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|