|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 13.041666666666666, |
|
"eval_steps": 500, |
|
"global_step": 78, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 1.1271398067474365, |
|
"learning_rate": 2e-05, |
|
"loss": 2.9584, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 1.422092080116272, |
|
"learning_rate": 4e-05, |
|
"loss": 3.2009, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 1.1738420724868774, |
|
"learning_rate": 6e-05, |
|
"loss": 2.4122, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 1.6034629344940186, |
|
"learning_rate": 8e-05, |
|
"loss": 3.3344, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 1.4037781953811646, |
|
"learning_rate": 0.0001, |
|
"loss": 3.0513, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 1.3824858665466309, |
|
"learning_rate": 0.00012, |
|
"loss": 2.8625, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 1.5012552738189697, |
|
"learning_rate": 0.00014, |
|
"loss": 2.3477, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 1.2384544610977173, |
|
"learning_rate": 0.00016, |
|
"loss": 2.2554, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 1.276849627494812, |
|
"learning_rate": 0.00018, |
|
"loss": 1.9606, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 4.319679260253906, |
|
"learning_rate": 0.0002, |
|
"loss": 1.6649, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 2.108405590057373, |
|
"learning_rate": 0.00019990989662046818, |
|
"loss": 1.6686, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 1.5001091957092285, |
|
"learning_rate": 0.00019963974885425266, |
|
"loss": 1.5168, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 2.1666666666666665, |
|
"grad_norm": 1.2782559394836426, |
|
"learning_rate": 0.00019919004352588767, |
|
"loss": 1.259, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 2.3333333333333335, |
|
"grad_norm": 0.8510739207267761, |
|
"learning_rate": 0.00019856159103477086, |
|
"loss": 1.3734, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 1.029380440711975, |
|
"learning_rate": 0.00019775552389476864, |
|
"loss": 1.0973, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 0.9332380294799805, |
|
"learning_rate": 0.0001967732946933499, |
|
"loss": 1.1187, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 2.8333333333333335, |
|
"grad_norm": 0.40721994638442993, |
|
"learning_rate": 0.00019561667347392508, |
|
"loss": 1.0731, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 0.37097784876823425, |
|
"learning_rate": 0.00019428774454610843, |
|
"loss": 0.9648, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 3.1666666666666665, |
|
"grad_norm": 0.9125034213066101, |
|
"learning_rate": 0.00019278890272965096, |
|
"loss": 1.0488, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 0.33954763412475586, |
|
"learning_rate": 0.0001911228490388136, |
|
"loss": 0.7104, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"grad_norm": 0.5465924143791199, |
|
"learning_rate": 0.00018929258581495685, |
|
"loss": 0.8922, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 3.6666666666666665, |
|
"grad_norm": 0.5326284766197205, |
|
"learning_rate": 0.00018730141131611882, |
|
"loss": 0.832, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 3.8333333333333335, |
|
"grad_norm": 0.3010997474193573, |
|
"learning_rate": 0.00018515291377333112, |
|
"loss": 0.6993, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 0.3331871032714844, |
|
"learning_rate": 0.00018285096492438424, |
|
"loss": 0.86, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 4.166666666666667, |
|
"grad_norm": 0.36899134516716003, |
|
"learning_rate": 0.00018039971303669407, |
|
"loss": 0.6736, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 4.333333333333333, |
|
"grad_norm": 0.7599577903747559, |
|
"learning_rate": 0.00017780357543184397, |
|
"loss": 0.755, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"grad_norm": 0.30434125661849976, |
|
"learning_rate": 0.00017506723052527242, |
|
"loss": 0.5069, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 4.666666666666667, |
|
"grad_norm": 0.34017109870910645, |
|
"learning_rate": 0.00017219560939545246, |
|
"loss": 0.6245, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 4.833333333333333, |
|
"grad_norm": 0.35667353868484497, |
|
"learning_rate": 0.00016919388689775464, |
|
"loss": 0.6572, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"grad_norm": 0.27407756447792053, |
|
"learning_rate": 0.00016606747233900815, |
|
"loss": 0.5943, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 5.166666666666667, |
|
"grad_norm": 0.3013049066066742, |
|
"learning_rate": 0.00016282199972956425, |
|
"loss": 0.5434, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 5.333333333333333, |
|
"grad_norm": 0.27944543957710266, |
|
"learning_rate": 0.00015946331763042867, |
|
"loss": 0.4273, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 5.5, |
|
"grad_norm": 0.25371015071868896, |
|
"learning_rate": 0.00015599747861375955, |
|
"loss": 0.4137, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 5.666666666666667, |
|
"grad_norm": 0.2801273763179779, |
|
"learning_rate": 0.00015243072835572318, |
|
"loss": 0.5152, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 5.833333333333333, |
|
"grad_norm": 0.24503201246261597, |
|
"learning_rate": 0.00014876949438136347, |
|
"loss": 0.4069, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 6.041666666666667, |
|
"grad_norm": 0.2870718240737915, |
|
"learning_rate": 0.00014502037448176734, |
|
"loss": 0.536, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 6.208333333333333, |
|
"grad_norm": 0.22945798933506012, |
|
"learning_rate": 0.0001411901248243993, |
|
"loss": 0.2834, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 6.375, |
|
"grad_norm": 0.2309902459383011, |
|
"learning_rate": 0.00013728564777803088, |
|
"loss": 0.2908, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 6.541666666666667, |
|
"grad_norm": 0.3030891418457031, |
|
"learning_rate": 0.00013331397947420576, |
|
"loss": 0.3334, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 6.708333333333333, |
|
"grad_norm": 0.20073279738426208, |
|
"learning_rate": 0.00012928227712765504, |
|
"loss": 0.2531, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 6.875, |
|
"grad_norm": 0.2173294574022293, |
|
"learning_rate": 0.00012519780613851254, |
|
"loss": 0.3421, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 7.041666666666667, |
|
"grad_norm": 0.18676938116550446, |
|
"learning_rate": 0.00012106792699957263, |
|
"loss": 0.2114, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 7.166666666666667, |
|
"grad_norm": 0.25375601649284363, |
|
"learning_rate": 0.00011690008203218493, |
|
"loss": 0.2116, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 7.333333333333333, |
|
"grad_norm": 0.20741993188858032, |
|
"learning_rate": 0.00011270178197468789, |
|
"loss": 0.2167, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"grad_norm": 0.19521987438201904, |
|
"learning_rate": 0.00010848059244755093, |
|
"loss": 0.1766, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 7.666666666666667, |
|
"grad_norm": 0.1847311407327652, |
|
"learning_rate": 0.00010424412031961484, |
|
"loss": 0.2145, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 7.833333333333333, |
|
"grad_norm": 0.36307504773139954, |
|
"learning_rate": 0.0001, |
|
"loss": 0.1616, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"grad_norm": 0.22532600164413452, |
|
"learning_rate": 9.57558796803852e-05, |
|
"loss": 0.1991, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 8.166666666666666, |
|
"grad_norm": 0.4792623519897461, |
|
"learning_rate": 9.151940755244912e-05, |
|
"loss": 0.1564, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 8.333333333333334, |
|
"grad_norm": 0.24092555046081543, |
|
"learning_rate": 8.729821802531212e-05, |
|
"loss": 0.1201, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 8.5, |
|
"grad_norm": 0.17501050233840942, |
|
"learning_rate": 8.309991796781511e-05, |
|
"loss": 0.1065, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 8.666666666666666, |
|
"grad_norm": 0.4367760419845581, |
|
"learning_rate": 7.89320730004274e-05, |
|
"loss": 0.1406, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 8.833333333333334, |
|
"grad_norm": 0.20733828842639923, |
|
"learning_rate": 7.48021938614875e-05, |
|
"loss": 0.1129, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"grad_norm": 0.19014810025691986, |
|
"learning_rate": 7.071772287234497e-05, |
|
"loss": 0.1025, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 9.166666666666666, |
|
"grad_norm": 0.16661641001701355, |
|
"learning_rate": 6.668602052579424e-05, |
|
"loss": 0.0843, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 9.333333333333334, |
|
"grad_norm": 0.1476866900920868, |
|
"learning_rate": 6.271435222196916e-05, |
|
"loss": 0.0728, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 9.5, |
|
"grad_norm": 0.20420700311660767, |
|
"learning_rate": 5.880987517560075e-05, |
|
"loss": 0.086, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 9.666666666666666, |
|
"grad_norm": 0.1535949558019638, |
|
"learning_rate": 5.497962551823266e-05, |
|
"loss": 0.0615, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 9.833333333333334, |
|
"grad_norm": 0.19429926574230194, |
|
"learning_rate": 5.123050561863657e-05, |
|
"loss": 0.081, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"grad_norm": 0.21439994871616364, |
|
"learning_rate": 4.756927164427685e-05, |
|
"loss": 0.0955, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 10.166666666666666, |
|
"grad_norm": 0.1313120573759079, |
|
"learning_rate": 4.4002521386240466e-05, |
|
"loss": 0.0515, |
|
"step": 61 |
|
}, |
|
{ |
|
"epoch": 10.333333333333334, |
|
"grad_norm": 0.14114493131637573, |
|
"learning_rate": 4.053668236957134e-05, |
|
"loss": 0.0486, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 10.5, |
|
"grad_norm": 0.15726757049560547, |
|
"learning_rate": 3.717800027043576e-05, |
|
"loss": 0.0582, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 10.666666666666666, |
|
"grad_norm": 0.13571308553218842, |
|
"learning_rate": 3.393252766099187e-05, |
|
"loss": 0.0477, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 10.833333333333334, |
|
"grad_norm": 0.13939297199249268, |
|
"learning_rate": 3.080611310224539e-05, |
|
"loss": 0.0579, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 11.041666666666666, |
|
"grad_norm": 0.21565848588943481, |
|
"learning_rate": 2.7804390604547557e-05, |
|
"loss": 0.0671, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 11.208333333333334, |
|
"grad_norm": 0.12363166362047195, |
|
"learning_rate": 2.493276947472756e-05, |
|
"loss": 0.0479, |
|
"step": 67 |
|
}, |
|
{ |
|
"epoch": 11.375, |
|
"grad_norm": 0.1485053449869156, |
|
"learning_rate": 2.2196424568156073e-05, |
|
"loss": 0.0441, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 11.541666666666666, |
|
"grad_norm": 0.12759965658187866, |
|
"learning_rate": 1.9600286963305957e-05, |
|
"loss": 0.0333, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 11.708333333333334, |
|
"grad_norm": 0.1261347383260727, |
|
"learning_rate": 1.7149035075615794e-05, |
|
"loss": 0.0362, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 11.875, |
|
"grad_norm": 0.13846437633037567, |
|
"learning_rate": 1.4847086226668872e-05, |
|
"loss": 0.0424, |
|
"step": 71 |
|
}, |
|
{ |
|
"epoch": 12.041666666666666, |
|
"grad_norm": 0.13384558260440826, |
|
"learning_rate": 1.2698588683881186e-05, |
|
"loss": 0.0379, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 12.208333333333334, |
|
"grad_norm": 0.11773449927568436, |
|
"learning_rate": 1.0707414185043163e-05, |
|
"loss": 0.0378, |
|
"step": 73 |
|
}, |
|
{ |
|
"epoch": 12.375, |
|
"grad_norm": 0.1243445873260498, |
|
"learning_rate": 8.87715096118642e-06, |
|
"loss": 0.0393, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 12.541666666666666, |
|
"grad_norm": 0.11930937319993973, |
|
"learning_rate": 7.211097270349066e-06, |
|
"loss": 0.0321, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 12.708333333333334, |
|
"grad_norm": 0.09208700060844421, |
|
"learning_rate": 5.71225545389158e-06, |
|
"loss": 0.0274, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 12.875, |
|
"grad_norm": 0.1095806434750557, |
|
"learning_rate": 4.383326526074916e-06, |
|
"loss": 0.0258, |
|
"step": 77 |
|
}, |
|
{ |
|
"epoch": 13.041666666666666, |
|
"grad_norm": 0.1109592393040657, |
|
"learning_rate": 3.226705306650113e-06, |
|
"loss": 0.0415, |
|
"step": 78 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 84, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 14, |
|
"save_steps": 6, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 439125509406720.0, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|