|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 0.004465282429113641, |
|
"eval_steps": 500, |
|
"global_step": 80, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 5.581603036392052e-05, |
|
"grad_norm": 0.14414270222187042, |
|
"learning_rate": 4e-05, |
|
"loss": 1.1284, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.00011163206072784104, |
|
"grad_norm": 0.18592298030853271, |
|
"learning_rate": 8e-05, |
|
"loss": 1.3635, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.00016744809109176155, |
|
"grad_norm": 0.17670221626758575, |
|
"learning_rate": 0.00012, |
|
"loss": 1.2493, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.00022326412145568208, |
|
"grad_norm": 0.13543261587619781, |
|
"learning_rate": 0.00016, |
|
"loss": 1.1879, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.0002790801518196026, |
|
"grad_norm": 0.1370253711938858, |
|
"learning_rate": 0.0002, |
|
"loss": 1.1079, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.0003348961821835231, |
|
"grad_norm": 0.1678737998008728, |
|
"learning_rate": 0.00019733333333333335, |
|
"loss": 0.9773, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.0003907122125474436, |
|
"grad_norm": 0.16175846755504608, |
|
"learning_rate": 0.0001946666666666667, |
|
"loss": 0.81, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.00044652824291136416, |
|
"grad_norm": 0.17545539140701294, |
|
"learning_rate": 0.000192, |
|
"loss": 1.0108, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.0005023442732752846, |
|
"grad_norm": 0.16879987716674805, |
|
"learning_rate": 0.00018933333333333335, |
|
"loss": 1.1015, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.0005581603036392052, |
|
"grad_norm": 0.5786269307136536, |
|
"learning_rate": 0.0001866666666666667, |
|
"loss": 1.0683, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.0006139763340031257, |
|
"grad_norm": 0.1745171844959259, |
|
"learning_rate": 0.00018400000000000003, |
|
"loss": 0.8687, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.0006697923643670462, |
|
"grad_norm": 0.15986856818199158, |
|
"learning_rate": 0.00018133333333333334, |
|
"loss": 0.9445, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.0007256083947309668, |
|
"grad_norm": 0.1968201845884323, |
|
"learning_rate": 0.00017866666666666668, |
|
"loss": 1.1332, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.0007814244250948872, |
|
"grad_norm": 0.16489581763744354, |
|
"learning_rate": 0.00017600000000000002, |
|
"loss": 0.9029, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.0008372404554588078, |
|
"grad_norm": 0.15433312952518463, |
|
"learning_rate": 0.00017333333333333334, |
|
"loss": 0.6877, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.0008930564858227283, |
|
"grad_norm": 0.1644420176744461, |
|
"learning_rate": 0.00017066666666666668, |
|
"loss": 0.7757, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.0009488725161866488, |
|
"grad_norm": 0.1877421736717224, |
|
"learning_rate": 0.000168, |
|
"loss": 1.2183, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.0010046885465505692, |
|
"grad_norm": 0.16834910213947296, |
|
"learning_rate": 0.00016533333333333333, |
|
"loss": 0.8751, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.0010605045769144898, |
|
"grad_norm": 0.13388517498970032, |
|
"learning_rate": 0.00016266666666666667, |
|
"loss": 0.905, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.0011163206072784104, |
|
"grad_norm": 0.15977643430233002, |
|
"learning_rate": 0.00016, |
|
"loss": 0.9379, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.001172136637642331, |
|
"grad_norm": 0.16754746437072754, |
|
"learning_rate": 0.00015733333333333333, |
|
"loss": 0.6917, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.0012279526680062515, |
|
"grad_norm": 0.13969635963439941, |
|
"learning_rate": 0.00015466666666666667, |
|
"loss": 1.0389, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.0012837686983701718, |
|
"grad_norm": 0.136892169713974, |
|
"learning_rate": 0.000152, |
|
"loss": 0.8696, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.0013395847287340924, |
|
"grad_norm": 0.12540239095687866, |
|
"learning_rate": 0.00014933333333333335, |
|
"loss": 0.7628, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.001395400759098013, |
|
"grad_norm": 0.15434931218624115, |
|
"learning_rate": 0.00014666666666666666, |
|
"loss": 0.8486, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.0014512167894619335, |
|
"grad_norm": 0.14853627979755402, |
|
"learning_rate": 0.000144, |
|
"loss": 0.9058, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.001507032819825854, |
|
"grad_norm": 0.15496118366718292, |
|
"learning_rate": 0.00014133333333333334, |
|
"loss": 1.0756, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.0015628488501897744, |
|
"grad_norm": 0.16173385083675385, |
|
"learning_rate": 0.00013866666666666669, |
|
"loss": 0.7648, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.001618664880553695, |
|
"grad_norm": 0.14899447560310364, |
|
"learning_rate": 0.00013600000000000003, |
|
"loss": 0.6211, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.0016744809109176155, |
|
"grad_norm": 0.15448381006717682, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 0.885, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.001730296941281536, |
|
"grad_norm": 0.18694967031478882, |
|
"learning_rate": 0.00013066666666666668, |
|
"loss": 0.7339, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.0017861129716454567, |
|
"grad_norm": 0.1557490974664688, |
|
"learning_rate": 0.00012800000000000002, |
|
"loss": 0.6741, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.001841929002009377, |
|
"grad_norm": 0.142139732837677, |
|
"learning_rate": 0.00012533333333333334, |
|
"loss": 0.8791, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.0018977450323732976, |
|
"grad_norm": 0.1708475798368454, |
|
"learning_rate": 0.00012266666666666668, |
|
"loss": 0.8888, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.001953561062737218, |
|
"grad_norm": 0.14342932403087616, |
|
"learning_rate": 0.00012, |
|
"loss": 0.7561, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.0020093770931011385, |
|
"grad_norm": 0.16461175680160522, |
|
"learning_rate": 0.00011733333333333334, |
|
"loss": 0.7592, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.0020651931234650592, |
|
"grad_norm": 0.17866548895835876, |
|
"learning_rate": 0.00011466666666666667, |
|
"loss": 0.635, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.0021210091538289796, |
|
"grad_norm": 0.17026013135910034, |
|
"learning_rate": 0.00011200000000000001, |
|
"loss": 0.8624, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.0021768251841929004, |
|
"grad_norm": 0.1478801965713501, |
|
"learning_rate": 0.00010933333333333333, |
|
"loss": 0.7548, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.0022326412145568207, |
|
"grad_norm": 0.15132878720760345, |
|
"learning_rate": 0.00010666666666666667, |
|
"loss": 0.912, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.002288457244920741, |
|
"grad_norm": 0.1613161265850067, |
|
"learning_rate": 0.00010400000000000001, |
|
"loss": 0.9371, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 0.002344273275284662, |
|
"grad_norm": 0.13760052621364594, |
|
"learning_rate": 0.00010133333333333335, |
|
"loss": 0.8671, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.002400089305648582, |
|
"grad_norm": 0.172797292470932, |
|
"learning_rate": 9.866666666666668e-05, |
|
"loss": 0.8465, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 0.002455905336012503, |
|
"grad_norm": 0.17001530528068542, |
|
"learning_rate": 9.6e-05, |
|
"loss": 0.7465, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.0025117213663764233, |
|
"grad_norm": 0.1841679811477661, |
|
"learning_rate": 9.333333333333334e-05, |
|
"loss": 0.746, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.0025675373967403436, |
|
"grad_norm": 0.13612939417362213, |
|
"learning_rate": 9.066666666666667e-05, |
|
"loss": 0.757, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.0026233534271042644, |
|
"grad_norm": 0.14775849878787994, |
|
"learning_rate": 8.800000000000001e-05, |
|
"loss": 0.8025, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 0.0026791694574681848, |
|
"grad_norm": 0.1715993732213974, |
|
"learning_rate": 8.533333333333334e-05, |
|
"loss": 0.643, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.0027349854878321055, |
|
"grad_norm": 0.17515650391578674, |
|
"learning_rate": 8.266666666666667e-05, |
|
"loss": 1.33, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 0.002790801518196026, |
|
"grad_norm": 0.14624616503715515, |
|
"learning_rate": 8e-05, |
|
"loss": 0.6255, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.0028466175485599462, |
|
"grad_norm": 0.14642052352428436, |
|
"learning_rate": 7.733333333333333e-05, |
|
"loss": 0.8327, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 0.002902433578923867, |
|
"grad_norm": 0.20076096057891846, |
|
"learning_rate": 7.466666666666667e-05, |
|
"loss": 0.8811, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 0.0029582496092877874, |
|
"grad_norm": 0.1784580796957016, |
|
"learning_rate": 7.2e-05, |
|
"loss": 0.809, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 0.003014065639651708, |
|
"grad_norm": 0.16073450446128845, |
|
"learning_rate": 6.933333333333334e-05, |
|
"loss": 0.8592, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 0.0030698816700156285, |
|
"grad_norm": 0.15200063586235046, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 0.9249, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 0.003125697700379549, |
|
"grad_norm": 0.16770319640636444, |
|
"learning_rate": 6.400000000000001e-05, |
|
"loss": 0.8529, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 0.0031815137307434696, |
|
"grad_norm": 0.169382244348526, |
|
"learning_rate": 6.133333333333334e-05, |
|
"loss": 0.6161, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 0.00323732976110739, |
|
"grad_norm": 0.19055651128292084, |
|
"learning_rate": 5.866666666666667e-05, |
|
"loss": 0.7259, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 0.0032931457914713107, |
|
"grad_norm": 0.1893465518951416, |
|
"learning_rate": 5.6000000000000006e-05, |
|
"loss": 0.9266, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 0.003348961821835231, |
|
"grad_norm": 0.21257823705673218, |
|
"learning_rate": 5.333333333333333e-05, |
|
"loss": 0.6583, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.0034047778521991514, |
|
"grad_norm": 0.16936179995536804, |
|
"learning_rate": 5.0666666666666674e-05, |
|
"loss": 0.9526, |
|
"step": 61 |
|
}, |
|
{ |
|
"epoch": 0.003460593882563072, |
|
"grad_norm": 0.15873941779136658, |
|
"learning_rate": 4.8e-05, |
|
"loss": 0.6383, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 0.0035164099129269925, |
|
"grad_norm": 0.15449099242687225, |
|
"learning_rate": 4.5333333333333335e-05, |
|
"loss": 0.668, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 0.0035722259432909133, |
|
"grad_norm": 0.15581372380256653, |
|
"learning_rate": 4.266666666666667e-05, |
|
"loss": 0.831, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 0.0036280419736548337, |
|
"grad_norm": 0.1647518128156662, |
|
"learning_rate": 4e-05, |
|
"loss": 0.7433, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 0.003683858004018754, |
|
"grad_norm": 0.17180749773979187, |
|
"learning_rate": 3.733333333333334e-05, |
|
"loss": 0.7086, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 0.0037396740343826748, |
|
"grad_norm": 0.16201236844062805, |
|
"learning_rate": 3.466666666666667e-05, |
|
"loss": 0.889, |
|
"step": 67 |
|
}, |
|
{ |
|
"epoch": 0.003795490064746595, |
|
"grad_norm": 0.1710050255060196, |
|
"learning_rate": 3.2000000000000005e-05, |
|
"loss": 0.9924, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 0.003851306095110516, |
|
"grad_norm": 0.14073446393013, |
|
"learning_rate": 2.9333333333333336e-05, |
|
"loss": 0.6195, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 0.003907122125474436, |
|
"grad_norm": 0.16745997965335846, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 1.0389, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.003962938155838357, |
|
"grad_norm": 0.17660649120807648, |
|
"learning_rate": 2.4e-05, |
|
"loss": 0.9034, |
|
"step": 71 |
|
}, |
|
{ |
|
"epoch": 0.004018754186202277, |
|
"grad_norm": 0.15358123183250427, |
|
"learning_rate": 2.1333333333333335e-05, |
|
"loss": 0.7133, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 0.004074570216566198, |
|
"grad_norm": 0.18682438135147095, |
|
"learning_rate": 1.866666666666667e-05, |
|
"loss": 1.1426, |
|
"step": 73 |
|
}, |
|
{ |
|
"epoch": 0.0041303862469301185, |
|
"grad_norm": 0.14498582482337952, |
|
"learning_rate": 1.6000000000000003e-05, |
|
"loss": 0.6111, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 0.004186202277294039, |
|
"grad_norm": 0.24695216119289398, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.6518, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.004242018307657959, |
|
"grad_norm": 0.14324477314949036, |
|
"learning_rate": 1.0666666666666667e-05, |
|
"loss": 0.7413, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 0.00429783433802188, |
|
"grad_norm": 0.17955923080444336, |
|
"learning_rate": 8.000000000000001e-06, |
|
"loss": 0.7334, |
|
"step": 77 |
|
}, |
|
{ |
|
"epoch": 0.004353650368385801, |
|
"grad_norm": 0.16628143191337585, |
|
"learning_rate": 5.333333333333334e-06, |
|
"loss": 0.7866, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 0.004409466398749721, |
|
"grad_norm": 0.14531032741069794, |
|
"learning_rate": 2.666666666666667e-06, |
|
"loss": 0.7036, |
|
"step": 79 |
|
}, |
|
{ |
|
"epoch": 0.004465282429113641, |
|
"grad_norm": 0.15891820192337036, |
|
"learning_rate": 0.0, |
|
"loss": 0.7112, |
|
"step": 80 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 80, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 1, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 6981175226707968.0, |
|
"train_batch_size": 2, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|