PY-8b-1.0 / outputs /checkpoint-80 /trainer_state.json
Cyanex's picture
Upload folder using huggingface_hub
cdf452e verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.004465282429113641,
"eval_steps": 500,
"global_step": 80,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 5.581603036392052e-05,
"grad_norm": 0.14414270222187042,
"learning_rate": 4e-05,
"loss": 1.1284,
"step": 1
},
{
"epoch": 0.00011163206072784104,
"grad_norm": 0.18592298030853271,
"learning_rate": 8e-05,
"loss": 1.3635,
"step": 2
},
{
"epoch": 0.00016744809109176155,
"grad_norm": 0.17670221626758575,
"learning_rate": 0.00012,
"loss": 1.2493,
"step": 3
},
{
"epoch": 0.00022326412145568208,
"grad_norm": 0.13543261587619781,
"learning_rate": 0.00016,
"loss": 1.1879,
"step": 4
},
{
"epoch": 0.0002790801518196026,
"grad_norm": 0.1370253711938858,
"learning_rate": 0.0002,
"loss": 1.1079,
"step": 5
},
{
"epoch": 0.0003348961821835231,
"grad_norm": 0.1678737998008728,
"learning_rate": 0.00019733333333333335,
"loss": 0.9773,
"step": 6
},
{
"epoch": 0.0003907122125474436,
"grad_norm": 0.16175846755504608,
"learning_rate": 0.0001946666666666667,
"loss": 0.81,
"step": 7
},
{
"epoch": 0.00044652824291136416,
"grad_norm": 0.17545539140701294,
"learning_rate": 0.000192,
"loss": 1.0108,
"step": 8
},
{
"epoch": 0.0005023442732752846,
"grad_norm": 0.16879987716674805,
"learning_rate": 0.00018933333333333335,
"loss": 1.1015,
"step": 9
},
{
"epoch": 0.0005581603036392052,
"grad_norm": 0.5786269307136536,
"learning_rate": 0.0001866666666666667,
"loss": 1.0683,
"step": 10
},
{
"epoch": 0.0006139763340031257,
"grad_norm": 0.1745171844959259,
"learning_rate": 0.00018400000000000003,
"loss": 0.8687,
"step": 11
},
{
"epoch": 0.0006697923643670462,
"grad_norm": 0.15986856818199158,
"learning_rate": 0.00018133333333333334,
"loss": 0.9445,
"step": 12
},
{
"epoch": 0.0007256083947309668,
"grad_norm": 0.1968201845884323,
"learning_rate": 0.00017866666666666668,
"loss": 1.1332,
"step": 13
},
{
"epoch": 0.0007814244250948872,
"grad_norm": 0.16489581763744354,
"learning_rate": 0.00017600000000000002,
"loss": 0.9029,
"step": 14
},
{
"epoch": 0.0008372404554588078,
"grad_norm": 0.15433312952518463,
"learning_rate": 0.00017333333333333334,
"loss": 0.6877,
"step": 15
},
{
"epoch": 0.0008930564858227283,
"grad_norm": 0.1644420176744461,
"learning_rate": 0.00017066666666666668,
"loss": 0.7757,
"step": 16
},
{
"epoch": 0.0009488725161866488,
"grad_norm": 0.1877421736717224,
"learning_rate": 0.000168,
"loss": 1.2183,
"step": 17
},
{
"epoch": 0.0010046885465505692,
"grad_norm": 0.16834910213947296,
"learning_rate": 0.00016533333333333333,
"loss": 0.8751,
"step": 18
},
{
"epoch": 0.0010605045769144898,
"grad_norm": 0.13388517498970032,
"learning_rate": 0.00016266666666666667,
"loss": 0.905,
"step": 19
},
{
"epoch": 0.0011163206072784104,
"grad_norm": 0.15977643430233002,
"learning_rate": 0.00016,
"loss": 0.9379,
"step": 20
},
{
"epoch": 0.001172136637642331,
"grad_norm": 0.16754746437072754,
"learning_rate": 0.00015733333333333333,
"loss": 0.6917,
"step": 21
},
{
"epoch": 0.0012279526680062515,
"grad_norm": 0.13969635963439941,
"learning_rate": 0.00015466666666666667,
"loss": 1.0389,
"step": 22
},
{
"epoch": 0.0012837686983701718,
"grad_norm": 0.136892169713974,
"learning_rate": 0.000152,
"loss": 0.8696,
"step": 23
},
{
"epoch": 0.0013395847287340924,
"grad_norm": 0.12540239095687866,
"learning_rate": 0.00014933333333333335,
"loss": 0.7628,
"step": 24
},
{
"epoch": 0.001395400759098013,
"grad_norm": 0.15434931218624115,
"learning_rate": 0.00014666666666666666,
"loss": 0.8486,
"step": 25
},
{
"epoch": 0.0014512167894619335,
"grad_norm": 0.14853627979755402,
"learning_rate": 0.000144,
"loss": 0.9058,
"step": 26
},
{
"epoch": 0.001507032819825854,
"grad_norm": 0.15496118366718292,
"learning_rate": 0.00014133333333333334,
"loss": 1.0756,
"step": 27
},
{
"epoch": 0.0015628488501897744,
"grad_norm": 0.16173385083675385,
"learning_rate": 0.00013866666666666669,
"loss": 0.7648,
"step": 28
},
{
"epoch": 0.001618664880553695,
"grad_norm": 0.14899447560310364,
"learning_rate": 0.00013600000000000003,
"loss": 0.6211,
"step": 29
},
{
"epoch": 0.0016744809109176155,
"grad_norm": 0.15448381006717682,
"learning_rate": 0.00013333333333333334,
"loss": 0.885,
"step": 30
},
{
"epoch": 0.001730296941281536,
"grad_norm": 0.18694967031478882,
"learning_rate": 0.00013066666666666668,
"loss": 0.7339,
"step": 31
},
{
"epoch": 0.0017861129716454567,
"grad_norm": 0.1557490974664688,
"learning_rate": 0.00012800000000000002,
"loss": 0.6741,
"step": 32
},
{
"epoch": 0.001841929002009377,
"grad_norm": 0.142139732837677,
"learning_rate": 0.00012533333333333334,
"loss": 0.8791,
"step": 33
},
{
"epoch": 0.0018977450323732976,
"grad_norm": 0.1708475798368454,
"learning_rate": 0.00012266666666666668,
"loss": 0.8888,
"step": 34
},
{
"epoch": 0.001953561062737218,
"grad_norm": 0.14342932403087616,
"learning_rate": 0.00012,
"loss": 0.7561,
"step": 35
},
{
"epoch": 0.0020093770931011385,
"grad_norm": 0.16461175680160522,
"learning_rate": 0.00011733333333333334,
"loss": 0.7592,
"step": 36
},
{
"epoch": 0.0020651931234650592,
"grad_norm": 0.17866548895835876,
"learning_rate": 0.00011466666666666667,
"loss": 0.635,
"step": 37
},
{
"epoch": 0.0021210091538289796,
"grad_norm": 0.17026013135910034,
"learning_rate": 0.00011200000000000001,
"loss": 0.8624,
"step": 38
},
{
"epoch": 0.0021768251841929004,
"grad_norm": 0.1478801965713501,
"learning_rate": 0.00010933333333333333,
"loss": 0.7548,
"step": 39
},
{
"epoch": 0.0022326412145568207,
"grad_norm": 0.15132878720760345,
"learning_rate": 0.00010666666666666667,
"loss": 0.912,
"step": 40
},
{
"epoch": 0.002288457244920741,
"grad_norm": 0.1613161265850067,
"learning_rate": 0.00010400000000000001,
"loss": 0.9371,
"step": 41
},
{
"epoch": 0.002344273275284662,
"grad_norm": 0.13760052621364594,
"learning_rate": 0.00010133333333333335,
"loss": 0.8671,
"step": 42
},
{
"epoch": 0.002400089305648582,
"grad_norm": 0.172797292470932,
"learning_rate": 9.866666666666668e-05,
"loss": 0.8465,
"step": 43
},
{
"epoch": 0.002455905336012503,
"grad_norm": 0.17001530528068542,
"learning_rate": 9.6e-05,
"loss": 0.7465,
"step": 44
},
{
"epoch": 0.0025117213663764233,
"grad_norm": 0.1841679811477661,
"learning_rate": 9.333333333333334e-05,
"loss": 0.746,
"step": 45
},
{
"epoch": 0.0025675373967403436,
"grad_norm": 0.13612939417362213,
"learning_rate": 9.066666666666667e-05,
"loss": 0.757,
"step": 46
},
{
"epoch": 0.0026233534271042644,
"grad_norm": 0.14775849878787994,
"learning_rate": 8.800000000000001e-05,
"loss": 0.8025,
"step": 47
},
{
"epoch": 0.0026791694574681848,
"grad_norm": 0.1715993732213974,
"learning_rate": 8.533333333333334e-05,
"loss": 0.643,
"step": 48
},
{
"epoch": 0.0027349854878321055,
"grad_norm": 0.17515650391578674,
"learning_rate": 8.266666666666667e-05,
"loss": 1.33,
"step": 49
},
{
"epoch": 0.002790801518196026,
"grad_norm": 0.14624616503715515,
"learning_rate": 8e-05,
"loss": 0.6255,
"step": 50
},
{
"epoch": 0.0028466175485599462,
"grad_norm": 0.14642052352428436,
"learning_rate": 7.733333333333333e-05,
"loss": 0.8327,
"step": 51
},
{
"epoch": 0.002902433578923867,
"grad_norm": 0.20076096057891846,
"learning_rate": 7.466666666666667e-05,
"loss": 0.8811,
"step": 52
},
{
"epoch": 0.0029582496092877874,
"grad_norm": 0.1784580796957016,
"learning_rate": 7.2e-05,
"loss": 0.809,
"step": 53
},
{
"epoch": 0.003014065639651708,
"grad_norm": 0.16073450446128845,
"learning_rate": 6.933333333333334e-05,
"loss": 0.8592,
"step": 54
},
{
"epoch": 0.0030698816700156285,
"grad_norm": 0.15200063586235046,
"learning_rate": 6.666666666666667e-05,
"loss": 0.9249,
"step": 55
},
{
"epoch": 0.003125697700379549,
"grad_norm": 0.16770319640636444,
"learning_rate": 6.400000000000001e-05,
"loss": 0.8529,
"step": 56
},
{
"epoch": 0.0031815137307434696,
"grad_norm": 0.169382244348526,
"learning_rate": 6.133333333333334e-05,
"loss": 0.6161,
"step": 57
},
{
"epoch": 0.00323732976110739,
"grad_norm": 0.19055651128292084,
"learning_rate": 5.866666666666667e-05,
"loss": 0.7259,
"step": 58
},
{
"epoch": 0.0032931457914713107,
"grad_norm": 0.1893465518951416,
"learning_rate": 5.6000000000000006e-05,
"loss": 0.9266,
"step": 59
},
{
"epoch": 0.003348961821835231,
"grad_norm": 0.21257823705673218,
"learning_rate": 5.333333333333333e-05,
"loss": 0.6583,
"step": 60
},
{
"epoch": 0.0034047778521991514,
"grad_norm": 0.16936179995536804,
"learning_rate": 5.0666666666666674e-05,
"loss": 0.9526,
"step": 61
},
{
"epoch": 0.003460593882563072,
"grad_norm": 0.15873941779136658,
"learning_rate": 4.8e-05,
"loss": 0.6383,
"step": 62
},
{
"epoch": 0.0035164099129269925,
"grad_norm": 0.15449099242687225,
"learning_rate": 4.5333333333333335e-05,
"loss": 0.668,
"step": 63
},
{
"epoch": 0.0035722259432909133,
"grad_norm": 0.15581372380256653,
"learning_rate": 4.266666666666667e-05,
"loss": 0.831,
"step": 64
},
{
"epoch": 0.0036280419736548337,
"grad_norm": 0.1647518128156662,
"learning_rate": 4e-05,
"loss": 0.7433,
"step": 65
},
{
"epoch": 0.003683858004018754,
"grad_norm": 0.17180749773979187,
"learning_rate": 3.733333333333334e-05,
"loss": 0.7086,
"step": 66
},
{
"epoch": 0.0037396740343826748,
"grad_norm": 0.16201236844062805,
"learning_rate": 3.466666666666667e-05,
"loss": 0.889,
"step": 67
},
{
"epoch": 0.003795490064746595,
"grad_norm": 0.1710050255060196,
"learning_rate": 3.2000000000000005e-05,
"loss": 0.9924,
"step": 68
},
{
"epoch": 0.003851306095110516,
"grad_norm": 0.14073446393013,
"learning_rate": 2.9333333333333336e-05,
"loss": 0.6195,
"step": 69
},
{
"epoch": 0.003907122125474436,
"grad_norm": 0.16745997965335846,
"learning_rate": 2.6666666666666667e-05,
"loss": 1.0389,
"step": 70
},
{
"epoch": 0.003962938155838357,
"grad_norm": 0.17660649120807648,
"learning_rate": 2.4e-05,
"loss": 0.9034,
"step": 71
},
{
"epoch": 0.004018754186202277,
"grad_norm": 0.15358123183250427,
"learning_rate": 2.1333333333333335e-05,
"loss": 0.7133,
"step": 72
},
{
"epoch": 0.004074570216566198,
"grad_norm": 0.18682438135147095,
"learning_rate": 1.866666666666667e-05,
"loss": 1.1426,
"step": 73
},
{
"epoch": 0.0041303862469301185,
"grad_norm": 0.14498582482337952,
"learning_rate": 1.6000000000000003e-05,
"loss": 0.6111,
"step": 74
},
{
"epoch": 0.004186202277294039,
"grad_norm": 0.24695216119289398,
"learning_rate": 1.3333333333333333e-05,
"loss": 0.6518,
"step": 75
},
{
"epoch": 0.004242018307657959,
"grad_norm": 0.14324477314949036,
"learning_rate": 1.0666666666666667e-05,
"loss": 0.7413,
"step": 76
},
{
"epoch": 0.00429783433802188,
"grad_norm": 0.17955923080444336,
"learning_rate": 8.000000000000001e-06,
"loss": 0.7334,
"step": 77
},
{
"epoch": 0.004353650368385801,
"grad_norm": 0.16628143191337585,
"learning_rate": 5.333333333333334e-06,
"loss": 0.7866,
"step": 78
},
{
"epoch": 0.004409466398749721,
"grad_norm": 0.14531032741069794,
"learning_rate": 2.666666666666667e-06,
"loss": 0.7036,
"step": 79
},
{
"epoch": 0.004465282429113641,
"grad_norm": 0.15891820192337036,
"learning_rate": 0.0,
"loss": 0.7112,
"step": 80
}
],
"logging_steps": 1,
"max_steps": 80,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 6981175226707968.0,
"train_batch_size": 2,
"trial_name": null,
"trial_params": null
}