PY-8b-1.0 / outputs /checkpoint-80 /trainer_state.json

Upload folder using huggingface_hub

cdf452e verified 21 days ago

14.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.004465282429113641,
	"eval_steps": 500,
	"global_step": 80,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 5.581603036392052e-05,
	"grad_norm": 0.14414270222187042,
	"learning_rate": 4e-05,
	"loss": 1.1284,
	"step": 1
	},
	{
	"epoch": 0.00011163206072784104,
	"grad_norm": 0.18592298030853271,
	"learning_rate": 8e-05,
	"loss": 1.3635,
	"step": 2
	},
	{
	"epoch": 0.00016744809109176155,
	"grad_norm": 0.17670221626758575,
	"learning_rate": 0.00012,
	"loss": 1.2493,
	"step": 3
	},
	{
	"epoch": 0.00022326412145568208,
	"grad_norm": 0.13543261587619781,
	"learning_rate": 0.00016,
	"loss": 1.1879,
	"step": 4
	},
	{
	"epoch": 0.0002790801518196026,
	"grad_norm": 0.1370253711938858,
	"learning_rate": 0.0002,
	"loss": 1.1079,
	"step": 5
	},
	{
	"epoch": 0.0003348961821835231,
	"grad_norm": 0.1678737998008728,
	"learning_rate": 0.00019733333333333335,
	"loss": 0.9773,
	"step": 6
	},
	{
	"epoch": 0.0003907122125474436,
	"grad_norm": 0.16175846755504608,
	"learning_rate": 0.0001946666666666667,
	"loss": 0.81,
	"step": 7
	},
	{
	"epoch": 0.00044652824291136416,
	"grad_norm": 0.17545539140701294,
	"learning_rate": 0.000192,
	"loss": 1.0108,
	"step": 8
	},
	{
	"epoch": 0.0005023442732752846,
	"grad_norm": 0.16879987716674805,
	"learning_rate": 0.00018933333333333335,
	"loss": 1.1015,
	"step": 9
	},
	{
	"epoch": 0.0005581603036392052,
	"grad_norm": 0.5786269307136536,
	"learning_rate": 0.0001866666666666667,
	"loss": 1.0683,
	"step": 10
	},
	{
	"epoch": 0.0006139763340031257,
	"grad_norm": 0.1745171844959259,
	"learning_rate": 0.00018400000000000003,
	"loss": 0.8687,
	"step": 11
	},
	{
	"epoch": 0.0006697923643670462,
	"grad_norm": 0.15986856818199158,
	"learning_rate": 0.00018133333333333334,
	"loss": 0.9445,
	"step": 12
	},
	{
	"epoch": 0.0007256083947309668,
	"grad_norm": 0.1968201845884323,
	"learning_rate": 0.00017866666666666668,
	"loss": 1.1332,
	"step": 13
	},
	{
	"epoch": 0.0007814244250948872,
	"grad_norm": 0.16489581763744354,
	"learning_rate": 0.00017600000000000002,
	"loss": 0.9029,
	"step": 14
	},
	{
	"epoch": 0.0008372404554588078,
	"grad_norm": 0.15433312952518463,
	"learning_rate": 0.00017333333333333334,
	"loss": 0.6877,
	"step": 15
	},
	{
	"epoch": 0.0008930564858227283,
	"grad_norm": 0.1644420176744461,
	"learning_rate": 0.00017066666666666668,
	"loss": 0.7757,
	"step": 16
	},
	{
	"epoch": 0.0009488725161866488,
	"grad_norm": 0.1877421736717224,
	"learning_rate": 0.000168,
	"loss": 1.2183,
	"step": 17
	},
	{
	"epoch": 0.0010046885465505692,
	"grad_norm": 0.16834910213947296,
	"learning_rate": 0.00016533333333333333,
	"loss": 0.8751,
	"step": 18
	},
	{
	"epoch": 0.0010605045769144898,
	"grad_norm": 0.13388517498970032,
	"learning_rate": 0.00016266666666666667,
	"loss": 0.905,
	"step": 19
	},
	{
	"epoch": 0.0011163206072784104,
	"grad_norm": 0.15977643430233002,
	"learning_rate": 0.00016,
	"loss": 0.9379,
	"step": 20
	},
	{
	"epoch": 0.001172136637642331,
	"grad_norm": 0.16754746437072754,
	"learning_rate": 0.00015733333333333333,
	"loss": 0.6917,
	"step": 21
	},
	{
	"epoch": 0.0012279526680062515,
	"grad_norm": 0.13969635963439941,
	"learning_rate": 0.00015466666666666667,
	"loss": 1.0389,
	"step": 22
	},
	{
	"epoch": 0.0012837686983701718,
	"grad_norm": 0.136892169713974,
	"learning_rate": 0.000152,
	"loss": 0.8696,
	"step": 23
	},
	{
	"epoch": 0.0013395847287340924,
	"grad_norm": 0.12540239095687866,
	"learning_rate": 0.00014933333333333335,
	"loss": 0.7628,
	"step": 24
	},
	{
	"epoch": 0.001395400759098013,
	"grad_norm": 0.15434931218624115,
	"learning_rate": 0.00014666666666666666,
	"loss": 0.8486,
	"step": 25
	},
	{
	"epoch": 0.0014512167894619335,
	"grad_norm": 0.14853627979755402,
	"learning_rate": 0.000144,
	"loss": 0.9058,
	"step": 26
	},
	{
	"epoch": 0.001507032819825854,
	"grad_norm": 0.15496118366718292,
	"learning_rate": 0.00014133333333333334,
	"loss": 1.0756,
	"step": 27
	},
	{
	"epoch": 0.0015628488501897744,
	"grad_norm": 0.16173385083675385,
	"learning_rate": 0.00013866666666666669,
	"loss": 0.7648,
	"step": 28
	},
	{
	"epoch": 0.001618664880553695,
	"grad_norm": 0.14899447560310364,
	"learning_rate": 0.00013600000000000003,
	"loss": 0.6211,
	"step": 29
	},
	{
	"epoch": 0.0016744809109176155,
	"grad_norm": 0.15448381006717682,
	"learning_rate": 0.00013333333333333334,
	"loss": 0.885,
	"step": 30
	},
	{
	"epoch": 0.001730296941281536,
	"grad_norm": 0.18694967031478882,
	"learning_rate": 0.00013066666666666668,
	"loss": 0.7339,
	"step": 31
	},
	{
	"epoch": 0.0017861129716454567,
	"grad_norm": 0.1557490974664688,
	"learning_rate": 0.00012800000000000002,
	"loss": 0.6741,
	"step": 32
	},
	{
	"epoch": 0.001841929002009377,
	"grad_norm": 0.142139732837677,
	"learning_rate": 0.00012533333333333334,
	"loss": 0.8791,
	"step": 33
	},
	{
	"epoch": 0.0018977450323732976,
	"grad_norm": 0.1708475798368454,
	"learning_rate": 0.00012266666666666668,
	"loss": 0.8888,
	"step": 34
	},
	{
	"epoch": 0.001953561062737218,
	"grad_norm": 0.14342932403087616,
	"learning_rate": 0.00012,
	"loss": 0.7561,
	"step": 35
	},
	{
	"epoch": 0.0020093770931011385,
	"grad_norm": 0.16461175680160522,
	"learning_rate": 0.00011733333333333334,
	"loss": 0.7592,
	"step": 36
	},
	{
	"epoch": 0.0020651931234650592,
	"grad_norm": 0.17866548895835876,
	"learning_rate": 0.00011466666666666667,
	"loss": 0.635,
	"step": 37
	},
	{
	"epoch": 0.0021210091538289796,
	"grad_norm": 0.17026013135910034,
	"learning_rate": 0.00011200000000000001,
	"loss": 0.8624,
	"step": 38
	},
	{
	"epoch": 0.0021768251841929004,
	"grad_norm": 0.1478801965713501,
	"learning_rate": 0.00010933333333333333,
	"loss": 0.7548,
	"step": 39
	},
	{
	"epoch": 0.0022326412145568207,
	"grad_norm": 0.15132878720760345,
	"learning_rate": 0.00010666666666666667,
	"loss": 0.912,
	"step": 40
	},
	{
	"epoch": 0.002288457244920741,
	"grad_norm": 0.1613161265850067,
	"learning_rate": 0.00010400000000000001,
	"loss": 0.9371,
	"step": 41
	},
	{
	"epoch": 0.002344273275284662,
	"grad_norm": 0.13760052621364594,
	"learning_rate": 0.00010133333333333335,
	"loss": 0.8671,
	"step": 42
	},
	{
	"epoch": 0.002400089305648582,
	"grad_norm": 0.172797292470932,
	"learning_rate": 9.866666666666668e-05,
	"loss": 0.8465,
	"step": 43
	},
	{
	"epoch": 0.002455905336012503,
	"grad_norm": 0.17001530528068542,
	"learning_rate": 9.6e-05,
	"loss": 0.7465,
	"step": 44
	},
	{
	"epoch": 0.0025117213663764233,
	"grad_norm": 0.1841679811477661,
	"learning_rate": 9.333333333333334e-05,
	"loss": 0.746,
	"step": 45
	},
	{
	"epoch": 0.0025675373967403436,
	"grad_norm": 0.13612939417362213,
	"learning_rate": 9.066666666666667e-05,
	"loss": 0.757,
	"step": 46
	},
	{
	"epoch": 0.0026233534271042644,
	"grad_norm": 0.14775849878787994,
	"learning_rate": 8.800000000000001e-05,
	"loss": 0.8025,
	"step": 47
	},
	{
	"epoch": 0.0026791694574681848,
	"grad_norm": 0.1715993732213974,
	"learning_rate": 8.533333333333334e-05,
	"loss": 0.643,
	"step": 48
	},
	{
	"epoch": 0.0027349854878321055,
	"grad_norm": 0.17515650391578674,
	"learning_rate": 8.266666666666667e-05,
	"loss": 1.33,
	"step": 49
	},
	{
	"epoch": 0.002790801518196026,
	"grad_norm": 0.14624616503715515,
	"learning_rate": 8e-05,
	"loss": 0.6255,
	"step": 50
	},
	{
	"epoch": 0.0028466175485599462,
	"grad_norm": 0.14642052352428436,
	"learning_rate": 7.733333333333333e-05,
	"loss": 0.8327,
	"step": 51
	},
	{
	"epoch": 0.002902433578923867,
	"grad_norm": 0.20076096057891846,
	"learning_rate": 7.466666666666667e-05,
	"loss": 0.8811,
	"step": 52
	},
	{
	"epoch": 0.0029582496092877874,
	"grad_norm": 0.1784580796957016,
	"learning_rate": 7.2e-05,
	"loss": 0.809,
	"step": 53
	},
	{
	"epoch": 0.003014065639651708,
	"grad_norm": 0.16073450446128845,
	"learning_rate": 6.933333333333334e-05,
	"loss": 0.8592,
	"step": 54
	},
	{
	"epoch": 0.0030698816700156285,
	"grad_norm": 0.15200063586235046,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.9249,
	"step": 55
	},
	{
	"epoch": 0.003125697700379549,
	"grad_norm": 0.16770319640636444,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.8529,
	"step": 56
	},
	{
	"epoch": 0.0031815137307434696,
	"grad_norm": 0.169382244348526,
	"learning_rate": 6.133333333333334e-05,
	"loss": 0.6161,
	"step": 57
	},
	{
	"epoch": 0.00323732976110739,
	"grad_norm": 0.19055651128292084,
	"learning_rate": 5.866666666666667e-05,
	"loss": 0.7259,
	"step": 58
	},
	{
	"epoch": 0.0032931457914713107,
	"grad_norm": 0.1893465518951416,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 0.9266,
	"step": 59
	},
	{
	"epoch": 0.003348961821835231,
	"grad_norm": 0.21257823705673218,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.6583,
	"step": 60
	},
	{
	"epoch": 0.0034047778521991514,
	"grad_norm": 0.16936179995536804,
	"learning_rate": 5.0666666666666674e-05,
	"loss": 0.9526,
	"step": 61
	},
	{
	"epoch": 0.003460593882563072,
	"grad_norm": 0.15873941779136658,
	"learning_rate": 4.8e-05,
	"loss": 0.6383,
	"step": 62
	},
	{
	"epoch": 0.0035164099129269925,
	"grad_norm": 0.15449099242687225,
	"learning_rate": 4.5333333333333335e-05,
	"loss": 0.668,
	"step": 63
	},
	{
	"epoch": 0.0035722259432909133,
	"grad_norm": 0.15581372380256653,
	"learning_rate": 4.266666666666667e-05,
	"loss": 0.831,
	"step": 64
	},
	{
	"epoch": 0.0036280419736548337,
	"grad_norm": 0.1647518128156662,
	"learning_rate": 4e-05,
	"loss": 0.7433,
	"step": 65
	},
	{
	"epoch": 0.003683858004018754,
	"grad_norm": 0.17180749773979187,
	"learning_rate": 3.733333333333334e-05,
	"loss": 0.7086,
	"step": 66
	},
	{
	"epoch": 0.0037396740343826748,
	"grad_norm": 0.16201236844062805,
	"learning_rate": 3.466666666666667e-05,
	"loss": 0.889,
	"step": 67
	},
	{
	"epoch": 0.003795490064746595,
	"grad_norm": 0.1710050255060196,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.9924,
	"step": 68
	},
	{
	"epoch": 0.003851306095110516,
	"grad_norm": 0.14073446393013,
	"learning_rate": 2.9333333333333336e-05,
	"loss": 0.6195,
	"step": 69
	},
	{
	"epoch": 0.003907122125474436,
	"grad_norm": 0.16745997965335846,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 1.0389,
	"step": 70
	},
	{
	"epoch": 0.003962938155838357,
	"grad_norm": 0.17660649120807648,
	"learning_rate": 2.4e-05,
	"loss": 0.9034,
	"step": 71
	},
	{
	"epoch": 0.004018754186202277,
	"grad_norm": 0.15358123183250427,
	"learning_rate": 2.1333333333333335e-05,
	"loss": 0.7133,
	"step": 72
	},
	{
	"epoch": 0.004074570216566198,
	"grad_norm": 0.18682438135147095,
	"learning_rate": 1.866666666666667e-05,
	"loss": 1.1426,
	"step": 73
	},
	{
	"epoch": 0.0041303862469301185,
	"grad_norm": 0.14498582482337952,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.6111,
	"step": 74
	},
	{
	"epoch": 0.004186202277294039,
	"grad_norm": 0.24695216119289398,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.6518,
	"step": 75
	},
	{
	"epoch": 0.004242018307657959,
	"grad_norm": 0.14324477314949036,
	"learning_rate": 1.0666666666666667e-05,
	"loss": 0.7413,
	"step": 76
	},
	{
	"epoch": 0.00429783433802188,
	"grad_norm": 0.17955923080444336,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.7334,
	"step": 77
	},
	{
	"epoch": 0.004353650368385801,
	"grad_norm": 0.16628143191337585,
	"learning_rate": 5.333333333333334e-06,
	"loss": 0.7866,
	"step": 78
	},
	{
	"epoch": 0.004409466398749721,
	"grad_norm": 0.14531032741069794,
	"learning_rate": 2.666666666666667e-06,
	"loss": 0.7036,
	"step": 79
	},
	{
	"epoch": 0.004465282429113641,
	"grad_norm": 0.15891820192337036,
	"learning_rate": 0.0,
	"loss": 0.7112,
	"step": 80
	}
	],
	"logging_steps": 1,
	"max_steps": 80,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6981175226707968.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}