Add files using upload-large-folder tool

91ef6df verified 17 days ago

47.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 200,
	"global_step": 266,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007518796992481203,
	"grad_norm": 0.08289683091006875,
	"learning_rate": 3.7037037037037037e-06,
	"loss": 0.2087,
	"step": 1
	},
	{
	"epoch": 0.015037593984962405,
	"grad_norm": 0.03030546873337256,
	"learning_rate": 7.4074074074074075e-06,
	"loss": 0.1045,
	"step": 2
	},
	{
	"epoch": 0.022556390977443608,
	"grad_norm": 0.04340875250649354,
	"learning_rate": 1.1111111111111112e-05,
	"loss": 0.1291,
	"step": 3
	},
	{
	"epoch": 0.03007518796992481,
	"grad_norm": 0.04223285184390201,
	"learning_rate": 1.4814814814814815e-05,
	"loss": 0.1263,
	"step": 4
	},
	{
	"epoch": 0.03759398496240601,
	"grad_norm": 0.04894801143939966,
	"learning_rate": 1.8518518518518518e-05,
	"loss": 0.1409,
	"step": 5
	},
	{
	"epoch": 0.045112781954887216,
	"grad_norm": 0.22261274174154347,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 0.2362,
	"step": 6
	},
	{
	"epoch": 0.05263157894736842,
	"grad_norm": 0.043978295203653116,
	"learning_rate": 2.5925925925925925e-05,
	"loss": 0.1195,
	"step": 7
	},
	{
	"epoch": 0.06015037593984962,
	"grad_norm": 0.04381964595602848,
	"learning_rate": 2.962962962962963e-05,
	"loss": 0.1215,
	"step": 8
	},
	{
	"epoch": 0.06766917293233082,
	"grad_norm": 0.03290036083527209,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.0881,
	"step": 9
	},
	{
	"epoch": 0.07518796992481203,
	"grad_norm": 0.03303553719000837,
	"learning_rate": 3.7037037037037037e-05,
	"loss": 0.0923,
	"step": 10
	},
	{
	"epoch": 0.08270676691729323,
	"grad_norm": 0.12832751130733108,
	"learning_rate": 4.074074074074074e-05,
	"loss": 0.218,
	"step": 11
	},
	{
	"epoch": 0.09022556390977443,
	"grad_norm": 0.08479076437214379,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 0.149,
	"step": 12
	},
	{
	"epoch": 0.09774436090225563,
	"grad_norm": 0.13534422076541278,
	"learning_rate": 4.814814814814815e-05,
	"loss": 0.1835,
	"step": 13
	},
	{
	"epoch": 0.10526315789473684,
	"grad_norm": 0.10341781138952844,
	"learning_rate": 5.185185185185185e-05,
	"loss": 0.1573,
	"step": 14
	},
	{
	"epoch": 0.11278195488721804,
	"grad_norm": 0.12256701286625035,
	"learning_rate": 5.555555555555556e-05,
	"loss": 0.1701,
	"step": 15
	},
	{
	"epoch": 0.12030075187969924,
	"grad_norm": 0.05708144315846648,
	"learning_rate": 5.925925925925926e-05,
	"loss": 0.0938,
	"step": 16
	},
	{
	"epoch": 0.12781954887218044,
	"grad_norm": 0.0813311914428683,
	"learning_rate": 6.296296296296296e-05,
	"loss": 0.1221,
	"step": 17
	},
	{
	"epoch": 0.13533834586466165,
	"grad_norm": 0.07670248585638807,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.1068,
	"step": 18
	},
	{
	"epoch": 0.14285714285714285,
	"grad_norm": 0.12777013083805186,
	"learning_rate": 7.037037037037038e-05,
	"loss": 0.1183,
	"step": 19
	},
	{
	"epoch": 0.15037593984962405,
	"grad_norm": 0.07203864112993859,
	"learning_rate": 7.407407407407407e-05,
	"loss": 0.0941,
	"step": 20
	},
	{
	"epoch": 0.15789473684210525,
	"grad_norm": 0.06622495246697525,
	"learning_rate": 7.777777777777778e-05,
	"loss": 0.0851,
	"step": 21
	},
	{
	"epoch": 0.16541353383458646,
	"grad_norm": 0.05064660711733651,
	"learning_rate": 8.148148148148148e-05,
	"loss": 0.0672,
	"step": 22
	},
	{
	"epoch": 0.17293233082706766,
	"grad_norm": 0.05569880144395339,
	"learning_rate": 8.518518518518518e-05,
	"loss": 0.0692,
	"step": 23
	},
	{
	"epoch": 0.18045112781954886,
	"grad_norm": 0.06341922542018791,
	"learning_rate": 8.888888888888889e-05,
	"loss": 0.0719,
	"step": 24
	},
	{
	"epoch": 0.18796992481203006,
	"grad_norm": 0.09483517480751269,
	"learning_rate": 9.25925925925926e-05,
	"loss": 0.1039,
	"step": 25
	},
	{
	"epoch": 0.19548872180451127,
	"grad_norm": 0.06345422292566975,
	"learning_rate": 9.62962962962963e-05,
	"loss": 0.0642,
	"step": 26
	},
	{
	"epoch": 0.20300751879699247,
	"grad_norm": 0.06565559978972503,
	"learning_rate": 0.0001,
	"loss": 0.0806,
	"step": 27
	},
	{
	"epoch": 0.21052631578947367,
	"grad_norm": 0.07234940226716612,
	"learning_rate": 9.999568045802217e-05,
	"loss": 0.0699,
	"step": 28
	},
	{
	"epoch": 0.21804511278195488,
	"grad_norm": 0.09174614011055109,
	"learning_rate": 9.998272257842641e-05,
	"loss": 0.0797,
	"step": 29
	},
	{
	"epoch": 0.22556390977443608,
	"grad_norm": 0.0799372037045221,
	"learning_rate": 9.996112860009688e-05,
	"loss": 0.0599,
	"step": 30
	},
	{
	"epoch": 0.23308270676691728,
	"grad_norm": 0.07650243821697233,
	"learning_rate": 9.993090225407743e-05,
	"loss": 0.0673,
	"step": 31
	},
	{
	"epoch": 0.24060150375939848,
	"grad_norm": 0.07437978624039222,
	"learning_rate": 9.989204876292688e-05,
	"loss": 0.063,
	"step": 32
	},
	{
	"epoch": 0.24812030075187969,
	"grad_norm": 0.05826090837310029,
	"learning_rate": 9.984457483981669e-05,
	"loss": 0.0563,
	"step": 33
	},
	{
	"epoch": 0.2556390977443609,
	"grad_norm": 0.046830358894256296,
	"learning_rate": 9.978848868737098e-05,
	"loss": 0.0449,
	"step": 34
	},
	{
	"epoch": 0.2631578947368421,
	"grad_norm": 0.059942032653184,
	"learning_rate": 9.972379999624936e-05,
	"loss": 0.0492,
	"step": 35
	},
	{
	"epoch": 0.2706766917293233,
	"grad_norm": 0.04559622889503948,
	"learning_rate": 9.96505199434725e-05,
	"loss": 0.0384,
	"step": 36
	},
	{
	"epoch": 0.2781954887218045,
	"grad_norm": 0.08582556953299057,
	"learning_rate": 9.956866119049095e-05,
	"loss": 0.052,
	"step": 37
	},
	{
	"epoch": 0.2857142857142857,
	"grad_norm": 0.05879365562753825,
	"learning_rate": 9.947823788099753e-05,
	"loss": 0.0499,
	"step": 38
	},
	{
	"epoch": 0.2932330827067669,
	"grad_norm": 0.07725729979493687,
	"learning_rate": 9.937926563848346e-05,
	"loss": 0.0382,
	"step": 39
	},
	{
	"epoch": 0.3007518796992481,
	"grad_norm": 0.06791365316815774,
	"learning_rate": 9.927176156353899e-05,
	"loss": 0.0424,
	"step": 40
	},
	{
	"epoch": 0.3082706766917293,
	"grad_norm": 0.06835456363607172,
	"learning_rate": 9.91557442308987e-05,
	"loss": 0.0477,
	"step": 41
	},
	{
	"epoch": 0.3157894736842105,
	"grad_norm": 0.06785706541381617,
	"learning_rate": 9.903123368623216e-05,
	"loss": 0.0423,
	"step": 42
	},
	{
	"epoch": 0.3233082706766917,
	"grad_norm": 0.037822284484082716,
	"learning_rate": 9.889825144268029e-05,
	"loss": 0.0373,
	"step": 43
	},
	{
	"epoch": 0.3308270676691729,
	"grad_norm": 0.09335172889811039,
	"learning_rate": 9.875682047713846e-05,
	"loss": 0.0532,
	"step": 44
	},
	{
	"epoch": 0.3383458646616541,
	"grad_norm": 0.03552601591664148,
	"learning_rate": 9.860696522628639e-05,
	"loss": 0.0302,
	"step": 45
	},
	{
	"epoch": 0.3458646616541353,
	"grad_norm": 0.06792399841238587,
	"learning_rate": 9.844871158236591e-05,
	"loss": 0.043,
	"step": 46
	},
	{
	"epoch": 0.3533834586466165,
	"grad_norm": 0.07394708716985816,
	"learning_rate": 9.828208688870735e-05,
	"loss": 0.0414,
	"step": 47
	},
	{
	"epoch": 0.3609022556390977,
	"grad_norm": 0.07644206071621325,
	"learning_rate": 9.810711993500507e-05,
	"loss": 0.0442,
	"step": 48
	},
	{
	"epoch": 0.3684210526315789,
	"grad_norm": 0.04448780324279346,
	"learning_rate": 9.792384095234313e-05,
	"loss": 0.0397,
	"step": 49
	},
	{
	"epoch": 0.37593984962406013,
	"grad_norm": 0.040299146373067786,
	"learning_rate": 9.773228160797188e-05,
	"loss": 0.0294,
	"step": 50
	},
	{
	"epoch": 0.38345864661654133,
	"grad_norm": 0.04600091352431098,
	"learning_rate": 9.753247499983649e-05,
	"loss": 0.0388,
	"step": 51
	},
	{
	"epoch": 0.39097744360902253,
	"grad_norm": 0.05174024689025062,
	"learning_rate": 9.732445565085824e-05,
	"loss": 0.0464,
	"step": 52
	},
	{
	"epoch": 0.39849624060150374,
	"grad_norm": 0.06048290755695799,
	"learning_rate": 9.71082595029695e-05,
	"loss": 0.0441,
	"step": 53
	},
	{
	"epoch": 0.40601503759398494,
	"grad_norm": 0.06909111905381797,
	"learning_rate": 9.688392391090373e-05,
	"loss": 0.0403,
	"step": 54
	},
	{
	"epoch": 0.41353383458646614,
	"grad_norm": 0.10580098842980783,
	"learning_rate": 9.665148763574123e-05,
	"loss": 0.0414,
	"step": 55
	},
	{
	"epoch": 0.42105263157894735,
	"grad_norm": 0.06004492721880413,
	"learning_rate": 9.64109908382119e-05,
	"loss": 0.0348,
	"step": 56
	},
	{
	"epoch": 0.42857142857142855,
	"grad_norm": 0.05616302785838828,
	"learning_rate": 9.616247507175623e-05,
	"loss": 0.0353,
	"step": 57
	},
	{
	"epoch": 0.43609022556390975,
	"grad_norm": 0.04963402332052172,
	"learning_rate": 9.590598327534564e-05,
	"loss": 0.0354,
	"step": 58
	},
	{
	"epoch": 0.44360902255639095,
	"grad_norm": 0.09520890937208057,
	"learning_rate": 9.564155976606339e-05,
	"loss": 0.0436,
	"step": 59
	},
	{
	"epoch": 0.45112781954887216,
	"grad_norm": 0.07317691578763187,
	"learning_rate": 9.536925023144742e-05,
	"loss": 0.0448,
	"step": 60
	},
	{
	"epoch": 0.45864661654135336,
	"grad_norm": 0.0653903652099525,
	"learning_rate": 9.508910172159635e-05,
	"loss": 0.0456,
	"step": 61
	},
	{
	"epoch": 0.46616541353383456,
	"grad_norm": 0.08533000644485912,
	"learning_rate": 9.480116264104011e-05,
	"loss": 0.0417,
	"step": 62
	},
	{
	"epoch": 0.47368421052631576,
	"grad_norm": 0.07477194348090598,
	"learning_rate": 9.450548274037653e-05,
	"loss": 0.0427,
	"step": 63
	},
	{
	"epoch": 0.48120300751879697,
	"grad_norm": 0.040320894825821886,
	"learning_rate": 9.420211310767533e-05,
	"loss": 0.0317,
	"step": 64
	},
	{
	"epoch": 0.48872180451127817,
	"grad_norm": 0.04204333897095501,
	"learning_rate": 9.389110615965102e-05,
	"loss": 0.0308,
	"step": 65
	},
	{
	"epoch": 0.49624060150375937,
	"grad_norm": 0.06435209558835227,
	"learning_rate": 9.35725156326063e-05,
	"loss": 0.0404,
	"step": 66
	},
	{
	"epoch": 0.5037593984962406,
	"grad_norm": 0.05292300086818655,
	"learning_rate": 9.324639657314742e-05,
	"loss": 0.0383,
	"step": 67
	},
	{
	"epoch": 0.5112781954887218,
	"grad_norm": 0.0533359959006372,
	"learning_rate": 9.291280532867302e-05,
	"loss": 0.0419,
	"step": 68
	},
	{
	"epoch": 0.518796992481203,
	"grad_norm": 0.0421677134855151,
	"learning_rate": 9.257179953763845e-05,
	"loss": 0.0301,
	"step": 69
	},
	{
	"epoch": 0.5263157894736842,
	"grad_norm": 0.047396091527240565,
	"learning_rate": 9.222343811959693e-05,
	"loss": 0.0355,
	"step": 70
	},
	{
	"epoch": 0.5338345864661654,
	"grad_norm": 0.05055865206409256,
	"learning_rate": 9.186778126501916e-05,
	"loss": 0.0379,
	"step": 71
	},
	{
	"epoch": 0.5413533834586466,
	"grad_norm": 0.03922328494549794,
	"learning_rate": 9.150489042489367e-05,
	"loss": 0.03,
	"step": 72
	},
	{
	"epoch": 0.5488721804511278,
	"grad_norm": 0.08580904921861318,
	"learning_rate": 9.113482830010918e-05,
	"loss": 0.038,
	"step": 73
	},
	{
	"epoch": 0.556390977443609,
	"grad_norm": 0.04615991149700515,
	"learning_rate": 9.075765883062093e-05,
	"loss": 0.0321,
	"step": 74
	},
	{
	"epoch": 0.5639097744360902,
	"grad_norm": 0.21688152384611062,
	"learning_rate": 9.037344718440322e-05,
	"loss": 0.0369,
	"step": 75
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 0.06709856743156827,
	"learning_rate": 8.99822597461894e-05,
	"loss": 0.0429,
	"step": 76
	},
	{
	"epoch": 0.5789473684210527,
	"grad_norm": 0.07300506123989278,
	"learning_rate": 8.958416410600187e-05,
	"loss": 0.0351,
	"step": 77
	},
	{
	"epoch": 0.5864661654135338,
	"grad_norm": 0.08415403445437179,
	"learning_rate": 8.917922904747384e-05,
	"loss": 0.0425,
	"step": 78
	},
	{
	"epoch": 0.5939849624060151,
	"grad_norm": 0.043734956942212244,
	"learning_rate": 8.876752453596462e-05,
	"loss": 0.0322,
	"step": 79
	},
	{
	"epoch": 0.6015037593984962,
	"grad_norm": 0.11340147288766998,
	"learning_rate": 8.834912170647101e-05,
	"loss": 0.0446,
	"step": 80
	},
	{
	"epoch": 0.6090225563909775,
	"grad_norm": 0.061288991507609664,
	"learning_rate": 8.792409285133642e-05,
	"loss": 0.0424,
	"step": 81
	},
	{
	"epoch": 0.6165413533834586,
	"grad_norm": 0.043805649893633086,
	"learning_rate": 8.749251140776016e-05,
	"loss": 0.0342,
	"step": 82
	},
	{
	"epoch": 0.6240601503759399,
	"grad_norm": 0.05953059965877648,
	"learning_rate": 8.705445194510868e-05,
	"loss": 0.0321,
	"step": 83
	},
	{
	"epoch": 0.631578947368421,
	"grad_norm": 0.07945205955271631,
	"learning_rate": 8.66099901520315e-05,
	"loss": 0.0371,
	"step": 84
	},
	{
	"epoch": 0.6390977443609023,
	"grad_norm": 0.04453806753518928,
	"learning_rate": 8.615920282338355e-05,
	"loss": 0.0349,
	"step": 85
	},
	{
	"epoch": 0.6466165413533834,
	"grad_norm": 0.05196927124976879,
	"learning_rate": 8.570216784695637e-05,
	"loss": 0.0287,
	"step": 86
	},
	{
	"epoch": 0.6541353383458647,
	"grad_norm": 0.08901603801098872,
	"learning_rate": 8.52389641900206e-05,
	"loss": 0.0379,
	"step": 87
	},
	{
	"epoch": 0.6616541353383458,
	"grad_norm": 0.04173009472070016,
	"learning_rate": 8.476967188568188e-05,
	"loss": 0.0264,
	"step": 88
	},
	{
	"epoch": 0.6691729323308271,
	"grad_norm": 0.06191267416598679,
	"learning_rate": 8.429437201905254e-05,
	"loss": 0.028,
	"step": 89
	},
	{
	"epoch": 0.6766917293233082,
	"grad_norm": 0.05938205491417802,
	"learning_rate": 8.381314671324159e-05,
	"loss": 0.0353,
	"step": 90
	},
	{
	"epoch": 0.6842105263157895,
	"grad_norm": 0.06594155945203996,
	"learning_rate": 8.332607911516545e-05,
	"loss": 0.0423,
	"step": 91
	},
	{
	"epoch": 0.6917293233082706,
	"grad_norm": 0.03727901580427709,
	"learning_rate": 8.283325338118153e-05,
	"loss": 0.0288,
	"step": 92
	},
	{
	"epoch": 0.6992481203007519,
	"grad_norm": 0.039506792129091334,
	"learning_rate": 8.233475466254765e-05,
	"loss": 0.0319,
	"step": 93
	},
	{
	"epoch": 0.706766917293233,
	"grad_norm": 0.10114676138905467,
	"learning_rate": 8.183066909070947e-05,
	"loss": 0.0413,
	"step": 94
	},
	{
	"epoch": 0.7142857142857143,
	"grad_norm": 0.0519720254987392,
	"learning_rate": 8.132108376241849e-05,
	"loss": 0.0319,
	"step": 95
	},
	{
	"epoch": 0.7218045112781954,
	"grad_norm": 0.06828535688055823,
	"learning_rate": 8.08060867246834e-05,
	"loss": 0.0415,
	"step": 96
	},
	{
	"epoch": 0.7293233082706767,
	"grad_norm": 0.04423778552147402,
	"learning_rate": 8.028576695955711e-05,
	"loss": 0.0307,
	"step": 97
	},
	{
	"epoch": 0.7368421052631579,
	"grad_norm": 0.04301708267503238,
	"learning_rate": 7.97602143687623e-05,
	"loss": 0.0292,
	"step": 98
	},
	{
	"epoch": 0.7443609022556391,
	"grad_norm": 0.07557692217243188,
	"learning_rate": 7.922951975815811e-05,
	"loss": 0.0304,
	"step": 99
	},
	{
	"epoch": 0.7518796992481203,
	"grad_norm": 0.061041885279450855,
	"learning_rate": 7.869377482205042e-05,
	"loss": 0.0318,
	"step": 100
	},
	{
	"epoch": 0.7593984962406015,
	"grad_norm": 0.040342152719196084,
	"learning_rate": 7.815307212734888e-05,
	"loss": 0.027,
	"step": 101
	},
	{
	"epoch": 0.7669172932330827,
	"grad_norm": 0.07790755826343725,
	"learning_rate": 7.760750509757298e-05,
	"loss": 0.0339,
	"step": 102
	},
	{
	"epoch": 0.7744360902255639,
	"grad_norm": 0.05210408795431101,
	"learning_rate": 7.705716799671019e-05,
	"loss": 0.0228,
	"step": 103
	},
	{
	"epoch": 0.7819548872180451,
	"grad_norm": 0.08000736959421384,
	"learning_rate": 7.650215591292888e-05,
	"loss": 0.0357,
	"step": 104
	},
	{
	"epoch": 0.7894736842105263,
	"grad_norm": 0.05843028390975531,
	"learning_rate": 7.594256474214882e-05,
	"loss": 0.0285,
	"step": 105
	},
	{
	"epoch": 0.7969924812030075,
	"grad_norm": 0.13537509841914472,
	"learning_rate": 7.537849117147212e-05,
	"loss": 0.0359,
	"step": 106
	},
	{
	"epoch": 0.8045112781954887,
	"grad_norm": 0.08230566866298178,
	"learning_rate": 7.481003266247744e-05,
	"loss": 0.0367,
	"step": 107
	},
	{
	"epoch": 0.8120300751879699,
	"grad_norm": 0.09678557492723187,
	"learning_rate": 7.423728743438048e-05,
	"loss": 0.0358,
	"step": 108
	},
	{
	"epoch": 0.8195488721804511,
	"grad_norm": 0.049541914871144996,
	"learning_rate": 7.366035444706347e-05,
	"loss": 0.0329,
	"step": 109
	},
	{
	"epoch": 0.8270676691729323,
	"grad_norm": 0.08823757922929092,
	"learning_rate": 7.307933338397667e-05,
	"loss": 0.0364,
	"step": 110
	},
	{
	"epoch": 0.8345864661654135,
	"grad_norm": 0.044744299992948704,
	"learning_rate": 7.249432463491498e-05,
	"loss": 0.0328,
	"step": 111
	},
	{
	"epoch": 0.8421052631578947,
	"grad_norm": 0.03814585189064516,
	"learning_rate": 7.190542927867234e-05,
	"loss": 0.0242,
	"step": 112
	},
	{
	"epoch": 0.849624060150376,
	"grad_norm": 0.03553642928460275,
	"learning_rate": 7.131274906557725e-05,
	"loss": 0.0277,
	"step": 113
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 0.044176381361140944,
	"learning_rate": 7.071638639991207e-05,
	"loss": 0.0282,
	"step": 114
	},
	{
	"epoch": 0.8646616541353384,
	"grad_norm": 0.04113727259330019,
	"learning_rate": 7.011644432221958e-05,
	"loss": 0.0311,
	"step": 115
	},
	{
	"epoch": 0.8721804511278195,
	"grad_norm": 0.060773829286428965,
	"learning_rate": 6.95130264914993e-05,
	"loss": 0.0414,
	"step": 116
	},
	{
	"epoch": 0.8796992481203008,
	"grad_norm": 0.05757846085257315,
	"learning_rate": 6.890623716729724e-05,
	"loss": 0.0279,
	"step": 117
	},
	{
	"epoch": 0.8872180451127819,
	"grad_norm": 0.08428255259620104,
	"learning_rate": 6.82961811916917e-05,
	"loss": 0.0298,
	"step": 118
	},
	{
	"epoch": 0.8947368421052632,
	"grad_norm": 0.04529601746123181,
	"learning_rate": 6.768296397117848e-05,
	"loss": 0.0263,
	"step": 119
	},
	{
	"epoch": 0.9022556390977443,
	"grad_norm": 0.0559976345746786,
	"learning_rate": 6.706669145845863e-05,
	"loss": 0.0331,
	"step": 120
	},
	{
	"epoch": 0.9097744360902256,
	"grad_norm": 0.046985300077111235,
	"learning_rate": 6.644747013413168e-05,
	"loss": 0.0323,
	"step": 121
	},
	{
	"epoch": 0.9172932330827067,
	"grad_norm": 0.06973194335422163,
	"learning_rate": 6.582540698829781e-05,
	"loss": 0.0356,
	"step": 122
	},
	{
	"epoch": 0.924812030075188,
	"grad_norm": 0.0550307651636393,
	"learning_rate": 6.520060950207185e-05,
	"loss": 0.0374,
	"step": 123
	},
	{
	"epoch": 0.9323308270676691,
	"grad_norm": 0.04136098377224926,
	"learning_rate": 6.457318562901256e-05,
	"loss": 0.0281,
	"step": 124
	},
	{
	"epoch": 0.9398496240601504,
	"grad_norm": 0.04471839673788357,
	"learning_rate": 6.394324377647028e-05,
	"loss": 0.0344,
	"step": 125
	},
	{
	"epoch": 0.9473684210526315,
	"grad_norm": 0.04057335071418551,
	"learning_rate": 6.331089278685599e-05,
	"loss": 0.0289,
	"step": 126
	},
	{
	"epoch": 0.9548872180451128,
	"grad_norm": 0.036632585834280834,
	"learning_rate": 6.26762419188355e-05,
	"loss": 0.0254,
	"step": 127
	},
	{
	"epoch": 0.9624060150375939,
	"grad_norm": 0.05253467833143005,
	"learning_rate": 6.203940082845144e-05,
	"loss": 0.0423,
	"step": 128
	},
	{
	"epoch": 0.9699248120300752,
	"grad_norm": 0.05828434847478486,
	"learning_rate": 6.140047955017671e-05,
	"loss": 0.0331,
	"step": 129
	},
	{
	"epoch": 0.9774436090225563,
	"grad_norm": 0.052528332979290625,
	"learning_rate": 6.075958847790262e-05,
	"loss": 0.0344,
	"step": 130
	},
	{
	"epoch": 0.9849624060150376,
	"grad_norm": 0.039125799054480936,
	"learning_rate": 6.011683834586473e-05,
	"loss": 0.0264,
	"step": 131
	},
	{
	"epoch": 0.9924812030075187,
	"grad_norm": 0.03707157930189228,
	"learning_rate": 5.947234020951015e-05,
	"loss": 0.0237,
	"step": 132
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.054189982183542575,
	"learning_rate": 5.882620542630901e-05,
	"loss": 0.0317,
	"step": 133
	},
	{
	"epoch": 1.0075187969924813,
	"grad_norm": 0.04357846265860899,
	"learning_rate": 5.8178545636514145e-05,
	"loss": 0.0268,
	"step": 134
	},
	{
	"epoch": 1.0150375939849625,
	"grad_norm": 0.056012933476124856,
	"learning_rate": 5.752947274387147e-05,
	"loss": 0.0223,
	"step": 135
	},
	{
	"epoch": 1.0225563909774436,
	"grad_norm": 0.049689439936320044,
	"learning_rate": 5.687909889628529e-05,
	"loss": 0.0304,
	"step": 136
	},
	{
	"epoch": 1.0300751879699248,
	"grad_norm": 0.04830994322048754,
	"learning_rate": 5.622753646644102e-05,
	"loss": 0.0278,
	"step": 137
	},
	{
	"epoch": 1.037593984962406,
	"grad_norm": 0.04418639970975713,
	"learning_rate": 5.557489803238933e-05,
	"loss": 0.0259,
	"step": 138
	},
	{
	"epoch": 1.045112781954887,
	"grad_norm": 0.042738363591787835,
	"learning_rate": 5.492129635809473e-05,
	"loss": 0.0198,
	"step": 139
	},
	{
	"epoch": 1.0526315789473684,
	"grad_norm": 0.03885713180148723,
	"learning_rate": 5.426684437395196e-05,
	"loss": 0.0191,
	"step": 140
	},
	{
	"epoch": 1.0601503759398496,
	"grad_norm": 0.04951650926676435,
	"learning_rate": 5.361165515727374e-05,
	"loss": 0.0214,
	"step": 141
	},
	{
	"epoch": 1.0676691729323309,
	"grad_norm": 0.059968470212708236,
	"learning_rate": 5.295584191275308e-05,
	"loss": 0.0243,
	"step": 142
	},
	{
	"epoch": 1.0751879699248121,
	"grad_norm": 0.0676386940224187,
	"learning_rate": 5.229951795290353e-05,
	"loss": 0.029,
	"step": 143
	},
	{
	"epoch": 1.0827067669172932,
	"grad_norm": 0.04250436122379926,
	"learning_rate": 5.164279667848094e-05,
	"loss": 0.0204,
	"step": 144
	},
	{
	"epoch": 1.0902255639097744,
	"grad_norm": 0.04124846102938738,
	"learning_rate": 5.0985791558889785e-05,
	"loss": 0.0209,
	"step": 145
	},
	{
	"epoch": 1.0977443609022557,
	"grad_norm": 0.05914558229310168,
	"learning_rate": 5.032861611257783e-05,
	"loss": 0.0285,
	"step": 146
	},
	{
	"epoch": 1.1052631578947367,
	"grad_norm": 0.0465029543723527,
	"learning_rate": 4.967138388742218e-05,
	"loss": 0.0204,
	"step": 147
	},
	{
	"epoch": 1.112781954887218,
	"grad_norm": 0.06469458945659604,
	"learning_rate": 4.901420844111021e-05,
	"loss": 0.0314,
	"step": 148
	},
	{
	"epoch": 1.1203007518796992,
	"grad_norm": 0.06440915952496404,
	"learning_rate": 4.835720332151907e-05,
	"loss": 0.0281,
	"step": 149
	},
	{
	"epoch": 1.1278195488721805,
	"grad_norm": 0.0571757163158284,
	"learning_rate": 4.770048204709648e-05,
	"loss": 0.0248,
	"step": 150
	},
	{
	"epoch": 1.1353383458646618,
	"grad_norm": 0.05910301690921271,
	"learning_rate": 4.7044158087246926e-05,
	"loss": 0.0311,
	"step": 151
	},
	{
	"epoch": 1.1428571428571428,
	"grad_norm": 0.04613839631194596,
	"learning_rate": 4.6388344842726264e-05,
	"loss": 0.0218,
	"step": 152
	},
	{
	"epoch": 1.150375939849624,
	"grad_norm": 0.05741866552084954,
	"learning_rate": 4.5733155626048036e-05,
	"loss": 0.0271,
	"step": 153
	},
	{
	"epoch": 1.1578947368421053,
	"grad_norm": 0.04682544810113655,
	"learning_rate": 4.507870364190527e-05,
	"loss": 0.0264,
	"step": 154
	},
	{
	"epoch": 1.1654135338345863,
	"grad_norm": 0.06282838577083374,
	"learning_rate": 4.4425101967610674e-05,
	"loss": 0.024,
	"step": 155
	},
	{
	"epoch": 1.1729323308270676,
	"grad_norm": 0.05388737782363021,
	"learning_rate": 4.377246353355899e-05,
	"loss": 0.0271,
	"step": 156
	},
	{
	"epoch": 1.1804511278195489,
	"grad_norm": 0.05086578069156835,
	"learning_rate": 4.312090110371473e-05,
	"loss": 0.0278,
	"step": 157
	},
	{
	"epoch": 1.1879699248120301,
	"grad_norm": 0.05863572980738164,
	"learning_rate": 4.247052725612852e-05,
	"loss": 0.0292,
	"step": 158
	},
	{
	"epoch": 1.1954887218045114,
	"grad_norm": 0.04227523648124146,
	"learning_rate": 4.1821454363485866e-05,
	"loss": 0.0234,
	"step": 159
	},
	{
	"epoch": 1.2030075187969924,
	"grad_norm": 0.04268704545270105,
	"learning_rate": 4.1173794573690996e-05,
	"loss": 0.0206,
	"step": 160
	},
	{
	"epoch": 1.2105263157894737,
	"grad_norm": 0.04778787432486908,
	"learning_rate": 4.052765979048986e-05,
	"loss": 0.0227,
	"step": 161
	},
	{
	"epoch": 1.218045112781955,
	"grad_norm": 0.0459311125342993,
	"learning_rate": 3.988316165413528e-05,
	"loss": 0.0205,
	"step": 162
	},
	{
	"epoch": 1.225563909774436,
	"grad_norm": 0.05603215690118315,
	"learning_rate": 3.924041152209739e-05,
	"loss": 0.029,
	"step": 163
	},
	{
	"epoch": 1.2330827067669172,
	"grad_norm": 0.060179119443112154,
	"learning_rate": 3.859952044982329e-05,
	"loss": 0.0271,
	"step": 164
	},
	{
	"epoch": 1.2406015037593985,
	"grad_norm": 0.04740279415347567,
	"learning_rate": 3.7960599171548574e-05,
	"loss": 0.0213,
	"step": 165
	},
	{
	"epoch": 1.2481203007518797,
	"grad_norm": 0.052482110362426594,
	"learning_rate": 3.732375808116451e-05,
	"loss": 0.0258,
	"step": 166
	},
	{
	"epoch": 1.255639097744361,
	"grad_norm": 0.04835120393099329,
	"learning_rate": 3.668910721314402e-05,
	"loss": 0.0229,
	"step": 167
	},
	{
	"epoch": 1.263157894736842,
	"grad_norm": 0.08311507045185516,
	"learning_rate": 3.605675622352973e-05,
	"loss": 0.0265,
	"step": 168
	},
	{
	"epoch": 1.2706766917293233,
	"grad_norm": 0.053563077833150494,
	"learning_rate": 3.542681437098745e-05,
	"loss": 0.0256,
	"step": 169
	},
	{
	"epoch": 1.2781954887218046,
	"grad_norm": 0.05567682482783888,
	"learning_rate": 3.479939049792817e-05,
	"loss": 0.0213,
	"step": 170
	},
	{
	"epoch": 1.2857142857142856,
	"grad_norm": 0.054588031712222006,
	"learning_rate": 3.417459301170219e-05,
	"loss": 0.0266,
	"step": 171
	},
	{
	"epoch": 1.2932330827067668,
	"grad_norm": 0.07694344232267265,
	"learning_rate": 3.355252986586832e-05,
	"loss": 0.0193,
	"step": 172
	},
	{
	"epoch": 1.300751879699248,
	"grad_norm": 0.05943952613035603,
	"learning_rate": 3.293330854154136e-05,
	"loss": 0.0258,
	"step": 173
	},
	{
	"epoch": 1.3082706766917294,
	"grad_norm": 0.038766556860819104,
	"learning_rate": 3.2317036028821523e-05,
	"loss": 0.0159,
	"step": 174
	},
	{
	"epoch": 1.3157894736842106,
	"grad_norm": 0.05092188135687549,
	"learning_rate": 3.1703818808308324e-05,
	"loss": 0.0215,
	"step": 175
	},
	{
	"epoch": 1.3233082706766917,
	"grad_norm": 0.04779789780883562,
	"learning_rate": 3.109376283270277e-05,
	"loss": 0.0268,
	"step": 176
	},
	{
	"epoch": 1.330827067669173,
	"grad_norm": 0.04433720319245774,
	"learning_rate": 3.0486973508500727e-05,
	"loss": 0.0238,
	"step": 177
	},
	{
	"epoch": 1.3383458646616542,
	"grad_norm": 0.049878475563895956,
	"learning_rate": 2.988355567778043e-05,
	"loss": 0.0259,
	"step": 178
	},
	{
	"epoch": 1.3458646616541352,
	"grad_norm": 0.05962755604807658,
	"learning_rate": 2.9283613600087933e-05,
	"loss": 0.025,
	"step": 179
	},
	{
	"epoch": 1.3533834586466165,
	"grad_norm": 0.04955718527923681,
	"learning_rate": 2.8687250934422772e-05,
	"loss": 0.0194,
	"step": 180
	},
	{
	"epoch": 1.3609022556390977,
	"grad_norm": 0.03676456890831394,
	"learning_rate": 2.8094570721327662e-05,
	"loss": 0.0189,
	"step": 181
	},
	{
	"epoch": 1.368421052631579,
	"grad_norm": 0.04868946152583533,
	"learning_rate": 2.750567536508504e-05,
	"loss": 0.0243,
	"step": 182
	},
	{
	"epoch": 1.3759398496240602,
	"grad_norm": 0.0555305400721802,
	"learning_rate": 2.6920666616023327e-05,
	"loss": 0.0257,
	"step": 183
	},
	{
	"epoch": 1.3834586466165413,
	"grad_norm": 0.04963192556183434,
	"learning_rate": 2.6339645552936536e-05,
	"loss": 0.0275,
	"step": 184
	},
	{
	"epoch": 1.3909774436090225,
	"grad_norm": 0.05542091349920839,
	"learning_rate": 2.5762712565619528e-05,
	"loss": 0.023,
	"step": 185
	},
	{
	"epoch": 1.3984962406015038,
	"grad_norm": 0.0426183120843919,
	"learning_rate": 2.5189967337522573e-05,
	"loss": 0.0206,
	"step": 186
	},
	{
	"epoch": 1.4060150375939848,
	"grad_norm": 0.05205246245376388,
	"learning_rate": 2.46215088285279e-05,
	"loss": 0.0229,
	"step": 187
	},
	{
	"epoch": 1.413533834586466,
	"grad_norm": 0.04337666332691105,
	"learning_rate": 2.4057435257851175e-05,
	"loss": 0.019,
	"step": 188
	},
	{
	"epoch": 1.4210526315789473,
	"grad_norm": 0.05985729489503263,
	"learning_rate": 2.349784408707112e-05,
	"loss": 0.0274,
	"step": 189
	},
	{
	"epoch": 1.4285714285714286,
	"grad_norm": 0.062032022184375604,
	"learning_rate": 2.2942832003289823e-05,
	"loss": 0.0271,
	"step": 190
	},
	{
	"epoch": 1.4360902255639099,
	"grad_norm": 0.05773389436675615,
	"learning_rate": 2.2392494902427025e-05,
	"loss": 0.0263,
	"step": 191
	},
	{
	"epoch": 1.443609022556391,
	"grad_norm": 0.048522536078850126,
	"learning_rate": 2.1846927872651137e-05,
	"loss": 0.0242,
	"step": 192
	},
	{
	"epoch": 1.4511278195488722,
	"grad_norm": 0.05010560342148772,
	"learning_rate": 2.1306225177949585e-05,
	"loss": 0.024,
	"step": 193
	},
	{
	"epoch": 1.4586466165413534,
	"grad_norm": 0.058011679310299026,
	"learning_rate": 2.07704802418419e-05,
	"loss": 0.0301,
	"step": 194
	},
	{
	"epoch": 1.4661654135338344,
	"grad_norm": 0.052695628737558814,
	"learning_rate": 2.0239785631237705e-05,
	"loss": 0.0262,
	"step": 195
	},
	{
	"epoch": 1.4736842105263157,
	"grad_norm": 0.0397195089948912,
	"learning_rate": 1.9714233040442915e-05,
	"loss": 0.0179,
	"step": 196
	},
	{
	"epoch": 1.481203007518797,
	"grad_norm": 0.05532938780742867,
	"learning_rate": 1.9193913275316626e-05,
	"loss": 0.0234,
	"step": 197
	},
	{
	"epoch": 1.4887218045112782,
	"grad_norm": 0.07349266479809795,
	"learning_rate": 1.8678916237581522e-05,
	"loss": 0.0236,
	"step": 198
	},
	{
	"epoch": 1.4962406015037595,
	"grad_norm": 0.03995824607041351,
	"learning_rate": 1.816933090929055e-05,
	"loss": 0.0176,
	"step": 199
	},
	{
	"epoch": 1.5037593984962405,
	"grad_norm": 0.07166373724308431,
	"learning_rate": 1.7665245337452368e-05,
	"loss": 0.0258,
	"step": 200
	},
	{
	"epoch": 1.5037593984962405,
	"eval_loss": 0.029665347188711166,
	"eval_runtime": 6.5066,
	"eval_samples_per_second": 0.922,
	"eval_steps_per_second": 0.307,
	"step": 200
	},
	{
	"epoch": 1.5112781954887218,
	"grad_norm": 0.048692577901512116,
	"learning_rate": 1.716674661881848e-05,
	"loss": 0.0224,
	"step": 201
	},
	{
	"epoch": 1.518796992481203,
	"grad_norm": 0.04675059057360818,
	"learning_rate": 1.667392088483456e-05,
	"loss": 0.0223,
	"step": 202
	},
	{
	"epoch": 1.526315789473684,
	"grad_norm": 0.05459458244813264,
	"learning_rate": 1.6186853286758397e-05,
	"loss": 0.0242,
	"step": 203
	},
	{
	"epoch": 1.5338345864661656,
	"grad_norm": 0.051543551392068274,
	"learning_rate": 1.570562798094747e-05,
	"loss": 0.025,
	"step": 204
	},
	{
	"epoch": 1.5413533834586466,
	"grad_norm": 0.14671926401344376,
	"learning_rate": 1.5230328114318127e-05,
	"loss": 0.0241,
	"step": 205
	},
	{
	"epoch": 1.5488721804511278,
	"grad_norm": 0.058979726559234814,
	"learning_rate": 1.4761035809979395e-05,
	"loss": 0.0253,
	"step": 206
	},
	{
	"epoch": 1.556390977443609,
	"grad_norm": 0.06494643885270886,
	"learning_rate": 1.4297832153043656e-05,
	"loss": 0.0236,
	"step": 207
	},
	{
	"epoch": 1.5639097744360901,
	"grad_norm": 0.06627104647345526,
	"learning_rate": 1.3840797176616466e-05,
	"loss": 0.0278,
	"step": 208
	},
	{
	"epoch": 1.5714285714285714,
	"grad_norm": 0.06190650675134399,
	"learning_rate": 1.3390009847968504e-05,
	"loss": 0.0255,
	"step": 209
	},
	{
	"epoch": 1.5789473684210527,
	"grad_norm": 0.06250699899282167,
	"learning_rate": 1.2945548054891321e-05,
	"loss": 0.0254,
	"step": 210
	},
	{
	"epoch": 1.5864661654135337,
	"grad_norm": 0.06214391708977836,
	"learning_rate": 1.2507488592239847e-05,
	"loss": 0.0233,
	"step": 211
	},
	{
	"epoch": 1.5939849624060152,
	"grad_norm": 0.054608347620115995,
	"learning_rate": 1.2075907148663579e-05,
	"loss": 0.024,
	"step": 212
	},
	{
	"epoch": 1.6015037593984962,
	"grad_norm": 0.05333683650123989,
	"learning_rate": 1.1650878293528994e-05,
	"loss": 0.0261,
	"step": 213
	},
	{
	"epoch": 1.6090225563909775,
	"grad_norm": 0.047407562918454,
	"learning_rate": 1.1232475464035385e-05,
	"loss": 0.0192,
	"step": 214
	},
	{
	"epoch": 1.6165413533834587,
	"grad_norm": 0.06549580580637923,
	"learning_rate": 1.0820770952526155e-05,
	"loss": 0.0192,
	"step": 215
	},
	{
	"epoch": 1.6240601503759398,
	"grad_norm": 0.0582730317262946,
	"learning_rate": 1.0415835893998116e-05,
	"loss": 0.0267,
	"step": 216
	},
	{
	"epoch": 1.631578947368421,
	"grad_norm": 0.06724858724013988,
	"learning_rate": 1.0017740253810609e-05,
	"loss": 0.0244,
	"step": 217
	},
	{
	"epoch": 1.6390977443609023,
	"grad_norm": 0.07353126997097047,
	"learning_rate": 9.62655281559679e-06,
	"loss": 0.0265,
	"step": 218
	},
	{
	"epoch": 1.6466165413533833,
	"grad_norm": 0.057567868642984674,
	"learning_rate": 9.242341169379076e-06,
	"loss": 0.0239,
	"step": 219
	},
	{
	"epoch": 1.6541353383458648,
	"grad_norm": 0.06325334373179048,
	"learning_rate": 8.865171699890834e-06,
	"loss": 0.023,
	"step": 220
	},
	{
	"epoch": 1.6616541353383458,
	"grad_norm": 0.057849806459398294,
	"learning_rate": 8.49510957510633e-06,
	"loss": 0.0286,
	"step": 221
	},
	{
	"epoch": 1.669172932330827,
	"grad_norm": 0.06257054012996921,
	"learning_rate": 8.132218734980852e-06,
	"loss": 0.0205,
	"step": 222
	},
	{
	"epoch": 1.6766917293233083,
	"grad_norm": 0.053291552200528655,
	"learning_rate": 7.776561880403072e-06,
	"loss": 0.0222,
	"step": 223
	},
	{
	"epoch": 1.6842105263157894,
	"grad_norm": 0.055884993872003165,
	"learning_rate": 7.4282004623615396e-06,
	"loss": 0.0257,
	"step": 224
	},
	{
	"epoch": 1.6917293233082706,
	"grad_norm": 0.04781226703104293,
	"learning_rate": 7.0871946713269856e-06,
	"loss": 0.021,
	"step": 225
	},
	{
	"epoch": 1.699248120300752,
	"grad_norm": 0.04617454207758738,
	"learning_rate": 6.753603426852589e-06,
	"loss": 0.0206,
	"step": 226
	},
	{
	"epoch": 1.706766917293233,
	"grad_norm": 0.05934488856386534,
	"learning_rate": 6.427484367393699e-06,
	"loss": 0.0221,
	"step": 227
	},
	{
	"epoch": 1.7142857142857144,
	"grad_norm": 0.0563063349000768,
	"learning_rate": 6.108893840348995e-06,
	"loss": 0.0217,
	"step": 228
	},
	{
	"epoch": 1.7218045112781954,
	"grad_norm": 0.058919681414065804,
	"learning_rate": 5.797886892324694e-06,
	"loss": 0.0241,
	"step": 229
	},
	{
	"epoch": 1.7293233082706767,
	"grad_norm": 0.04652279001651371,
	"learning_rate": 5.494517259623477e-06,
	"loss": 0.023,
	"step": 230
	},
	{
	"epoch": 1.736842105263158,
	"grad_norm": 0.05206753304811755,
	"learning_rate": 5.198837358959901e-06,
	"loss": 0.0247,
	"step": 231
	},
	{
	"epoch": 1.744360902255639,
	"grad_norm": 0.05759411719610633,
	"learning_rate": 4.910898278403669e-06,
	"loss": 0.0275,
	"step": 232
	},
	{
	"epoch": 1.7518796992481203,
	"grad_norm": 0.05493938568305548,
	"learning_rate": 4.630749768552589e-06,
	"loss": 0.0236,
	"step": 233
	},
	{
	"epoch": 1.7593984962406015,
	"grad_norm": 0.045214515268897214,
	"learning_rate": 4.358440233936617e-06,
	"loss": 0.0196,
	"step": 234
	},
	{
	"epoch": 1.7669172932330826,
	"grad_norm": 0.08670874372319154,
	"learning_rate": 4.094016724654359e-06,
	"loss": 0.0292,
	"step": 235
	},
	{
	"epoch": 1.774436090225564,
	"grad_norm": 0.049117351787292686,
	"learning_rate": 3.837524928243774e-06,
	"loss": 0.0224,
	"step": 236
	},
	{
	"epoch": 1.781954887218045,
	"grad_norm": 0.058397389390063136,
	"learning_rate": 3.589009161788104e-06,
	"loss": 0.0278,
	"step": 237
	},
	{
	"epoch": 1.7894736842105263,
	"grad_norm": 0.05422155962388968,
	"learning_rate": 3.3485123642587658e-06,
	"loss": 0.0243,
	"step": 238
	},
	{
	"epoch": 1.7969924812030076,
	"grad_norm": 0.07090059571835504,
	"learning_rate": 3.116076089096265e-06,
	"loss": 0.027,
	"step": 239
	},
	{
	"epoch": 1.8045112781954886,
	"grad_norm": 0.05963059250846481,
	"learning_rate": 2.8917404970305097e-06,
	"loss": 0.0288,
	"step": 240
	},
	{
	"epoch": 1.8120300751879699,
	"grad_norm": 0.06946365704174999,
	"learning_rate": 2.675544349141779e-06,
	"loss": 0.0259,
	"step": 241
	},
	{
	"epoch": 1.8195488721804511,
	"grad_norm": 0.06143740644726876,
	"learning_rate": 2.4675250001635232e-06,
	"loss": 0.0247,
	"step": 242
	},
	{
	"epoch": 1.8270676691729322,
	"grad_norm": 0.04728168437977354,
	"learning_rate": 2.2677183920281343e-06,
	"loss": 0.0193,
	"step": 243
	},
	{
	"epoch": 1.8345864661654137,
	"grad_norm": 0.07042127314230426,
	"learning_rate": 2.076159047656889e-06,
	"loss": 0.0227,
	"step": 244
	},
	{
	"epoch": 1.8421052631578947,
	"grad_norm": 0.05266415047166696,
	"learning_rate": 1.892880064994934e-06,
	"loss": 0.0256,
	"step": 245
	},
	{
	"epoch": 1.849624060150376,
	"grad_norm": 0.05204878417509025,
	"learning_rate": 1.7179131112926627e-06,
	"loss": 0.024,
	"step": 246
	},
	{
	"epoch": 1.8571428571428572,
	"grad_norm": 0.04727065912696429,
	"learning_rate": 1.551288417634106e-06,
	"loss": 0.0159,
	"step": 247
	},
	{
	"epoch": 1.8646616541353382,
	"grad_norm": 0.049637487718030344,
	"learning_rate": 1.3930347737136196e-06,
	"loss": 0.0209,
	"step": 248
	},
	{
	"epoch": 1.8721804511278195,
	"grad_norm": 0.0505669836884092,
	"learning_rate": 1.2431795228615372e-06,
	"loss": 0.0206,
	"step": 249
	},
	{
	"epoch": 1.8796992481203008,
	"grad_norm": 0.07557073448805833,
	"learning_rate": 1.101748557319715e-06,
	"loss": 0.0315,
	"step": 250
	},
	{
	"epoch": 1.8872180451127818,
	"grad_norm": 0.04855407299966349,
	"learning_rate": 9.687663137678604e-07,
	"loss": 0.0193,
	"step": 251
	},
	{
	"epoch": 1.8947368421052633,
	"grad_norm": 0.05981871688003821,
	"learning_rate": 8.442557691013043e-07,
	"loss": 0.0245,
	"step": 252
	},
	{
	"epoch": 1.9022556390977443,
	"grad_norm": 0.055297053623164526,
	"learning_rate": 7.282384364610206e-07,
	"loss": 0.0242,
	"step": 253
	},
	{
	"epoch": 1.9097744360902256,
	"grad_norm": 0.05097924138111233,
	"learning_rate": 6.207343615165561e-07,
	"loss": 0.0207,
	"step": 254
	},
	{
	"epoch": 1.9172932330827068,
	"grad_norm": 0.05870296620626846,
	"learning_rate": 5.217621190024779e-07,
	"loss": 0.0259,
	"step": 255
	},
	{
	"epoch": 1.9248120300751879,
	"grad_norm": 0.05289043509456049,
	"learning_rate": 4.3133880950905205e-07,
	"loss": 0.0217,
	"step": 256
	},
	{
	"epoch": 1.9323308270676691,
	"grad_norm": 0.05040687502136238,
	"learning_rate": 3.494800565275125e-07,
	"loss": 0.0226,
	"step": 257
	},
	{
	"epoch": 1.9398496240601504,
	"grad_norm": 0.05483598628420617,
	"learning_rate": 2.762000037506485e-07,
	"loss": 0.0226,
	"step": 258
	},
	{
	"epoch": 1.9473684210526314,
	"grad_norm": 0.052171052589092846,
	"learning_rate": 2.115113126290258e-07,
	"loss": 0.0224,
	"step": 259
	},
	{
	"epoch": 1.954887218045113,
	"grad_norm": 0.060066029686361856,
	"learning_rate": 1.554251601833201e-07,
	"loss": 0.0242,
	"step": 260
	},
	{
	"epoch": 1.962406015037594,
	"grad_norm": 0.04560282840465627,
	"learning_rate": 1.0795123707312283e-07,
	"loss": 0.0199,
	"step": 261
	},
	{
	"epoch": 1.9699248120300752,
	"grad_norm": 0.055943707431487216,
	"learning_rate": 6.909774592258056e-08,
	"loss": 0.0218,
	"step": 262
	},
	{
	"epoch": 1.9774436090225564,
	"grad_norm": 0.057987573660367824,
	"learning_rate": 3.8871399903134265e-08,
	"loss": 0.0242,
	"step": 263
	},
	{
	"epoch": 1.9849624060150375,
	"grad_norm": 0.05438020219150765,
	"learning_rate": 1.7277421573608232e-08,
	"loss": 0.0278,
	"step": 264
	},
	{
	"epoch": 1.9924812030075187,
	"grad_norm": 0.05442881774912085,
	"learning_rate": 4.319541977831909e-09,
	"loss": 0.0193,
	"step": 265
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.059490023866208885,
	"learning_rate": 0.0,
	"loss": 0.0224,
	"step": 266
	},
	{
	"epoch": 2.0,
	"step": 266,
	"total_flos": 673614818967552.0,
	"train_loss": 0.039493271835932604,
	"train_runtime": 2026.6163,
	"train_samples_per_second": 0.522,
	"train_steps_per_second": 0.131
	}
	],
	"logging_steps": 1,
	"max_steps": 266,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 673614818967552.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}