train_vlm-conv-ckpt-800-ybhxe88t / trainer_state.json

Upload folder using huggingface_hub

8cd673a verified 6 days ago

141 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.5904059040590406,
	"eval_steps": 100,
	"global_step": 800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0007380073800738007,
	"grad_norm": 931.379638671875,
	"learning_rate": 6.150061500615006e-08,
	"loss": 2.4703,
	"step": 1
	},
	{
	"epoch": 0.0007380073800738007,
	"eval_loss": 2.1151068210601807,
	"eval_runtime": 311.9468,
	"eval_samples_per_second": 3.683,
	"eval_steps_per_second": 0.308,
	"step": 1
	},
	{
	"epoch": 0.0014760147601476014,
	"grad_norm": 940.4727172851562,
	"learning_rate": 1.2300123001230013e-07,
	"loss": 2.6788,
	"step": 2
	},
	{
	"epoch": 0.002214022140221402,
	"grad_norm": 744.969970703125,
	"learning_rate": 1.845018450184502e-07,
	"loss": 2.4456,
	"step": 3
	},
	{
	"epoch": 0.002952029520295203,
	"grad_norm": 824.5645141601562,
	"learning_rate": 2.4600246002460025e-07,
	"loss": 2.6876,
	"step": 4
	},
	{
	"epoch": 0.0036900369003690036,
	"grad_norm": 790.6527099609375,
	"learning_rate": 3.075030750307503e-07,
	"loss": 2.4629,
	"step": 5
	},
	{
	"epoch": 0.004428044280442804,
	"grad_norm": 582.4039306640625,
	"learning_rate": 3.690036900369004e-07,
	"loss": 2.3769,
	"step": 6
	},
	{
	"epoch": 0.0051660516605166054,
	"grad_norm": 542.76513671875,
	"learning_rate": 4.3050430504305045e-07,
	"loss": 2.1601,
	"step": 7
	},
	{
	"epoch": 0.005904059040590406,
	"grad_norm": 570.0616455078125,
	"learning_rate": 4.920049200492005e-07,
	"loss": 2.1235,
	"step": 8
	},
	{
	"epoch": 0.006642066420664207,
	"grad_norm": 630.7283935546875,
	"learning_rate": 5.535055350553506e-07,
	"loss": 2.1857,
	"step": 9
	},
	{
	"epoch": 0.007380073800738007,
	"grad_norm": 397.8863220214844,
	"learning_rate": 6.150061500615006e-07,
	"loss": 1.9655,
	"step": 10
	},
	{
	"epoch": 0.008118081180811807,
	"grad_norm": 387.4375915527344,
	"learning_rate": 6.765067650676507e-07,
	"loss": 1.8162,
	"step": 11
	},
	{
	"epoch": 0.008856088560885609,
	"grad_norm": 261.5195617675781,
	"learning_rate": 7.380073800738008e-07,
	"loss": 1.8043,
	"step": 12
	},
	{
	"epoch": 0.00959409594095941,
	"grad_norm": 216.66661071777344,
	"learning_rate": 7.995079950799507e-07,
	"loss": 1.7341,
	"step": 13
	},
	{
	"epoch": 0.010332103321033211,
	"grad_norm": 200.43228149414062,
	"learning_rate": 8.610086100861009e-07,
	"loss": 1.6827,
	"step": 14
	},
	{
	"epoch": 0.01107011070110701,
	"grad_norm": 213.2593536376953,
	"learning_rate": 9.22509225092251e-07,
	"loss": 1.6452,
	"step": 15
	},
	{
	"epoch": 0.011808118081180811,
	"grad_norm": 146.7362518310547,
	"learning_rate": 9.84009840098401e-07,
	"loss": 1.6459,
	"step": 16
	},
	{
	"epoch": 0.012546125461254613,
	"grad_norm": 143.30966186523438,
	"learning_rate": 1.045510455104551e-06,
	"loss": 1.6676,
	"step": 17
	},
	{
	"epoch": 0.013284132841328414,
	"grad_norm": 177.24832153320312,
	"learning_rate": 1.1070110701107011e-06,
	"loss": 1.4307,
	"step": 18
	},
	{
	"epoch": 0.014022140221402213,
	"grad_norm": 134.13116455078125,
	"learning_rate": 1.1685116851168512e-06,
	"loss": 1.4712,
	"step": 19
	},
	{
	"epoch": 0.014760147601476014,
	"grad_norm": 107.87165069580078,
	"learning_rate": 1.2300123001230013e-06,
	"loss": 1.5757,
	"step": 20
	},
	{
	"epoch": 0.015498154981549815,
	"grad_norm": 100.48570251464844,
	"learning_rate": 1.2915129151291513e-06,
	"loss": 1.5647,
	"step": 21
	},
	{
	"epoch": 0.016236162361623615,
	"grad_norm": 96.30101776123047,
	"learning_rate": 1.3530135301353014e-06,
	"loss": 1.3431,
	"step": 22
	},
	{
	"epoch": 0.016974169741697416,
	"grad_norm": 99.80168151855469,
	"learning_rate": 1.4145141451414515e-06,
	"loss": 1.4753,
	"step": 23
	},
	{
	"epoch": 0.017712177121771217,
	"grad_norm": 86.59078216552734,
	"learning_rate": 1.4760147601476015e-06,
	"loss": 1.4402,
	"step": 24
	},
	{
	"epoch": 0.01845018450184502,
	"grad_norm": 107.12730407714844,
	"learning_rate": 1.5375153751537516e-06,
	"loss": 1.4129,
	"step": 25
	},
	{
	"epoch": 0.01918819188191882,
	"grad_norm": 86.11123657226562,
	"learning_rate": 1.5990159901599014e-06,
	"loss": 1.3141,
	"step": 26
	},
	{
	"epoch": 0.01992619926199262,
	"grad_norm": 81.71781158447266,
	"learning_rate": 1.6605166051660517e-06,
	"loss": 1.3644,
	"step": 27
	},
	{
	"epoch": 0.020664206642066422,
	"grad_norm": 81.71916961669922,
	"learning_rate": 1.7220172201722018e-06,
	"loss": 1.3631,
	"step": 28
	},
	{
	"epoch": 0.021402214022140223,
	"grad_norm": 65.515625,
	"learning_rate": 1.783517835178352e-06,
	"loss": 1.3915,
	"step": 29
	},
	{
	"epoch": 0.02214022140221402,
	"grad_norm": 82.60952758789062,
	"learning_rate": 1.845018450184502e-06,
	"loss": 1.2512,
	"step": 30
	},
	{
	"epoch": 0.022878228782287822,
	"grad_norm": 78.03673553466797,
	"learning_rate": 1.9065190651906518e-06,
	"loss": 1.4272,
	"step": 31
	},
	{
	"epoch": 0.023616236162361623,
	"grad_norm": 73.9189453125,
	"learning_rate": 1.968019680196802e-06,
	"loss": 1.3549,
	"step": 32
	},
	{
	"epoch": 0.024354243542435424,
	"grad_norm": 75.15375518798828,
	"learning_rate": 2.029520295202952e-06,
	"loss": 1.1933,
	"step": 33
	},
	{
	"epoch": 0.025092250922509225,
	"grad_norm": 68.5103530883789,
	"learning_rate": 2.091020910209102e-06,
	"loss": 1.2598,
	"step": 34
	},
	{
	"epoch": 0.025830258302583026,
	"grad_norm": 63.10990905761719,
	"learning_rate": 2.1525215252152524e-06,
	"loss": 1.2143,
	"step": 35
	},
	{
	"epoch": 0.026568265682656828,
	"grad_norm": 75.12173461914062,
	"learning_rate": 2.2140221402214023e-06,
	"loss": 1.2827,
	"step": 36
	},
	{
	"epoch": 0.02730627306273063,
	"grad_norm": 69.23287963867188,
	"learning_rate": 2.2755227552275526e-06,
	"loss": 1.4106,
	"step": 37
	},
	{
	"epoch": 0.028044280442804426,
	"grad_norm": 82.09547424316406,
	"learning_rate": 2.3370233702337024e-06,
	"loss": 1.1135,
	"step": 38
	},
	{
	"epoch": 0.028782287822878228,
	"grad_norm": 89.76222229003906,
	"learning_rate": 2.3985239852398527e-06,
	"loss": 1.3469,
	"step": 39
	},
	{
	"epoch": 0.02952029520295203,
	"grad_norm": 75.77232360839844,
	"learning_rate": 2.4600246002460025e-06,
	"loss": 1.1857,
	"step": 40
	},
	{
	"epoch": 0.03025830258302583,
	"grad_norm": 64.25336456298828,
	"learning_rate": 2.5215252152521524e-06,
	"loss": 1.2452,
	"step": 41
	},
	{
	"epoch": 0.03099630996309963,
	"grad_norm": 64.85978698730469,
	"learning_rate": 2.5830258302583027e-06,
	"loss": 1.1511,
	"step": 42
	},
	{
	"epoch": 0.03173431734317343,
	"grad_norm": 61.36198043823242,
	"learning_rate": 2.6445264452644525e-06,
	"loss": 1.1056,
	"step": 43
	},
	{
	"epoch": 0.03247232472324723,
	"grad_norm": 63.63357925415039,
	"learning_rate": 2.706027060270603e-06,
	"loss": 1.3231,
	"step": 44
	},
	{
	"epoch": 0.033210332103321034,
	"grad_norm": 60.254825592041016,
	"learning_rate": 2.767527675276753e-06,
	"loss": 1.1552,
	"step": 45
	},
	{
	"epoch": 0.03394833948339483,
	"grad_norm": 69.51408386230469,
	"learning_rate": 2.829028290282903e-06,
	"loss": 1.2972,
	"step": 46
	},
	{
	"epoch": 0.03468634686346864,
	"grad_norm": 60.74787902832031,
	"learning_rate": 2.890528905289053e-06,
	"loss": 1.2444,
	"step": 47
	},
	{
	"epoch": 0.035424354243542434,
	"grad_norm": 62.291412353515625,
	"learning_rate": 2.952029520295203e-06,
	"loss": 1.2342,
	"step": 48
	},
	{
	"epoch": 0.03616236162361624,
	"grad_norm": 67.48091125488281,
	"learning_rate": 3.0135301353013533e-06,
	"loss": 1.2894,
	"step": 49
	},
	{
	"epoch": 0.03690036900369004,
	"grad_norm": 57.86232376098633,
	"learning_rate": 3.075030750307503e-06,
	"loss": 1.1071,
	"step": 50
	},
	{
	"epoch": 0.037638376383763834,
	"grad_norm": 62.488731384277344,
	"learning_rate": 3.136531365313653e-06,
	"loss": 1.2249,
	"step": 51
	},
	{
	"epoch": 0.03837638376383764,
	"grad_norm": 56.59815979003906,
	"learning_rate": 3.198031980319803e-06,
	"loss": 1.2616,
	"step": 52
	},
	{
	"epoch": 0.03911439114391144,
	"grad_norm": 58.92403030395508,
	"learning_rate": 3.2595325953259536e-06,
	"loss": 1.2147,
	"step": 53
	},
	{
	"epoch": 0.03985239852398524,
	"grad_norm": 63.04093933105469,
	"learning_rate": 3.3210332103321034e-06,
	"loss": 1.2363,
	"step": 54
	},
	{
	"epoch": 0.04059040590405904,
	"grad_norm": 57.72414779663086,
	"learning_rate": 3.3825338253382537e-06,
	"loss": 1.1719,
	"step": 55
	},
	{
	"epoch": 0.041328413284132844,
	"grad_norm": 61.95828628540039,
	"learning_rate": 3.4440344403444036e-06,
	"loss": 1.1956,
	"step": 56
	},
	{
	"epoch": 0.04206642066420664,
	"grad_norm": 58.07041549682617,
	"learning_rate": 3.5055350553505534e-06,
	"loss": 1.1326,
	"step": 57
	},
	{
	"epoch": 0.042804428044280446,
	"grad_norm": 61.18100357055664,
	"learning_rate": 3.567035670356704e-06,
	"loss": 1.2313,
	"step": 58
	},
	{
	"epoch": 0.043542435424354244,
	"grad_norm": 58.01974868774414,
	"learning_rate": 3.628536285362854e-06,
	"loss": 1.1833,
	"step": 59
	},
	{
	"epoch": 0.04428044280442804,
	"grad_norm": 58.43510437011719,
	"learning_rate": 3.690036900369004e-06,
	"loss": 1.232,
	"step": 60
	},
	{
	"epoch": 0.045018450184501846,
	"grad_norm": 56.53025817871094,
	"learning_rate": 3.7515375153751537e-06,
	"loss": 1.202,
	"step": 61
	},
	{
	"epoch": 0.045756457564575644,
	"grad_norm": 59.623043060302734,
	"learning_rate": 3.8130381303813035e-06,
	"loss": 1.2188,
	"step": 62
	},
	{
	"epoch": 0.04649446494464945,
	"grad_norm": 54.90254211425781,
	"learning_rate": 3.874538745387454e-06,
	"loss": 1.1324,
	"step": 63
	},
	{
	"epoch": 0.047232472324723246,
	"grad_norm": 56.264732360839844,
	"learning_rate": 3.936039360393604e-06,
	"loss": 1.1797,
	"step": 64
	},
	{
	"epoch": 0.04797047970479705,
	"grad_norm": 56.26121520996094,
	"learning_rate": 3.997539975399754e-06,
	"loss": 1.1777,
	"step": 65
	},
	{
	"epoch": 0.04870848708487085,
	"grad_norm": 53.94155502319336,
	"learning_rate": 4.059040590405904e-06,
	"loss": 1.1077,
	"step": 66
	},
	{
	"epoch": 0.04944649446494465,
	"grad_norm": 56.105831146240234,
	"learning_rate": 4.120541205412054e-06,
	"loss": 1.1559,
	"step": 67
	},
	{
	"epoch": 0.05018450184501845,
	"grad_norm": 65.91514587402344,
	"learning_rate": 4.182041820418204e-06,
	"loss": 1.0554,
	"step": 68
	},
	{
	"epoch": 0.05092250922509225,
	"grad_norm": 67.19110107421875,
	"learning_rate": 4.243542435424354e-06,
	"loss": 1.2161,
	"step": 69
	},
	{
	"epoch": 0.05166051660516605,
	"grad_norm": 55.92790603637695,
	"learning_rate": 4.305043050430505e-06,
	"loss": 1.2577,
	"step": 70
	},
	{
	"epoch": 0.05239852398523985,
	"grad_norm": 61.967750549316406,
	"learning_rate": 4.366543665436655e-06,
	"loss": 1.1944,
	"step": 71
	},
	{
	"epoch": 0.053136531365313655,
	"grad_norm": 54.48695373535156,
	"learning_rate": 4.428044280442805e-06,
	"loss": 0.9314,
	"step": 72
	},
	{
	"epoch": 0.05387453874538745,
	"grad_norm": 59.03939437866211,
	"learning_rate": 4.489544895448955e-06,
	"loss": 1.2708,
	"step": 73
	},
	{
	"epoch": 0.05461254612546126,
	"grad_norm": 57.15635299682617,
	"learning_rate": 4.551045510455105e-06,
	"loss": 1.1294,
	"step": 74
	},
	{
	"epoch": 0.055350553505535055,
	"grad_norm": 57.40306091308594,
	"learning_rate": 4.612546125461255e-06,
	"loss": 1.0417,
	"step": 75
	},
	{
	"epoch": 0.05608856088560885,
	"grad_norm": 114.00467681884766,
	"learning_rate": 4.674046740467405e-06,
	"loss": 1.0973,
	"step": 76
	},
	{
	"epoch": 0.05682656826568266,
	"grad_norm": 55.897666931152344,
	"learning_rate": 4.735547355473555e-06,
	"loss": 1.024,
	"step": 77
	},
	{
	"epoch": 0.057564575645756455,
	"grad_norm": 54.696266174316406,
	"learning_rate": 4.797047970479705e-06,
	"loss": 1.0549,
	"step": 78
	},
	{
	"epoch": 0.05830258302583026,
	"grad_norm": 58.518489837646484,
	"learning_rate": 4.858548585485855e-06,
	"loss": 1.1007,
	"step": 79
	},
	{
	"epoch": 0.05904059040590406,
	"grad_norm": 55.24943923950195,
	"learning_rate": 4.920049200492005e-06,
	"loss": 1.223,
	"step": 80
	},
	{
	"epoch": 0.05977859778597786,
	"grad_norm": 55.647605895996094,
	"learning_rate": 4.981549815498155e-06,
	"loss": 1.0745,
	"step": 81
	},
	{
	"epoch": 0.06051660516605166,
	"grad_norm": 52.201297760009766,
	"learning_rate": 5.043050430504305e-06,
	"loss": 1.1459,
	"step": 82
	},
	{
	"epoch": 0.061254612546125464,
	"grad_norm": 49.60506820678711,
	"learning_rate": 5.1045510455104555e-06,
	"loss": 1.0853,
	"step": 83
	},
	{
	"epoch": 0.06199261992619926,
	"grad_norm": 53.66012191772461,
	"learning_rate": 5.166051660516605e-06,
	"loss": 0.999,
	"step": 84
	},
	{
	"epoch": 0.06273062730627306,
	"grad_norm": 58.5854606628418,
	"learning_rate": 5.227552275522755e-06,
	"loss": 1.3074,
	"step": 85
	},
	{
	"epoch": 0.06346863468634686,
	"grad_norm": 58.91031265258789,
	"learning_rate": 5.289052890528905e-06,
	"loss": 1.0567,
	"step": 86
	},
	{
	"epoch": 0.06420664206642067,
	"grad_norm": 57.29990005493164,
	"learning_rate": 5.350553505535055e-06,
	"loss": 1.1709,
	"step": 87
	},
	{
	"epoch": 0.06494464944649446,
	"grad_norm": 48.71859359741211,
	"learning_rate": 5.412054120541206e-06,
	"loss": 1.2049,
	"step": 88
	},
	{
	"epoch": 0.06568265682656826,
	"grad_norm": 50.770084381103516,
	"learning_rate": 5.4735547355473555e-06,
	"loss": 0.9872,
	"step": 89
	},
	{
	"epoch": 0.06642066420664207,
	"grad_norm": 58.15389633178711,
	"learning_rate": 5.535055350553506e-06,
	"loss": 1.0798,
	"step": 90
	},
	{
	"epoch": 0.06715867158671587,
	"grad_norm": 61.212825775146484,
	"learning_rate": 5.596555965559656e-06,
	"loss": 1.0654,
	"step": 91
	},
	{
	"epoch": 0.06789667896678966,
	"grad_norm": 56.70602798461914,
	"learning_rate": 5.658056580565806e-06,
	"loss": 1.1565,
	"step": 92
	},
	{
	"epoch": 0.06863468634686347,
	"grad_norm": 54.07913589477539,
	"learning_rate": 5.7195571955719566e-06,
	"loss": 1.1315,
	"step": 93
	},
	{
	"epoch": 0.06937269372693727,
	"grad_norm": 55.931495666503906,
	"learning_rate": 5.781057810578106e-06,
	"loss": 1.0347,
	"step": 94
	},
	{
	"epoch": 0.07011070110701106,
	"grad_norm": 58.78949737548828,
	"learning_rate": 5.842558425584256e-06,
	"loss": 1.1858,
	"step": 95
	},
	{
	"epoch": 0.07084870848708487,
	"grad_norm": 53.04726791381836,
	"learning_rate": 5.904059040590406e-06,
	"loss": 1.1227,
	"step": 96
	},
	{
	"epoch": 0.07158671586715867,
	"grad_norm": 51.182315826416016,
	"learning_rate": 5.965559655596556e-06,
	"loss": 1.1926,
	"step": 97
	},
	{
	"epoch": 0.07232472324723248,
	"grad_norm": 55.08806610107422,
	"learning_rate": 6.027060270602707e-06,
	"loss": 1.1339,
	"step": 98
	},
	{
	"epoch": 0.07306273062730627,
	"grad_norm": 53.554542541503906,
	"learning_rate": 6.0885608856088565e-06,
	"loss": 1.1762,
	"step": 99
	},
	{
	"epoch": 0.07380073800738007,
	"grad_norm": 56.95305252075195,
	"learning_rate": 6.150061500615006e-06,
	"loss": 1.1414,
	"step": 100
	},
	{
	"epoch": 0.07380073800738007,
	"eval_loss": 1.4010363817214966,
	"eval_runtime": 325.9171,
	"eval_samples_per_second": 3.525,
	"eval_steps_per_second": 0.295,
	"step": 100
	},
	{
	"epoch": 0.07453874538745388,
	"grad_norm": 51.188621520996094,
	"learning_rate": 6.211562115621156e-06,
	"loss": 1.129,
	"step": 101
	},
	{
	"epoch": 0.07527675276752767,
	"grad_norm": 55.20896530151367,
	"learning_rate": 6.273062730627306e-06,
	"loss": 1.1451,
	"step": 102
	},
	{
	"epoch": 0.07601476014760147,
	"grad_norm": 49.773399353027344,
	"learning_rate": 6.334563345633457e-06,
	"loss": 1.2308,
	"step": 103
	},
	{
	"epoch": 0.07675276752767528,
	"grad_norm": 52.89494323730469,
	"learning_rate": 6.396063960639606e-06,
	"loss": 1.2243,
	"step": 104
	},
	{
	"epoch": 0.07749077490774908,
	"grad_norm": 53.44047546386719,
	"learning_rate": 6.4575645756457565e-06,
	"loss": 1.0611,
	"step": 105
	},
	{
	"epoch": 0.07822878228782287,
	"grad_norm": 53.227176666259766,
	"learning_rate": 6.519065190651907e-06,
	"loss": 1.0153,
	"step": 106
	},
	{
	"epoch": 0.07896678966789668,
	"grad_norm": 53.29740524291992,
	"learning_rate": 6.580565805658056e-06,
	"loss": 1.0539,
	"step": 107
	},
	{
	"epoch": 0.07970479704797048,
	"grad_norm": 52.415748596191406,
	"learning_rate": 6.642066420664207e-06,
	"loss": 1.1556,
	"step": 108
	},
	{
	"epoch": 0.08044280442804429,
	"grad_norm": 52.891544342041016,
	"learning_rate": 6.703567035670357e-06,
	"loss": 1.0613,
	"step": 109
	},
	{
	"epoch": 0.08118081180811808,
	"grad_norm": 56.652835845947266,
	"learning_rate": 6.7650676506765074e-06,
	"loss": 1.053,
	"step": 110
	},
	{
	"epoch": 0.08191881918819188,
	"grad_norm": 52.22764587402344,
	"learning_rate": 6.826568265682657e-06,
	"loss": 1.0757,
	"step": 111
	},
	{
	"epoch": 0.08265682656826569,
	"grad_norm": 51.05937576293945,
	"learning_rate": 6.888068880688807e-06,
	"loss": 1.1943,
	"step": 112
	},
	{
	"epoch": 0.08339483394833948,
	"grad_norm": 53.054378509521484,
	"learning_rate": 6.949569495694958e-06,
	"loss": 1.0704,
	"step": 113
	},
	{
	"epoch": 0.08413284132841328,
	"grad_norm": 54.2965202331543,
	"learning_rate": 7.011070110701107e-06,
	"loss": 1.0442,
	"step": 114
	},
	{
	"epoch": 0.08487084870848709,
	"grad_norm": 52.170867919921875,
	"learning_rate": 7.0725707257072575e-06,
	"loss": 1.2318,
	"step": 115
	},
	{
	"epoch": 0.08560885608856089,
	"grad_norm": 51.29275894165039,
	"learning_rate": 7.134071340713408e-06,
	"loss": 1.0306,
	"step": 116
	},
	{
	"epoch": 0.08634686346863468,
	"grad_norm": 54.07830047607422,
	"learning_rate": 7.195571955719557e-06,
	"loss": 1.1537,
	"step": 117
	},
	{
	"epoch": 0.08708487084870849,
	"grad_norm": 47.52810287475586,
	"learning_rate": 7.257072570725708e-06,
	"loss": 1.1096,
	"step": 118
	},
	{
	"epoch": 0.08782287822878229,
	"grad_norm": 52.45383071899414,
	"learning_rate": 7.318573185731857e-06,
	"loss": 1.0466,
	"step": 119
	},
	{
	"epoch": 0.08856088560885608,
	"grad_norm": 51.74037551879883,
	"learning_rate": 7.380073800738008e-06,
	"loss": 1.0032,
	"step": 120
	},
	{
	"epoch": 0.08929889298892989,
	"grad_norm": 52.04569625854492,
	"learning_rate": 7.441574415744158e-06,
	"loss": 1.1626,
	"step": 121
	},
	{
	"epoch": 0.09003690036900369,
	"grad_norm": 51.20045852661133,
	"learning_rate": 7.503075030750307e-06,
	"loss": 1.1133,
	"step": 122
	},
	{
	"epoch": 0.0907749077490775,
	"grad_norm": 50.70725631713867,
	"learning_rate": 7.564575645756458e-06,
	"loss": 1.1191,
	"step": 123
	},
	{
	"epoch": 0.09151291512915129,
	"grad_norm": 50.703460693359375,
	"learning_rate": 7.626076260762607e-06,
	"loss": 1.0609,
	"step": 124
	},
	{
	"epoch": 0.09225092250922509,
	"grad_norm": 53.20537185668945,
	"learning_rate": 7.687576875768759e-06,
	"loss": 1.1237,
	"step": 125
	},
	{
	"epoch": 0.0929889298892989,
	"grad_norm": 51.74738693237305,
	"learning_rate": 7.749077490774908e-06,
	"loss": 1.1255,
	"step": 126
	},
	{
	"epoch": 0.09372693726937269,
	"grad_norm": 47.27532958984375,
	"learning_rate": 7.810578105781058e-06,
	"loss": 1.0753,
	"step": 127
	},
	{
	"epoch": 0.09446494464944649,
	"grad_norm": 46.608150482177734,
	"learning_rate": 7.872078720787208e-06,
	"loss": 1.0709,
	"step": 128
	},
	{
	"epoch": 0.0952029520295203,
	"grad_norm": 52.357460021972656,
	"learning_rate": 7.933579335793358e-06,
	"loss": 1.1539,
	"step": 129
	},
	{
	"epoch": 0.0959409594095941,
	"grad_norm": 48.45564270019531,
	"learning_rate": 7.995079950799508e-06,
	"loss": 1.1129,
	"step": 130
	},
	{
	"epoch": 0.09667896678966789,
	"grad_norm": 52.05830383300781,
	"learning_rate": 8.05658056580566e-06,
	"loss": 1.1821,
	"step": 131
	},
	{
	"epoch": 0.0974169741697417,
	"grad_norm": 53.559852600097656,
	"learning_rate": 8.118081180811808e-06,
	"loss": 1.1161,
	"step": 132
	},
	{
	"epoch": 0.0981549815498155,
	"grad_norm": 54.30366134643555,
	"learning_rate": 8.179581795817959e-06,
	"loss": 1.0108,
	"step": 133
	},
	{
	"epoch": 0.0988929889298893,
	"grad_norm": 49.463932037353516,
	"learning_rate": 8.241082410824107e-06,
	"loss": 1.0384,
	"step": 134
	},
	{
	"epoch": 0.0996309963099631,
	"grad_norm": 73.52909088134766,
	"learning_rate": 8.302583025830259e-06,
	"loss": 1.1694,
	"step": 135
	},
	{
	"epoch": 0.1003690036900369,
	"grad_norm": 45.32145309448242,
	"learning_rate": 8.364083640836409e-06,
	"loss": 1.0721,
	"step": 136
	},
	{
	"epoch": 0.1011070110701107,
	"grad_norm": 51.58095932006836,
	"learning_rate": 8.425584255842559e-06,
	"loss": 0.9633,
	"step": 137
	},
	{
	"epoch": 0.1018450184501845,
	"grad_norm": 52.928436279296875,
	"learning_rate": 8.487084870848708e-06,
	"loss": 1.0783,
	"step": 138
	},
	{
	"epoch": 0.1025830258302583,
	"grad_norm": 48.393550872802734,
	"learning_rate": 8.548585485854858e-06,
	"loss": 0.9844,
	"step": 139
	},
	{
	"epoch": 0.1033210332103321,
	"grad_norm": 46.03611373901367,
	"learning_rate": 8.61008610086101e-06,
	"loss": 1.1052,
	"step": 140
	},
	{
	"epoch": 0.10405904059040591,
	"grad_norm": 49.10841751098633,
	"learning_rate": 8.67158671586716e-06,
	"loss": 1.1086,
	"step": 141
	},
	{
	"epoch": 0.1047970479704797,
	"grad_norm": 47.779212951660156,
	"learning_rate": 8.73308733087331e-06,
	"loss": 1.1376,
	"step": 142
	},
	{
	"epoch": 0.1055350553505535,
	"grad_norm": 51.112693786621094,
	"learning_rate": 8.79458794587946e-06,
	"loss": 1.1465,
	"step": 143
	},
	{
	"epoch": 0.10627306273062731,
	"grad_norm": 43.86711502075195,
	"learning_rate": 8.85608856088561e-06,
	"loss": 0.9845,
	"step": 144
	},
	{
	"epoch": 0.1070110701107011,
	"grad_norm": 45.53451156616211,
	"learning_rate": 8.917589175891759e-06,
	"loss": 1.1196,
	"step": 145
	},
	{
	"epoch": 0.1077490774907749,
	"grad_norm": 51.35363006591797,
	"learning_rate": 8.97908979089791e-06,
	"loss": 1.0202,
	"step": 146
	},
	{
	"epoch": 0.10848708487084871,
	"grad_norm": 45.318607330322266,
	"learning_rate": 9.040590405904059e-06,
	"loss": 1.0156,
	"step": 147
	},
	{
	"epoch": 0.10922509225092251,
	"grad_norm": 45.83018493652344,
	"learning_rate": 9.10209102091021e-06,
	"loss": 0.9637,
	"step": 148
	},
	{
	"epoch": 0.1099630996309963,
	"grad_norm": 52.667728424072266,
	"learning_rate": 9.163591635916358e-06,
	"loss": 1.0344,
	"step": 149
	},
	{
	"epoch": 0.11070110701107011,
	"grad_norm": 49.742897033691406,
	"learning_rate": 9.22509225092251e-06,
	"loss": 0.9486,
	"step": 150
	},
	{
	"epoch": 0.11143911439114391,
	"grad_norm": 50.35558319091797,
	"learning_rate": 9.28659286592866e-06,
	"loss": 1.1685,
	"step": 151
	},
	{
	"epoch": 0.1121771217712177,
	"grad_norm": 49.48957824707031,
	"learning_rate": 9.34809348093481e-06,
	"loss": 0.9666,
	"step": 152
	},
	{
	"epoch": 0.11291512915129151,
	"grad_norm": 46.834129333496094,
	"learning_rate": 9.40959409594096e-06,
	"loss": 1.0137,
	"step": 153
	},
	{
	"epoch": 0.11365313653136531,
	"grad_norm": 46.92979049682617,
	"learning_rate": 9.47109471094711e-06,
	"loss": 1.042,
	"step": 154
	},
	{
	"epoch": 0.11439114391143912,
	"grad_norm": 43.96043014526367,
	"learning_rate": 9.53259532595326e-06,
	"loss": 1.0363,
	"step": 155
	},
	{
	"epoch": 0.11512915129151291,
	"grad_norm": 48.00889587402344,
	"learning_rate": 9.59409594095941e-06,
	"loss": 0.9697,
	"step": 156
	},
	{
	"epoch": 0.11586715867158671,
	"grad_norm": 50.71873474121094,
	"learning_rate": 9.65559655596556e-06,
	"loss": 1.1216,
	"step": 157
	},
	{
	"epoch": 0.11660516605166052,
	"grad_norm": 51.51930236816406,
	"learning_rate": 9.71709717097171e-06,
	"loss": 1.0876,
	"step": 158
	},
	{
	"epoch": 0.11734317343173432,
	"grad_norm": 44.15366744995117,
	"learning_rate": 9.77859778597786e-06,
	"loss": 1.0607,
	"step": 159
	},
	{
	"epoch": 0.11808118081180811,
	"grad_norm": 41.848602294921875,
	"learning_rate": 9.84009840098401e-06,
	"loss": 1.0026,
	"step": 160
	},
	{
	"epoch": 0.11881918819188192,
	"grad_norm": 45.18868637084961,
	"learning_rate": 9.90159901599016e-06,
	"loss": 1.1803,
	"step": 161
	},
	{
	"epoch": 0.11955719557195572,
	"grad_norm": 45.788673400878906,
	"learning_rate": 9.96309963099631e-06,
	"loss": 1.1451,
	"step": 162
	},
	{
	"epoch": 0.12029520295202951,
	"grad_norm": 46.45803451538086,
	"learning_rate": 1.0024600246002461e-05,
	"loss": 0.9769,
	"step": 163
	},
	{
	"epoch": 0.12103321033210332,
	"grad_norm": 46.782840728759766,
	"learning_rate": 1.008610086100861e-05,
	"loss": 1.2505,
	"step": 164
	},
	{
	"epoch": 0.12177121771217712,
	"grad_norm": 45.39817810058594,
	"learning_rate": 1.0147601476014761e-05,
	"loss": 1.0927,
	"step": 165
	},
	{
	"epoch": 0.12250922509225093,
	"grad_norm": 43.27733612060547,
	"learning_rate": 1.0209102091020911e-05,
	"loss": 1.1247,
	"step": 166
	},
	{
	"epoch": 0.12324723247232472,
	"grad_norm": 47.766231536865234,
	"learning_rate": 1.027060270602706e-05,
	"loss": 1.079,
	"step": 167
	},
	{
	"epoch": 0.12398523985239852,
	"grad_norm": 46.73952865600586,
	"learning_rate": 1.033210332103321e-05,
	"loss": 0.8357,
	"step": 168
	},
	{
	"epoch": 0.12472324723247233,
	"grad_norm": 46.83552551269531,
	"learning_rate": 1.039360393603936e-05,
	"loss": 1.2159,
	"step": 169
	},
	{
	"epoch": 0.12546125461254612,
	"grad_norm": 44.146846771240234,
	"learning_rate": 1.045510455104551e-05,
	"loss": 0.9941,
	"step": 170
	},
	{
	"epoch": 0.12619926199261994,
	"grad_norm": 45.29106140136719,
	"learning_rate": 1.0516605166051662e-05,
	"loss": 1.1314,
	"step": 171
	},
	{
	"epoch": 0.12693726937269373,
	"grad_norm": 46.10059356689453,
	"learning_rate": 1.057810578105781e-05,
	"loss": 1.0239,
	"step": 172
	},
	{
	"epoch": 0.12767527675276752,
	"grad_norm": 42.55729293823242,
	"learning_rate": 1.0639606396063962e-05,
	"loss": 1.0389,
	"step": 173
	},
	{
	"epoch": 0.12841328413284134,
	"grad_norm": 43.775760650634766,
	"learning_rate": 1.070110701107011e-05,
	"loss": 1.1492,
	"step": 174
	},
	{
	"epoch": 0.12915129151291513,
	"grad_norm": 42.141910552978516,
	"learning_rate": 1.0762607626076261e-05,
	"loss": 1.092,
	"step": 175
	},
	{
	"epoch": 0.12988929889298892,
	"grad_norm": 44.42767333984375,
	"learning_rate": 1.0824108241082411e-05,
	"loss": 1.1159,
	"step": 176
	},
	{
	"epoch": 0.13062730627306274,
	"grad_norm": 38.9581184387207,
	"learning_rate": 1.0885608856088561e-05,
	"loss": 1.0921,
	"step": 177
	},
	{
	"epoch": 0.13136531365313653,
	"grad_norm": 43.585147857666016,
	"learning_rate": 1.0947109471094711e-05,
	"loss": 1.0784,
	"step": 178
	},
	{
	"epoch": 0.13210332103321032,
	"grad_norm": 49.25750732421875,
	"learning_rate": 1.100861008610086e-05,
	"loss": 1.1589,
	"step": 179
	},
	{
	"epoch": 0.13284132841328414,
	"grad_norm": 38.27066421508789,
	"learning_rate": 1.1070110701107012e-05,
	"loss": 0.9549,
	"step": 180
	},
	{
	"epoch": 0.13357933579335793,
	"grad_norm": 43.95482635498047,
	"learning_rate": 1.1131611316113162e-05,
	"loss": 1.1084,
	"step": 181
	},
	{
	"epoch": 0.13431734317343175,
	"grad_norm": 47.86146926879883,
	"learning_rate": 1.1193111931119312e-05,
	"loss": 1.0305,
	"step": 182
	},
	{
	"epoch": 0.13505535055350554,
	"grad_norm": 41.17548370361328,
	"learning_rate": 1.1254612546125462e-05,
	"loss": 1.0341,
	"step": 183
	},
	{
	"epoch": 0.13579335793357933,
	"grad_norm": 50.34139633178711,
	"learning_rate": 1.1316113161131612e-05,
	"loss": 0.9769,
	"step": 184
	},
	{
	"epoch": 0.13653136531365315,
	"grad_norm": 41.7880973815918,
	"learning_rate": 1.1377613776137762e-05,
	"loss": 1.047,
	"step": 185
	},
	{
	"epoch": 0.13726937269372694,
	"grad_norm": 43.598392486572266,
	"learning_rate": 1.1439114391143913e-05,
	"loss": 0.9553,
	"step": 186
	},
	{
	"epoch": 0.13800738007380073,
	"grad_norm": 44.27220153808594,
	"learning_rate": 1.1500615006150061e-05,
	"loss": 1.1314,
	"step": 187
	},
	{
	"epoch": 0.13874538745387455,
	"grad_norm": 38.91771697998047,
	"learning_rate": 1.1562115621156213e-05,
	"loss": 1.0132,
	"step": 188
	},
	{
	"epoch": 0.13948339483394834,
	"grad_norm": 44.32412338256836,
	"learning_rate": 1.1623616236162361e-05,
	"loss": 1.0672,
	"step": 189
	},
	{
	"epoch": 0.14022140221402213,
	"grad_norm": 43.45479202270508,
	"learning_rate": 1.1685116851168513e-05,
	"loss": 1.0519,
	"step": 190
	},
	{
	"epoch": 0.14095940959409595,
	"grad_norm": 46.94374084472656,
	"learning_rate": 1.1746617466174662e-05,
	"loss": 1.0721,
	"step": 191
	},
	{
	"epoch": 0.14169741697416974,
	"grad_norm": 48.714927673339844,
	"learning_rate": 1.1808118081180812e-05,
	"loss": 1.095,
	"step": 192
	},
	{
	"epoch": 0.14243542435424356,
	"grad_norm": 48.29472732543945,
	"learning_rate": 1.1869618696186962e-05,
	"loss": 1.1482,
	"step": 193
	},
	{
	"epoch": 0.14317343173431735,
	"grad_norm": 43.912288665771484,
	"learning_rate": 1.1931119311193112e-05,
	"loss": 1.0994,
	"step": 194
	},
	{
	"epoch": 0.14391143911439114,
	"grad_norm": 41.308799743652344,
	"learning_rate": 1.1992619926199262e-05,
	"loss": 1.2074,
	"step": 195
	},
	{
	"epoch": 0.14464944649446496,
	"grad_norm": 43.36037826538086,
	"learning_rate": 1.2054120541205413e-05,
	"loss": 1.1435,
	"step": 196
	},
	{
	"epoch": 0.14538745387453875,
	"grad_norm": 40.67462158203125,
	"learning_rate": 1.2115621156211563e-05,
	"loss": 0.9609,
	"step": 197
	},
	{
	"epoch": 0.14612546125461254,
	"grad_norm": 43.331241607666016,
	"learning_rate": 1.2177121771217713e-05,
	"loss": 1.0909,
	"step": 198
	},
	{
	"epoch": 0.14686346863468636,
	"grad_norm": 41.213863372802734,
	"learning_rate": 1.2238622386223863e-05,
	"loss": 1.0955,
	"step": 199
	},
	{
	"epoch": 0.14760147601476015,
	"grad_norm": 43.54401397705078,
	"learning_rate": 1.2300123001230013e-05,
	"loss": 1.1855,
	"step": 200
	},
	{
	"epoch": 0.14760147601476015,
	"eval_loss": 1.3390393257141113,
	"eval_runtime": 355.9656,
	"eval_samples_per_second": 3.228,
	"eval_steps_per_second": 0.27,
	"step": 200
	},
	{
	"epoch": 0.14833948339483394,
	"grad_norm": 45.116146087646484,
	"learning_rate": 1.2361623616236164e-05,
	"loss": 1.1331,
	"step": 201
	},
	{
	"epoch": 0.14907749077490776,
	"grad_norm": 48.80164337158203,
	"learning_rate": 1.2423124231242312e-05,
	"loss": 1.157,
	"step": 202
	},
	{
	"epoch": 0.14981549815498155,
	"grad_norm": 41.02751922607422,
	"learning_rate": 1.2484624846248464e-05,
	"loss": 1.1237,
	"step": 203
	},
	{
	"epoch": 0.15055350553505534,
	"grad_norm": 42.61967086791992,
	"learning_rate": 1.2546125461254612e-05,
	"loss": 1.1693,
	"step": 204
	},
	{
	"epoch": 0.15129151291512916,
	"grad_norm": 43.75822067260742,
	"learning_rate": 1.2607626076260764e-05,
	"loss": 1.1545,
	"step": 205
	},
	{
	"epoch": 0.15202952029520295,
	"grad_norm": 40.50026321411133,
	"learning_rate": 1.2669126691266914e-05,
	"loss": 1.061,
	"step": 206
	},
	{
	"epoch": 0.15276752767527677,
	"grad_norm": 41.14898681640625,
	"learning_rate": 1.2730627306273063e-05,
	"loss": 0.9864,
	"step": 207
	},
	{
	"epoch": 0.15350553505535056,
	"grad_norm": 44.43930435180664,
	"learning_rate": 1.2792127921279212e-05,
	"loss": 1.0444,
	"step": 208
	},
	{
	"epoch": 0.15424354243542435,
	"grad_norm": 42.351226806640625,
	"learning_rate": 1.2853628536285365e-05,
	"loss": 1.0966,
	"step": 209
	},
	{
	"epoch": 0.15498154981549817,
	"grad_norm": 39.365440368652344,
	"learning_rate": 1.2915129151291513e-05,
	"loss": 1.0987,
	"step": 210
	},
	{
	"epoch": 0.15571955719557196,
	"grad_norm": 44.90658950805664,
	"learning_rate": 1.2976629766297663e-05,
	"loss": 1.0399,
	"step": 211
	},
	{
	"epoch": 0.15645756457564575,
	"grad_norm": 38.08787536621094,
	"learning_rate": 1.3038130381303814e-05,
	"loss": 0.9539,
	"step": 212
	},
	{
	"epoch": 0.15719557195571957,
	"grad_norm": 40.93101501464844,
	"learning_rate": 1.3099630996309964e-05,
	"loss": 0.9497,
	"step": 213
	},
	{
	"epoch": 0.15793357933579336,
	"grad_norm": 42.12691116333008,
	"learning_rate": 1.3161131611316112e-05,
	"loss": 1.0591,
	"step": 214
	},
	{
	"epoch": 0.15867158671586715,
	"grad_norm": 39.68405532836914,
	"learning_rate": 1.3222632226322266e-05,
	"loss": 1.1084,
	"step": 215
	},
	{
	"epoch": 0.15940959409594097,
	"grad_norm": 46.32451629638672,
	"learning_rate": 1.3284132841328414e-05,
	"loss": 0.9886,
	"step": 216
	},
	{
	"epoch": 0.16014760147601476,
	"grad_norm": 43.83405303955078,
	"learning_rate": 1.3345633456334564e-05,
	"loss": 1.0409,
	"step": 217
	},
	{
	"epoch": 0.16088560885608857,
	"grad_norm": 46.454429626464844,
	"learning_rate": 1.3407134071340713e-05,
	"loss": 0.927,
	"step": 218
	},
	{
	"epoch": 0.16162361623616237,
	"grad_norm": 43.32332229614258,
	"learning_rate": 1.3468634686346865e-05,
	"loss": 1.0885,
	"step": 219
	},
	{
	"epoch": 0.16236162361623616,
	"grad_norm": 38.92317581176758,
	"learning_rate": 1.3530135301353015e-05,
	"loss": 1.1205,
	"step": 220
	},
	{
	"epoch": 0.16309963099630997,
	"grad_norm": 36.57090759277344,
	"learning_rate": 1.3591635916359163e-05,
	"loss": 1.0607,
	"step": 221
	},
	{
	"epoch": 0.16383763837638377,
	"grad_norm": 39.162147521972656,
	"learning_rate": 1.3653136531365315e-05,
	"loss": 1.1395,
	"step": 222
	},
	{
	"epoch": 0.16457564575645756,
	"grad_norm": 40.069610595703125,
	"learning_rate": 1.3714637146371464e-05,
	"loss": 0.993,
	"step": 223
	},
	{
	"epoch": 0.16531365313653137,
	"grad_norm": 38.262664794921875,
	"learning_rate": 1.3776137761377614e-05,
	"loss": 1.0751,
	"step": 224
	},
	{
	"epoch": 0.16605166051660517,
	"grad_norm": 38.50648498535156,
	"learning_rate": 1.3837638376383766e-05,
	"loss": 1.0874,
	"step": 225
	},
	{
	"epoch": 0.16678966789667896,
	"grad_norm": 41.57286834716797,
	"learning_rate": 1.3899138991389916e-05,
	"loss": 1.061,
	"step": 226
	},
	{
	"epoch": 0.16752767527675277,
	"grad_norm": 38.842124938964844,
	"learning_rate": 1.3960639606396064e-05,
	"loss": 0.9865,
	"step": 227
	},
	{
	"epoch": 0.16826568265682657,
	"grad_norm": 40.79179382324219,
	"learning_rate": 1.4022140221402214e-05,
	"loss": 1.0104,
	"step": 228
	},
	{
	"epoch": 0.16900369003690036,
	"grad_norm": 40.540042877197266,
	"learning_rate": 1.4083640836408365e-05,
	"loss": 0.9352,
	"step": 229
	},
	{
	"epoch": 0.16974169741697417,
	"grad_norm": 39.385459899902344,
	"learning_rate": 1.4145141451414515e-05,
	"loss": 1.0731,
	"step": 230
	},
	{
	"epoch": 0.17047970479704797,
	"grad_norm": 40.35080337524414,
	"learning_rate": 1.4206642066420663e-05,
	"loss": 1.1106,
	"step": 231
	},
	{
	"epoch": 0.17121771217712178,
	"grad_norm": 37.7828254699707,
	"learning_rate": 1.4268142681426816e-05,
	"loss": 1.0902,
	"step": 232
	},
	{
	"epoch": 0.17195571955719557,
	"grad_norm": 38.59387969970703,
	"learning_rate": 1.4329643296432965e-05,
	"loss": 1.0837,
	"step": 233
	},
	{
	"epoch": 0.17269372693726937,
	"grad_norm": 40.220245361328125,
	"learning_rate": 1.4391143911439114e-05,
	"loss": 1.1002,
	"step": 234
	},
	{
	"epoch": 0.17343173431734318,
	"grad_norm": 41.30938720703125,
	"learning_rate": 1.4452644526445266e-05,
	"loss": 0.9605,
	"step": 235
	},
	{
	"epoch": 0.17416974169741697,
	"grad_norm": 42.54692840576172,
	"learning_rate": 1.4514145141451416e-05,
	"loss": 1.1135,
	"step": 236
	},
	{
	"epoch": 0.17490774907749077,
	"grad_norm": 38.45701217651367,
	"learning_rate": 1.4575645756457566e-05,
	"loss": 1.2065,
	"step": 237
	},
	{
	"epoch": 0.17564575645756458,
	"grad_norm": 40.34320068359375,
	"learning_rate": 1.4637146371463714e-05,
	"loss": 1.0331,
	"step": 238
	},
	{
	"epoch": 0.17638376383763837,
	"grad_norm": 39.82585144042969,
	"learning_rate": 1.4698646986469865e-05,
	"loss": 1.1597,
	"step": 239
	},
	{
	"epoch": 0.17712177121771217,
	"grad_norm": 39.45707321166992,
	"learning_rate": 1.4760147601476015e-05,
	"loss": 1.1008,
	"step": 240
	},
	{
	"epoch": 0.17785977859778598,
	"grad_norm": 37.564231872558594,
	"learning_rate": 1.4821648216482165e-05,
	"loss": 0.9734,
	"step": 241
	},
	{
	"epoch": 0.17859778597785977,
	"grad_norm": 40.75583267211914,
	"learning_rate": 1.4883148831488317e-05,
	"loss": 1.1324,
	"step": 242
	},
	{
	"epoch": 0.1793357933579336,
	"grad_norm": 36.91340255737305,
	"learning_rate": 1.4944649446494467e-05,
	"loss": 0.8858,
	"step": 243
	},
	{
	"epoch": 0.18007380073800738,
	"grad_norm": 41.43409729003906,
	"learning_rate": 1.5006150061500615e-05,
	"loss": 1.127,
	"step": 244
	},
	{
	"epoch": 0.18081180811808117,
	"grad_norm": 39.64106750488281,
	"learning_rate": 1.5067650676506768e-05,
	"loss": 1.0394,
	"step": 245
	},
	{
	"epoch": 0.181549815498155,
	"grad_norm": 39.24397277832031,
	"learning_rate": 1.5129151291512916e-05,
	"loss": 1.1139,
	"step": 246
	},
	{
	"epoch": 0.18228782287822878,
	"grad_norm": 39.08576965332031,
	"learning_rate": 1.5190651906519066e-05,
	"loss": 1.1373,
	"step": 247
	},
	{
	"epoch": 0.18302583025830257,
	"grad_norm": 37.38773727416992,
	"learning_rate": 1.5252152521525214e-05,
	"loss": 0.9942,
	"step": 248
	},
	{
	"epoch": 0.1837638376383764,
	"grad_norm": 39.011505126953125,
	"learning_rate": 1.5313653136531367e-05,
	"loss": 1.1033,
	"step": 249
	},
	{
	"epoch": 0.18450184501845018,
	"grad_norm": 38.647705078125,
	"learning_rate": 1.5375153751537517e-05,
	"loss": 1.0039,
	"step": 250
	},
	{
	"epoch": 0.18523985239852397,
	"grad_norm": 36.8840446472168,
	"learning_rate": 1.5436654366543664e-05,
	"loss": 1.037,
	"step": 251
	},
	{
	"epoch": 0.1859778597785978,
	"grad_norm": 39.59068298339844,
	"learning_rate": 1.5498154981549817e-05,
	"loss": 1.1113,
	"step": 252
	},
	{
	"epoch": 0.18671586715867158,
	"grad_norm": 35.01139450073242,
	"learning_rate": 1.5559655596555967e-05,
	"loss": 1.0766,
	"step": 253
	},
	{
	"epoch": 0.18745387453874537,
	"grad_norm": 42.80155944824219,
	"learning_rate": 1.5621156211562117e-05,
	"loss": 1.2052,
	"step": 254
	},
	{
	"epoch": 0.1881918819188192,
	"grad_norm": 37.67293930053711,
	"learning_rate": 1.5682656826568266e-05,
	"loss": 1.054,
	"step": 255
	},
	{
	"epoch": 0.18892988929889298,
	"grad_norm": 35.59282684326172,
	"learning_rate": 1.5744157441574416e-05,
	"loss": 1.1038,
	"step": 256
	},
	{
	"epoch": 0.1896678966789668,
	"grad_norm": 36.562198638916016,
	"learning_rate": 1.5805658056580566e-05,
	"loss": 1.1277,
	"step": 257
	},
	{
	"epoch": 0.1904059040590406,
	"grad_norm": 38.406944274902344,
	"learning_rate": 1.5867158671586716e-05,
	"loss": 1.0396,
	"step": 258
	},
	{
	"epoch": 0.19114391143911438,
	"grad_norm": 37.851539611816406,
	"learning_rate": 1.5928659286592866e-05,
	"loss": 1.0541,
	"step": 259
	},
	{
	"epoch": 0.1918819188191882,
	"grad_norm": 34.81989669799805,
	"learning_rate": 1.5990159901599016e-05,
	"loss": 1.0241,
	"step": 260
	},
	{
	"epoch": 0.192619926199262,
	"grad_norm": 38.74085235595703,
	"learning_rate": 1.6051660516605166e-05,
	"loss": 1.0709,
	"step": 261
	},
	{
	"epoch": 0.19335793357933578,
	"grad_norm": 41.59756088256836,
	"learning_rate": 1.611316113161132e-05,
	"loss": 1.2334,
	"step": 262
	},
	{
	"epoch": 0.1940959409594096,
	"grad_norm": 35.79509353637695,
	"learning_rate": 1.617466174661747e-05,
	"loss": 1.0133,
	"step": 263
	},
	{
	"epoch": 0.1948339483394834,
	"grad_norm": 39.88947677612305,
	"learning_rate": 1.6236162361623615e-05,
	"loss": 1.0831,
	"step": 264
	},
	{
	"epoch": 0.19557195571955718,
	"grad_norm": 35.988487243652344,
	"learning_rate": 1.629766297662977e-05,
	"loss": 1.0962,
	"step": 265
	},
	{
	"epoch": 0.196309963099631,
	"grad_norm": 36.9556999206543,
	"learning_rate": 1.6359163591635918e-05,
	"loss": 1.1309,
	"step": 266
	},
	{
	"epoch": 0.1970479704797048,
	"grad_norm": 36.95020294189453,
	"learning_rate": 1.6420664206642068e-05,
	"loss": 1.0556,
	"step": 267
	},
	{
	"epoch": 0.1977859778597786,
	"grad_norm": 36.589324951171875,
	"learning_rate": 1.6482164821648215e-05,
	"loss": 1.0871,
	"step": 268
	},
	{
	"epoch": 0.1985239852398524,
	"grad_norm": 38.176605224609375,
	"learning_rate": 1.6543665436654368e-05,
	"loss": 1.0362,
	"step": 269
	},
	{
	"epoch": 0.1992619926199262,
	"grad_norm": 40.13340759277344,
	"learning_rate": 1.6605166051660518e-05,
	"loss": 0.9606,
	"step": 270
	},
	{
	"epoch": 0.2,
	"grad_norm": 40.80103302001953,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 1.0099,
	"step": 271
	},
	{
	"epoch": 0.2007380073800738,
	"grad_norm": 37.991947174072266,
	"learning_rate": 1.6728167281672817e-05,
	"loss": 1.1559,
	"step": 272
	},
	{
	"epoch": 0.2014760147601476,
	"grad_norm": 35.638126373291016,
	"learning_rate": 1.6789667896678967e-05,
	"loss": 1.0468,
	"step": 273
	},
	{
	"epoch": 0.2022140221402214,
	"grad_norm": 36.0762825012207,
	"learning_rate": 1.6851168511685117e-05,
	"loss": 0.9843,
	"step": 274
	},
	{
	"epoch": 0.2029520295202952,
	"grad_norm": 39.42917251586914,
	"learning_rate": 1.691266912669127e-05,
	"loss": 0.995,
	"step": 275
	},
	{
	"epoch": 0.203690036900369,
	"grad_norm": 38.73271179199219,
	"learning_rate": 1.6974169741697417e-05,
	"loss": 1.1101,
	"step": 276
	},
	{
	"epoch": 0.2044280442804428,
	"grad_norm": 34.4466667175293,
	"learning_rate": 1.7035670356703567e-05,
	"loss": 1.1769,
	"step": 277
	},
	{
	"epoch": 0.2051660516605166,
	"grad_norm": 38.39332580566406,
	"learning_rate": 1.7097170971709716e-05,
	"loss": 1.2032,
	"step": 278
	},
	{
	"epoch": 0.2059040590405904,
	"grad_norm": 36.46586227416992,
	"learning_rate": 1.715867158671587e-05,
	"loss": 1.2505,
	"step": 279
	},
	{
	"epoch": 0.2066420664206642,
	"grad_norm": 38.546119689941406,
	"learning_rate": 1.722017220172202e-05,
	"loss": 1.0471,
	"step": 280
	},
	{
	"epoch": 0.207380073800738,
	"grad_norm": 36.11763381958008,
	"learning_rate": 1.7281672816728166e-05,
	"loss": 1.1173,
	"step": 281
	},
	{
	"epoch": 0.20811808118081182,
	"grad_norm": 36.332969665527344,
	"learning_rate": 1.734317343173432e-05,
	"loss": 0.989,
	"step": 282
	},
	{
	"epoch": 0.2088560885608856,
	"grad_norm": 36.8829231262207,
	"learning_rate": 1.740467404674047e-05,
	"loss": 1.0894,
	"step": 283
	},
	{
	"epoch": 0.2095940959409594,
	"grad_norm": 35.905765533447266,
	"learning_rate": 1.746617466174662e-05,
	"loss": 1.1755,
	"step": 284
	},
	{
	"epoch": 0.21033210332103322,
	"grad_norm": 31.39859962463379,
	"learning_rate": 1.752767527675277e-05,
	"loss": 1.089,
	"step": 285
	},
	{
	"epoch": 0.211070110701107,
	"grad_norm": 36.529537200927734,
	"learning_rate": 1.758917589175892e-05,
	"loss": 1.0632,
	"step": 286
	},
	{
	"epoch": 0.2118081180811808,
	"grad_norm": 38.358001708984375,
	"learning_rate": 1.765067650676507e-05,
	"loss": 1.1177,
	"step": 287
	},
	{
	"epoch": 0.21254612546125462,
	"grad_norm": 37.179325103759766,
	"learning_rate": 1.771217712177122e-05,
	"loss": 1.0513,
	"step": 288
	},
	{
	"epoch": 0.2132841328413284,
	"grad_norm": 35.38275146484375,
	"learning_rate": 1.7773677736777368e-05,
	"loss": 1.0212,
	"step": 289
	},
	{
	"epoch": 0.2140221402214022,
	"grad_norm": 37.132389068603516,
	"learning_rate": 1.7835178351783518e-05,
	"loss": 1.089,
	"step": 290
	},
	{
	"epoch": 0.21476014760147602,
	"grad_norm": 34.594783782958984,
	"learning_rate": 1.7896678966789668e-05,
	"loss": 1.1115,
	"step": 291
	},
	{
	"epoch": 0.2154981549815498,
	"grad_norm": 36.57194137573242,
	"learning_rate": 1.795817958179582e-05,
	"loss": 0.9911,
	"step": 292
	},
	{
	"epoch": 0.21623616236162363,
	"grad_norm": 34.58879470825195,
	"learning_rate": 1.8019680196801968e-05,
	"loss": 1.0169,
	"step": 293
	},
	{
	"epoch": 0.21697416974169742,
	"grad_norm": 33.588539123535156,
	"learning_rate": 1.8081180811808117e-05,
	"loss": 1.0345,
	"step": 294
	},
	{
	"epoch": 0.2177121771217712,
	"grad_norm": 34.15876007080078,
	"learning_rate": 1.814268142681427e-05,
	"loss": 1.0387,
	"step": 295
	},
	{
	"epoch": 0.21845018450184503,
	"grad_norm": 40.78740310668945,
	"learning_rate": 1.820418204182042e-05,
	"loss": 1.0292,
	"step": 296
	},
	{
	"epoch": 0.21918819188191882,
	"grad_norm": 38.307064056396484,
	"learning_rate": 1.826568265682657e-05,
	"loss": 1.087,
	"step": 297
	},
	{
	"epoch": 0.2199261992619926,
	"grad_norm": 33.9033203125,
	"learning_rate": 1.8327183271832717e-05,
	"loss": 1.0356,
	"step": 298
	},
	{
	"epoch": 0.22066420664206643,
	"grad_norm": 38.69232940673828,
	"learning_rate": 1.838868388683887e-05,
	"loss": 1.0239,
	"step": 299
	},
	{
	"epoch": 0.22140221402214022,
	"grad_norm": 34.63215637207031,
	"learning_rate": 1.845018450184502e-05,
	"loss": 1.1614,
	"step": 300
	},
	{
	"epoch": 0.22140221402214022,
	"eval_loss": 1.3183945417404175,
	"eval_runtime": 343.8464,
	"eval_samples_per_second": 3.342,
	"eval_steps_per_second": 0.279,
	"step": 300
	},
	{
	"epoch": 0.222140221402214,
	"grad_norm": 33.18867111206055,
	"learning_rate": 1.851168511685117e-05,
	"loss": 1.1519,
	"step": 301
	},
	{
	"epoch": 0.22287822878228783,
	"grad_norm": 34.760982513427734,
	"learning_rate": 1.857318573185732e-05,
	"loss": 1.1005,
	"step": 302
	},
	{
	"epoch": 0.22361623616236162,
	"grad_norm": 34.268043518066406,
	"learning_rate": 1.863468634686347e-05,
	"loss": 1.0483,
	"step": 303
	},
	{
	"epoch": 0.2243542435424354,
	"grad_norm": 35.12160873413086,
	"learning_rate": 1.869618696186962e-05,
	"loss": 1.1201,
	"step": 304
	},
	{
	"epoch": 0.22509225092250923,
	"grad_norm": 38.57670974731445,
	"learning_rate": 1.8757687576875773e-05,
	"loss": 1.0204,
	"step": 305
	},
	{
	"epoch": 0.22583025830258302,
	"grad_norm": 34.495235443115234,
	"learning_rate": 1.881918819188192e-05,
	"loss": 1.1887,
	"step": 306
	},
	{
	"epoch": 0.22656826568265684,
	"grad_norm": 36.18799591064453,
	"learning_rate": 1.888068880688807e-05,
	"loss": 0.8969,
	"step": 307
	},
	{
	"epoch": 0.22730627306273063,
	"grad_norm": 35.36030960083008,
	"learning_rate": 1.894218942189422e-05,
	"loss": 1.1272,
	"step": 308
	},
	{
	"epoch": 0.22804428044280442,
	"grad_norm": 34.50253677368164,
	"learning_rate": 1.9003690036900372e-05,
	"loss": 0.9908,
	"step": 309
	},
	{
	"epoch": 0.22878228782287824,
	"grad_norm": 33.003875732421875,
	"learning_rate": 1.906519065190652e-05,
	"loss": 1.0323,
	"step": 310
	},
	{
	"epoch": 0.22952029520295203,
	"grad_norm": 33.84071731567383,
	"learning_rate": 1.912669126691267e-05,
	"loss": 1.0924,
	"step": 311
	},
	{
	"epoch": 0.23025830258302582,
	"grad_norm": 37.590694427490234,
	"learning_rate": 1.918819188191882e-05,
	"loss": 1.0558,
	"step": 312
	},
	{
	"epoch": 0.23099630996309964,
	"grad_norm": 1048.1514892578125,
	"learning_rate": 1.924969249692497e-05,
	"loss": 0.9793,
	"step": 313
	},
	{
	"epoch": 0.23173431734317343,
	"grad_norm": 32.7579460144043,
	"learning_rate": 1.931119311193112e-05,
	"loss": 0.9345,
	"step": 314
	},
	{
	"epoch": 0.23247232472324722,
	"grad_norm": 41.32646942138672,
	"learning_rate": 1.937269372693727e-05,
	"loss": 1.0441,
	"step": 315
	},
	{
	"epoch": 0.23321033210332104,
	"grad_norm": 39.139198303222656,
	"learning_rate": 1.943419434194342e-05,
	"loss": 1.0545,
	"step": 316
	},
	{
	"epoch": 0.23394833948339483,
	"grad_norm": 35.99794006347656,
	"learning_rate": 1.949569495694957e-05,
	"loss": 1.1261,
	"step": 317
	},
	{
	"epoch": 0.23468634686346865,
	"grad_norm": 34.20968246459961,
	"learning_rate": 1.955719557195572e-05,
	"loss": 0.9836,
	"step": 318
	},
	{
	"epoch": 0.23542435424354244,
	"grad_norm": 33.9476203918457,
	"learning_rate": 1.961869618696187e-05,
	"loss": 1.0345,
	"step": 319
	},
	{
	"epoch": 0.23616236162361623,
	"grad_norm": 35.6599235534668,
	"learning_rate": 1.968019680196802e-05,
	"loss": 1.0316,
	"step": 320
	},
	{
	"epoch": 0.23690036900369005,
	"grad_norm": 34.30624008178711,
	"learning_rate": 1.974169741697417e-05,
	"loss": 0.9987,
	"step": 321
	},
	{
	"epoch": 0.23763837638376384,
	"grad_norm": 34.07005310058594,
	"learning_rate": 1.980319803198032e-05,
	"loss": 1.0052,
	"step": 322
	},
	{
	"epoch": 0.23837638376383763,
	"grad_norm": 33.085777282714844,
	"learning_rate": 1.986469864698647e-05,
	"loss": 1.1424,
	"step": 323
	},
	{
	"epoch": 0.23911439114391145,
	"grad_norm": 34.74597930908203,
	"learning_rate": 1.992619926199262e-05,
	"loss": 1.1401,
	"step": 324
	},
	{
	"epoch": 0.23985239852398524,
	"grad_norm": 36.55511474609375,
	"learning_rate": 1.9987699876998773e-05,
	"loss": 0.9437,
	"step": 325
	},
	{
	"epoch": 0.24059040590405903,
	"grad_norm": 35.86470031738281,
	"learning_rate": 2.0049200492004923e-05,
	"loss": 1.1535,
	"step": 326
	},
	{
	"epoch": 0.24132841328413285,
	"grad_norm": 33.983421325683594,
	"learning_rate": 2.011070110701107e-05,
	"loss": 1.1367,
	"step": 327
	},
	{
	"epoch": 0.24206642066420664,
	"grad_norm": 36.45722198486328,
	"learning_rate": 2.017220172201722e-05,
	"loss": 1.0917,
	"step": 328
	},
	{
	"epoch": 0.24280442804428043,
	"grad_norm": 36.953060150146484,
	"learning_rate": 2.0233702337023372e-05,
	"loss": 1.0107,
	"step": 329
	},
	{
	"epoch": 0.24354243542435425,
	"grad_norm": 37.92033004760742,
	"learning_rate": 2.0295202952029522e-05,
	"loss": 1.2084,
	"step": 330
	},
	{
	"epoch": 0.24428044280442804,
	"grad_norm": 31.74508285522461,
	"learning_rate": 2.035670356703567e-05,
	"loss": 1.0421,
	"step": 331
	},
	{
	"epoch": 0.24501845018450186,
	"grad_norm": 37.19945526123047,
	"learning_rate": 2.0418204182041822e-05,
	"loss": 1.082,
	"step": 332
	},
	{
	"epoch": 0.24575645756457565,
	"grad_norm": 32.649444580078125,
	"learning_rate": 2.0479704797047972e-05,
	"loss": 1.1345,
	"step": 333
	},
	{
	"epoch": 0.24649446494464944,
	"grad_norm": 36.957977294921875,
	"learning_rate": 2.054120541205412e-05,
	"loss": 1.0192,
	"step": 334
	},
	{
	"epoch": 0.24723247232472326,
	"grad_norm": 32.36549377441406,
	"learning_rate": 2.060270602706027e-05,
	"loss": 1.1387,
	"step": 335
	},
	{
	"epoch": 0.24797047970479705,
	"grad_norm": 30.191532135009766,
	"learning_rate": 2.066420664206642e-05,
	"loss": 1.0083,
	"step": 336
	},
	{
	"epoch": 0.24870848708487084,
	"grad_norm": 31.56035804748535,
	"learning_rate": 2.072570725707257e-05,
	"loss": 1.1246,
	"step": 337
	},
	{
	"epoch": 0.24944649446494466,
	"grad_norm": 36.50621032714844,
	"learning_rate": 2.078720787207872e-05,
	"loss": 1.1289,
	"step": 338
	},
	{
	"epoch": 0.25018450184501845,
	"grad_norm": 32.51582336425781,
	"learning_rate": 2.084870848708487e-05,
	"loss": 0.9957,
	"step": 339
	},
	{
	"epoch": 0.25092250922509224,
	"grad_norm": 40.50331115722656,
	"learning_rate": 2.091020910209102e-05,
	"loss": 1.0179,
	"step": 340
	},
	{
	"epoch": 0.25166051660516603,
	"grad_norm": 38.418792724609375,
	"learning_rate": 2.097170971709717e-05,
	"loss": 1.1074,
	"step": 341
	},
	{
	"epoch": 0.2523985239852399,
	"grad_norm": 33.0310173034668,
	"learning_rate": 2.1033210332103324e-05,
	"loss": 1.1623,
	"step": 342
	},
	{
	"epoch": 0.25313653136531367,
	"grad_norm": 30.66373062133789,
	"learning_rate": 2.1094710947109474e-05,
	"loss": 0.9796,
	"step": 343
	},
	{
	"epoch": 0.25387453874538746,
	"grad_norm": 30.335712432861328,
	"learning_rate": 2.115621156211562e-05,
	"loss": 1.0376,
	"step": 344
	},
	{
	"epoch": 0.25461254612546125,
	"grad_norm": 33.595855712890625,
	"learning_rate": 2.1217712177121773e-05,
	"loss": 1.0289,
	"step": 345
	},
	{
	"epoch": 0.25535055350553504,
	"grad_norm": 30.422454833984375,
	"learning_rate": 2.1279212792127923e-05,
	"loss": 1.0815,
	"step": 346
	},
	{
	"epoch": 0.25608856088560883,
	"grad_norm": 38.317386627197266,
	"learning_rate": 2.1340713407134073e-05,
	"loss": 1.0096,
	"step": 347
	},
	{
	"epoch": 0.2568265682656827,
	"grad_norm": 36.44529342651367,
	"learning_rate": 2.140221402214022e-05,
	"loss": 1.006,
	"step": 348
	},
	{
	"epoch": 0.25756457564575647,
	"grad_norm": 33.271060943603516,
	"learning_rate": 2.1463714637146373e-05,
	"loss": 0.9819,
	"step": 349
	},
	{
	"epoch": 0.25830258302583026,
	"grad_norm": 35.99654769897461,
	"learning_rate": 2.1525215252152523e-05,
	"loss": 1.1038,
	"step": 350
	},
	{
	"epoch": 0.25904059040590405,
	"grad_norm": 34.73610305786133,
	"learning_rate": 2.1586715867158673e-05,
	"loss": 1.065,
	"step": 351
	},
	{
	"epoch": 0.25977859778597784,
	"grad_norm": 37.899776458740234,
	"learning_rate": 2.1648216482164822e-05,
	"loss": 1.1092,
	"step": 352
	},
	{
	"epoch": 0.2605166051660517,
	"grad_norm": 36.49541473388672,
	"learning_rate": 2.1709717097170972e-05,
	"loss": 1.1665,
	"step": 353
	},
	{
	"epoch": 0.2612546125461255,
	"grad_norm": 35.63615798950195,
	"learning_rate": 2.1771217712177122e-05,
	"loss": 1.1201,
	"step": 354
	},
	{
	"epoch": 0.26199261992619927,
	"grad_norm": 34.21985626220703,
	"learning_rate": 2.1832718327183275e-05,
	"loss": 1.0518,
	"step": 355
	},
	{
	"epoch": 0.26273062730627306,
	"grad_norm": 33.33612823486328,
	"learning_rate": 2.1894218942189422e-05,
	"loss": 0.964,
	"step": 356
	},
	{
	"epoch": 0.26346863468634685,
	"grad_norm": 33.31211471557617,
	"learning_rate": 2.195571955719557e-05,
	"loss": 1.0508,
	"step": 357
	},
	{
	"epoch": 0.26420664206642064,
	"grad_norm": 32.13766860961914,
	"learning_rate": 2.201722017220172e-05,
	"loss": 1.1904,
	"step": 358
	},
	{
	"epoch": 0.2649446494464945,
	"grad_norm": 38.23426818847656,
	"learning_rate": 2.2078720787207875e-05,
	"loss": 1.044,
	"step": 359
	},
	{
	"epoch": 0.2656826568265683,
	"grad_norm": 30.594451904296875,
	"learning_rate": 2.2140221402214025e-05,
	"loss": 0.8797,
	"step": 360
	},
	{
	"epoch": 0.26642066420664207,
	"grad_norm": 33.05818557739258,
	"learning_rate": 2.220172201722017e-05,
	"loss": 1.1213,
	"step": 361
	},
	{
	"epoch": 0.26715867158671586,
	"grad_norm": 31.24005126953125,
	"learning_rate": 2.2263222632226324e-05,
	"loss": 1.1148,
	"step": 362
	},
	{
	"epoch": 0.26789667896678965,
	"grad_norm": 33.34355926513672,
	"learning_rate": 2.2324723247232474e-05,
	"loss": 1.0186,
	"step": 363
	},
	{
	"epoch": 0.2686346863468635,
	"grad_norm": 32.711002349853516,
	"learning_rate": 2.2386223862238624e-05,
	"loss": 1.0628,
	"step": 364
	},
	{
	"epoch": 0.2693726937269373,
	"grad_norm": 31.853166580200195,
	"learning_rate": 2.2447724477244774e-05,
	"loss": 1.0366,
	"step": 365
	},
	{
	"epoch": 0.2701107011070111,
	"grad_norm": 32.53550720214844,
	"learning_rate": 2.2509225092250924e-05,
	"loss": 1.076,
	"step": 366
	},
	{
	"epoch": 0.27084870848708487,
	"grad_norm": 29.53455924987793,
	"learning_rate": 2.2570725707257074e-05,
	"loss": 1.0598,
	"step": 367
	},
	{
	"epoch": 0.27158671586715866,
	"grad_norm": 34.44631576538086,
	"learning_rate": 2.2632226322263223e-05,
	"loss": 1.1174,
	"step": 368
	},
	{
	"epoch": 0.27232472324723245,
	"grad_norm": 33.80080032348633,
	"learning_rate": 2.2693726937269373e-05,
	"loss": 1.205,
	"step": 369
	},
	{
	"epoch": 0.2730627306273063,
	"grad_norm": 33.64272689819336,
	"learning_rate": 2.2755227552275523e-05,
	"loss": 1.1677,
	"step": 370
	},
	{
	"epoch": 0.2738007380073801,
	"grad_norm": 32.4225959777832,
	"learning_rate": 2.2816728167281673e-05,
	"loss": 0.9153,
	"step": 371
	},
	{
	"epoch": 0.2745387453874539,
	"grad_norm": 32.35124969482422,
	"learning_rate": 2.2878228782287826e-05,
	"loss": 1.0536,
	"step": 372
	},
	{
	"epoch": 0.27527675276752767,
	"grad_norm": 32.049827575683594,
	"learning_rate": 2.2939729397293973e-05,
	"loss": 1.1493,
	"step": 373
	},
	{
	"epoch": 0.27601476014760146,
	"grad_norm": 29.892070770263672,
	"learning_rate": 2.3001230012300123e-05,
	"loss": 1.0047,
	"step": 374
	},
	{
	"epoch": 0.2767527675276753,
	"grad_norm": 30.831012725830078,
	"learning_rate": 2.3062730627306276e-05,
	"loss": 1.0843,
	"step": 375
	},
	{
	"epoch": 0.2774907749077491,
	"grad_norm": 31.903175354003906,
	"learning_rate": 2.3124231242312426e-05,
	"loss": 1.0552,
	"step": 376
	},
	{
	"epoch": 0.2782287822878229,
	"grad_norm": 31.119150161743164,
	"learning_rate": 2.3185731857318575e-05,
	"loss": 1.0762,
	"step": 377
	},
	{
	"epoch": 0.2789667896678967,
	"grad_norm": 34.476524353027344,
	"learning_rate": 2.3247232472324722e-05,
	"loss": 0.925,
	"step": 378
	},
	{
	"epoch": 0.27970479704797047,
	"grad_norm": 33.33213806152344,
	"learning_rate": 2.3308733087330875e-05,
	"loss": 1.0427,
	"step": 379
	},
	{
	"epoch": 0.28044280442804426,
	"grad_norm": 30.07733917236328,
	"learning_rate": 2.3370233702337025e-05,
	"loss": 1.1158,
	"step": 380
	},
	{
	"epoch": 0.2811808118081181,
	"grad_norm": 36.79194259643555,
	"learning_rate": 2.3431734317343175e-05,
	"loss": 0.969,
	"step": 381
	},
	{
	"epoch": 0.2819188191881919,
	"grad_norm": 32.193233489990234,
	"learning_rate": 2.3493234932349325e-05,
	"loss": 0.938,
	"step": 382
	},
	{
	"epoch": 0.2826568265682657,
	"grad_norm": 35.39616394042969,
	"learning_rate": 2.3554735547355475e-05,
	"loss": 1.0384,
	"step": 383
	},
	{
	"epoch": 0.2833948339483395,
	"grad_norm": 32.57839584350586,
	"learning_rate": 2.3616236162361624e-05,
	"loss": 1.0573,
	"step": 384
	},
	{
	"epoch": 0.28413284132841327,
	"grad_norm": 34.920528411865234,
	"learning_rate": 2.3677736777367778e-05,
	"loss": 0.9427,
	"step": 385
	},
	{
	"epoch": 0.2848708487084871,
	"grad_norm": 34.9754753112793,
	"learning_rate": 2.3739237392373924e-05,
	"loss": 1.0893,
	"step": 386
	},
	{
	"epoch": 0.2856088560885609,
	"grad_norm": 31.592897415161133,
	"learning_rate": 2.3800738007380074e-05,
	"loss": 1.1378,
	"step": 387
	},
	{
	"epoch": 0.2863468634686347,
	"grad_norm": 32.26739501953125,
	"learning_rate": 2.3862238622386224e-05,
	"loss": 1.0627,
	"step": 388
	},
	{
	"epoch": 0.2870848708487085,
	"grad_norm": 30.732433319091797,
	"learning_rate": 2.3923739237392377e-05,
	"loss": 1.0358,
	"step": 389
	},
	{
	"epoch": 0.2878228782287823,
	"grad_norm": 34.005191802978516,
	"learning_rate": 2.3985239852398524e-05,
	"loss": 1.1111,
	"step": 390
	},
	{
	"epoch": 0.28856088560885607,
	"grad_norm": 30.67894744873047,
	"learning_rate": 2.4046740467404673e-05,
	"loss": 0.9718,
	"step": 391
	},
	{
	"epoch": 0.2892988929889299,
	"grad_norm": 28.351181030273438,
	"learning_rate": 2.4108241082410827e-05,
	"loss": 1.0609,
	"step": 392
	},
	{
	"epoch": 0.2900369003690037,
	"grad_norm": 32.102474212646484,
	"learning_rate": 2.4169741697416977e-05,
	"loss": 1.1381,
	"step": 393
	},
	{
	"epoch": 0.2907749077490775,
	"grad_norm": 33.687625885009766,
	"learning_rate": 2.4231242312423126e-05,
	"loss": 1.1188,
	"step": 394
	},
	{
	"epoch": 0.2915129151291513,
	"grad_norm": 33.333797454833984,
	"learning_rate": 2.4292742927429276e-05,
	"loss": 1.1755,
	"step": 395
	},
	{
	"epoch": 0.2922509225092251,
	"grad_norm": 29.862483978271484,
	"learning_rate": 2.4354243542435426e-05,
	"loss": 0.9939,
	"step": 396
	},
	{
	"epoch": 0.29298892988929887,
	"grad_norm": 34.118682861328125,
	"learning_rate": 2.4415744157441576e-05,
	"loss": 1.0769,
	"step": 397
	},
	{
	"epoch": 0.2937269372693727,
	"grad_norm": 31.04990005493164,
	"learning_rate": 2.4477244772447726e-05,
	"loss": 0.9994,
	"step": 398
	},
	{
	"epoch": 0.2944649446494465,
	"grad_norm": 31.455734252929688,
	"learning_rate": 2.4538745387453876e-05,
	"loss": 1.052,
	"step": 399
	},
	{
	"epoch": 0.2952029520295203,
	"grad_norm": 33.53933334350586,
	"learning_rate": 2.4600246002460025e-05,
	"loss": 1.0479,
	"step": 400
	},
	{
	"epoch": 0.2952029520295203,
	"eval_loss": 1.3168951272964478,
	"eval_runtime": 307.3734,
	"eval_samples_per_second": 3.738,
	"eval_steps_per_second": 0.312,
	"step": 400
	},
	{
	"epoch": 0.2959409594095941,
	"grad_norm": 30.59261703491211,
	"learning_rate": 2.4661746617466175e-05,
	"loss": 1.0978,
	"step": 401
	},
	{
	"epoch": 0.2966789667896679,
	"grad_norm": 30.34042739868164,
	"learning_rate": 2.472324723247233e-05,
	"loss": 0.9811,
	"step": 402
	},
	{
	"epoch": 0.2974169741697417,
	"grad_norm": 30.172008514404297,
	"learning_rate": 2.4784747847478475e-05,
	"loss": 1.1006,
	"step": 403
	},
	{
	"epoch": 0.2981549815498155,
	"grad_norm": 34.521026611328125,
	"learning_rate": 2.4846248462484625e-05,
	"loss": 1.0414,
	"step": 404
	},
	{
	"epoch": 0.2988929889298893,
	"grad_norm": 32.659603118896484,
	"learning_rate": 2.4907749077490778e-05,
	"loss": 1.0581,
	"step": 405
	},
	{
	"epoch": 0.2996309963099631,
	"grad_norm": 30.84364128112793,
	"learning_rate": 2.4969249692496928e-05,
	"loss": 1.0734,
	"step": 406
	},
	{
	"epoch": 0.3003690036900369,
	"grad_norm": 31.31522560119629,
	"learning_rate": 2.5030750307503074e-05,
	"loss": 1.1324,
	"step": 407
	},
	{
	"epoch": 0.3011070110701107,
	"grad_norm": 30.90158462524414,
	"learning_rate": 2.5092250922509224e-05,
	"loss": 1.0875,
	"step": 408
	},
	{
	"epoch": 0.3018450184501845,
	"grad_norm": 32.63178634643555,
	"learning_rate": 2.5153751537515374e-05,
	"loss": 0.947,
	"step": 409
	},
	{
	"epoch": 0.3025830258302583,
	"grad_norm": 31.25884246826172,
	"learning_rate": 2.5215252152521527e-05,
	"loss": 0.9885,
	"step": 410
	},
	{
	"epoch": 0.3033210332103321,
	"grad_norm": 31.27341651916504,
	"learning_rate": 2.5276752767527677e-05,
	"loss": 1.0252,
	"step": 411
	},
	{
	"epoch": 0.3040590405904059,
	"grad_norm": 32.48451232910156,
	"learning_rate": 2.5338253382533827e-05,
	"loss": 0.9561,
	"step": 412
	},
	{
	"epoch": 0.3047970479704797,
	"grad_norm": 32.380348205566406,
	"learning_rate": 2.5399753997539977e-05,
	"loss": 1.0956,
	"step": 413
	},
	{
	"epoch": 0.30553505535055353,
	"grad_norm": 35.79043960571289,
	"learning_rate": 2.5461254612546127e-05,
	"loss": 0.9773,
	"step": 414
	},
	{
	"epoch": 0.3062730627306273,
	"grad_norm": 32.07080078125,
	"learning_rate": 2.5522755227552277e-05,
	"loss": 0.9709,
	"step": 415
	},
	{
	"epoch": 0.3070110701107011,
	"grad_norm": 30.587440490722656,
	"learning_rate": 2.5584255842558423e-05,
	"loss": 1.1602,
	"step": 416
	},
	{
	"epoch": 0.3077490774907749,
	"grad_norm": 32.147560119628906,
	"learning_rate": 2.564575645756458e-05,
	"loss": 1.0212,
	"step": 417
	},
	{
	"epoch": 0.3084870848708487,
	"grad_norm": 28.960500717163086,
	"learning_rate": 2.570725707257073e-05,
	"loss": 1.0724,
	"step": 418
	},
	{
	"epoch": 0.3092250922509225,
	"grad_norm": 31.89568519592285,
	"learning_rate": 2.5768757687576876e-05,
	"loss": 1.0993,
	"step": 419
	},
	{
	"epoch": 0.30996309963099633,
	"grad_norm": 28.9609317779541,
	"learning_rate": 2.5830258302583026e-05,
	"loss": 1.0213,
	"step": 420
	},
	{
	"epoch": 0.3107011070110701,
	"grad_norm": 32.195152282714844,
	"learning_rate": 2.5891758917589176e-05,
	"loss": 1.1312,
	"step": 421
	},
	{
	"epoch": 0.3114391143911439,
	"grad_norm": 32.34213638305664,
	"learning_rate": 2.5953259532595326e-05,
	"loss": 1.1141,
	"step": 422
	},
	{
	"epoch": 0.3121771217712177,
	"grad_norm": 30.041015625,
	"learning_rate": 2.6014760147601475e-05,
	"loss": 1.0912,
	"step": 423
	},
	{
	"epoch": 0.3129151291512915,
	"grad_norm": 34.097068786621094,
	"learning_rate": 2.607626076260763e-05,
	"loss": 1.1144,
	"step": 424
	},
	{
	"epoch": 0.31365313653136534,
	"grad_norm": 33.118072509765625,
	"learning_rate": 2.613776137761378e-05,
	"loss": 1.0424,
	"step": 425
	},
	{
	"epoch": 0.31439114391143913,
	"grad_norm": 32.24378967285156,
	"learning_rate": 2.619926199261993e-05,
	"loss": 1.1218,
	"step": 426
	},
	{
	"epoch": 0.3151291512915129,
	"grad_norm": 29.910358428955078,
	"learning_rate": 2.6260762607626078e-05,
	"loss": 1.0043,
	"step": 427
	},
	{
	"epoch": 0.3158671586715867,
	"grad_norm": 28.464271545410156,
	"learning_rate": 2.6322263222632225e-05,
	"loss": 1.0377,
	"step": 428
	},
	{
	"epoch": 0.3166051660516605,
	"grad_norm": 33.54305648803711,
	"learning_rate": 2.6383763837638375e-05,
	"loss": 1.0836,
	"step": 429
	},
	{
	"epoch": 0.3173431734317343,
	"grad_norm": 33.36182403564453,
	"learning_rate": 2.644526445264453e-05,
	"loss": 0.935,
	"step": 430
	},
	{
	"epoch": 0.31808118081180814,
	"grad_norm": 30.69318962097168,
	"learning_rate": 2.650676506765068e-05,
	"loss": 0.9393,
	"step": 431
	},
	{
	"epoch": 0.31881918819188193,
	"grad_norm": 31.307289123535156,
	"learning_rate": 2.6568265682656828e-05,
	"loss": 1.0578,
	"step": 432
	},
	{
	"epoch": 0.3195571955719557,
	"grad_norm": 30.9537353515625,
	"learning_rate": 2.6629766297662977e-05,
	"loss": 0.978,
	"step": 433
	},
	{
	"epoch": 0.3202952029520295,
	"grad_norm": 34.1992073059082,
	"learning_rate": 2.6691266912669127e-05,
	"loss": 1.109,
	"step": 434
	},
	{
	"epoch": 0.3210332103321033,
	"grad_norm": 35.864681243896484,
	"learning_rate": 2.6752767527675277e-05,
	"loss": 1.0984,
	"step": 435
	},
	{
	"epoch": 0.32177121771217715,
	"grad_norm": 37.84678649902344,
	"learning_rate": 2.6814268142681427e-05,
	"loss": 1.1034,
	"step": 436
	},
	{
	"epoch": 0.32250922509225094,
	"grad_norm": 32.07746124267578,
	"learning_rate": 2.687576875768758e-05,
	"loss": 0.9589,
	"step": 437
	},
	{
	"epoch": 0.32324723247232473,
	"grad_norm": 30.982397079467773,
	"learning_rate": 2.693726937269373e-05,
	"loss": 0.957,
	"step": 438
	},
	{
	"epoch": 0.3239852398523985,
	"grad_norm": 32.20938491821289,
	"learning_rate": 2.699876998769988e-05,
	"loss": 1.0958,
	"step": 439
	},
	{
	"epoch": 0.3247232472324723,
	"grad_norm": 30.640172958374023,
	"learning_rate": 2.706027060270603e-05,
	"loss": 1.0231,
	"step": 440
	},
	{
	"epoch": 0.3254612546125461,
	"grad_norm": 31.90199851989746,
	"learning_rate": 2.7121771217712176e-05,
	"loss": 1.1002,
	"step": 441
	},
	{
	"epoch": 0.32619926199261995,
	"grad_norm": 30.51987075805664,
	"learning_rate": 2.7183271832718326e-05,
	"loss": 1.162,
	"step": 442
	},
	{
	"epoch": 0.32693726937269374,
	"grad_norm": 31.501314163208008,
	"learning_rate": 2.7244772447724476e-05,
	"loss": 1.0607,
	"step": 443
	},
	{
	"epoch": 0.32767527675276753,
	"grad_norm": 28.6356143951416,
	"learning_rate": 2.730627306273063e-05,
	"loss": 0.9796,
	"step": 444
	},
	{
	"epoch": 0.3284132841328413,
	"grad_norm": 31.74925422668457,
	"learning_rate": 2.736777367773678e-05,
	"loss": 1.1158,
	"step": 445
	},
	{
	"epoch": 0.3291512915129151,
	"grad_norm": 34.154579162597656,
	"learning_rate": 2.742927429274293e-05,
	"loss": 1.0649,
	"step": 446
	},
	{
	"epoch": 0.3298892988929889,
	"grad_norm": 32.25503158569336,
	"learning_rate": 2.749077490774908e-05,
	"loss": 1.1914,
	"step": 447
	},
	{
	"epoch": 0.33062730627306275,
	"grad_norm": 37.06145477294922,
	"learning_rate": 2.755227552275523e-05,
	"loss": 1.0985,
	"step": 448
	},
	{
	"epoch": 0.33136531365313654,
	"grad_norm": 31.48094367980957,
	"learning_rate": 2.761377613776138e-05,
	"loss": 1.0892,
	"step": 449
	},
	{
	"epoch": 0.33210332103321033,
	"grad_norm": 32.612770080566406,
	"learning_rate": 2.767527675276753e-05,
	"loss": 1.0109,
	"step": 450
	},
	{
	"epoch": 0.3328413284132841,
	"grad_norm": 31.58296775817871,
	"learning_rate": 2.773677736777368e-05,
	"loss": 0.97,
	"step": 451
	},
	{
	"epoch": 0.3335793357933579,
	"grad_norm": 34.60434341430664,
	"learning_rate": 2.779827798277983e-05,
	"loss": 1.0432,
	"step": 452
	},
	{
	"epoch": 0.33431734317343176,
	"grad_norm": 34.914894104003906,
	"learning_rate": 2.7859778597785978e-05,
	"loss": 1.1001,
	"step": 453
	},
	{
	"epoch": 0.33505535055350555,
	"grad_norm": 35.59685134887695,
	"learning_rate": 2.7921279212792128e-05,
	"loss": 1.2244,
	"step": 454
	},
	{
	"epoch": 0.33579335793357934,
	"grad_norm": 29.713642120361328,
	"learning_rate": 2.7982779827798277e-05,
	"loss": 0.9019,
	"step": 455
	},
	{
	"epoch": 0.33653136531365313,
	"grad_norm": 31.13001823425293,
	"learning_rate": 2.8044280442804427e-05,
	"loss": 1.0366,
	"step": 456
	},
	{
	"epoch": 0.3372693726937269,
	"grad_norm": 30.281965255737305,
	"learning_rate": 2.810578105781058e-05,
	"loss": 1.0273,
	"step": 457
	},
	{
	"epoch": 0.3380073800738007,
	"grad_norm": 31.66211700439453,
	"learning_rate": 2.816728167281673e-05,
	"loss": 1.1194,
	"step": 458
	},
	{
	"epoch": 0.33874538745387456,
	"grad_norm": 30.275386810302734,
	"learning_rate": 2.822878228782288e-05,
	"loss": 1.0575,
	"step": 459
	},
	{
	"epoch": 0.33948339483394835,
	"grad_norm": 29.42925453186035,
	"learning_rate": 2.829028290282903e-05,
	"loss": 0.9656,
	"step": 460
	},
	{
	"epoch": 0.34022140221402214,
	"grad_norm": 32.71029281616211,
	"learning_rate": 2.835178351783518e-05,
	"loss": 1.1847,
	"step": 461
	},
	{
	"epoch": 0.34095940959409593,
	"grad_norm": 29.633073806762695,
	"learning_rate": 2.8413284132841326e-05,
	"loss": 1.0942,
	"step": 462
	},
	{
	"epoch": 0.3416974169741697,
	"grad_norm": 31.828601837158203,
	"learning_rate": 2.8474784747847476e-05,
	"loss": 1.0376,
	"step": 463
	},
	{
	"epoch": 0.34243542435424357,
	"grad_norm": 30.043981552124023,
	"learning_rate": 2.8536285362853633e-05,
	"loss": 1.0835,
	"step": 464
	},
	{
	"epoch": 0.34317343173431736,
	"grad_norm": 33.54213333129883,
	"learning_rate": 2.8597785977859783e-05,
	"loss": 0.996,
	"step": 465
	},
	{
	"epoch": 0.34391143911439115,
	"grad_norm": 29.244539260864258,
	"learning_rate": 2.865928659286593e-05,
	"loss": 1.0677,
	"step": 466
	},
	{
	"epoch": 0.34464944649446494,
	"grad_norm": 30.86827278137207,
	"learning_rate": 2.872078720787208e-05,
	"loss": 0.9887,
	"step": 467
	},
	{
	"epoch": 0.34538745387453873,
	"grad_norm": 31.78754997253418,
	"learning_rate": 2.878228782287823e-05,
	"loss": 0.9915,
	"step": 468
	},
	{
	"epoch": 0.3461254612546125,
	"grad_norm": 32.79195785522461,
	"learning_rate": 2.884378843788438e-05,
	"loss": 1.1147,
	"step": 469
	},
	{
	"epoch": 0.34686346863468637,
	"grad_norm": 33.397979736328125,
	"learning_rate": 2.8905289052890532e-05,
	"loss": 0.9495,
	"step": 470
	},
	{
	"epoch": 0.34760147601476016,
	"grad_norm": 33.192649841308594,
	"learning_rate": 2.8966789667896682e-05,
	"loss": 1.0026,
	"step": 471
	},
	{
	"epoch": 0.34833948339483395,
	"grad_norm": 32.53486251831055,
	"learning_rate": 2.9028290282902832e-05,
	"loss": 1.0896,
	"step": 472
	},
	{
	"epoch": 0.34907749077490774,
	"grad_norm": 29.988269805908203,
	"learning_rate": 2.908979089790898e-05,
	"loss": 1.0286,
	"step": 473
	},
	{
	"epoch": 0.34981549815498153,
	"grad_norm": 30.389328002929688,
	"learning_rate": 2.915129151291513e-05,
	"loss": 1.0617,
	"step": 474
	},
	{
	"epoch": 0.3505535055350554,
	"grad_norm": 32.341678619384766,
	"learning_rate": 2.9212792127921278e-05,
	"loss": 0.9784,
	"step": 475
	},
	{
	"epoch": 0.35129151291512917,
	"grad_norm": 34.1507453918457,
	"learning_rate": 2.9274292742927428e-05,
	"loss": 1.1268,
	"step": 476
	},
	{
	"epoch": 0.35202952029520296,
	"grad_norm": 30.625898361206055,
	"learning_rate": 2.9335793357933584e-05,
	"loss": 1.1621,
	"step": 477
	},
	{
	"epoch": 0.35276752767527675,
	"grad_norm": 29.35662841796875,
	"learning_rate": 2.939729397293973e-05,
	"loss": 0.9967,
	"step": 478
	},
	{
	"epoch": 0.35350553505535054,
	"grad_norm": 28.236364364624023,
	"learning_rate": 2.945879458794588e-05,
	"loss": 1.0189,
	"step": 479
	},
	{
	"epoch": 0.35424354243542433,
	"grad_norm": 29.935972213745117,
	"learning_rate": 2.952029520295203e-05,
	"loss": 1.1403,
	"step": 480
	},
	{
	"epoch": 0.3549815498154982,
	"grad_norm": 30.732343673706055,
	"learning_rate": 2.958179581795818e-05,
	"loss": 1.0329,
	"step": 481
	},
	{
	"epoch": 0.35571955719557197,
	"grad_norm": 27.611663818359375,
	"learning_rate": 2.964329643296433e-05,
	"loss": 0.9701,
	"step": 482
	},
	{
	"epoch": 0.35645756457564576,
	"grad_norm": 26.146472930908203,
	"learning_rate": 2.970479704797048e-05,
	"loss": 1.0555,
	"step": 483
	},
	{
	"epoch": 0.35719557195571955,
	"grad_norm": 27.38328742980957,
	"learning_rate": 2.9766297662976633e-05,
	"loss": 1.0839,
	"step": 484
	},
	{
	"epoch": 0.35793357933579334,
	"grad_norm": 30.21470832824707,
	"learning_rate": 2.9827798277982783e-05,
	"loss": 0.9601,
	"step": 485
	},
	{
	"epoch": 0.3586715867158672,
	"grad_norm": 33.275665283203125,
	"learning_rate": 2.9889298892988933e-05,
	"loss": 0.9648,
	"step": 486
	},
	{
	"epoch": 0.359409594095941,
	"grad_norm": 32.144935607910156,
	"learning_rate": 2.995079950799508e-05,
	"loss": 1.0774,
	"step": 487
	},
	{
	"epoch": 0.36014760147601477,
	"grad_norm": 33.03762435913086,
	"learning_rate": 3.001230012300123e-05,
	"loss": 1.0353,
	"step": 488
	},
	{
	"epoch": 0.36088560885608856,
	"grad_norm": 29.72600555419922,
	"learning_rate": 3.007380073800738e-05,
	"loss": 1.0075,
	"step": 489
	},
	{
	"epoch": 0.36162361623616235,
	"grad_norm": 31.551420211791992,
	"learning_rate": 3.0135301353013536e-05,
	"loss": 1.1612,
	"step": 490
	},
	{
	"epoch": 0.36236162361623614,
	"grad_norm": 31.255245208740234,
	"learning_rate": 3.0196801968019682e-05,
	"loss": 1.1291,
	"step": 491
	},
	{
	"epoch": 0.36309963099631,
	"grad_norm": 28.523984909057617,
	"learning_rate": 3.0258302583025832e-05,
	"loss": 0.8965,
	"step": 492
	},
	{
	"epoch": 0.3638376383763838,
	"grad_norm": 27.026256561279297,
	"learning_rate": 3.0319803198031982e-05,
	"loss": 0.9842,
	"step": 493
	},
	{
	"epoch": 0.36457564575645757,
	"grad_norm": 27.513683319091797,
	"learning_rate": 3.0381303813038132e-05,
	"loss": 1.0663,
	"step": 494
	},
	{
	"epoch": 0.36531365313653136,
	"grad_norm": 28.917890548706055,
	"learning_rate": 3.0442804428044282e-05,
	"loss": 1.0083,
	"step": 495
	},
	{
	"epoch": 0.36605166051660515,
	"grad_norm": 30.66982650756836,
	"learning_rate": 3.0504305043050428e-05,
	"loss": 1.065,
	"step": 496
	},
	{
	"epoch": 0.36678966789667894,
	"grad_norm": 29.29199981689453,
	"learning_rate": 3.056580565805658e-05,
	"loss": 1.1113,
	"step": 497
	},
	{
	"epoch": 0.3675276752767528,
	"grad_norm": 30.53307342529297,
	"learning_rate": 3.0627306273062735e-05,
	"loss": 1.0564,
	"step": 498
	},
	{
	"epoch": 0.3682656826568266,
	"grad_norm": 27.8240909576416,
	"learning_rate": 3.068880688806888e-05,
	"loss": 1.086,
	"step": 499
	},
	{
	"epoch": 0.36900369003690037,
	"grad_norm": 33.0767936706543,
	"learning_rate": 3.0750307503075034e-05,
	"loss": 1.0258,
	"step": 500
	},
	{
	"epoch": 0.36900369003690037,
	"eval_loss": 1.317694902420044,
	"eval_runtime": 307.5192,
	"eval_samples_per_second": 3.736,
	"eval_steps_per_second": 0.312,
	"step": 500
	},
	{
	"epoch": 0.36974169741697416,
	"grad_norm": 29.415969848632812,
	"learning_rate": 3.081180811808118e-05,
	"loss": 1.1926,
	"step": 501
	},
	{
	"epoch": 0.37047970479704795,
	"grad_norm": 28.967937469482422,
	"learning_rate": 3.087330873308733e-05,
	"loss": 1.0652,
	"step": 502
	},
	{
	"epoch": 0.3712177121771218,
	"grad_norm": 30.757186889648438,
	"learning_rate": 3.093480934809348e-05,
	"loss": 1.0759,
	"step": 503
	},
	{
	"epoch": 0.3719557195571956,
	"grad_norm": 29.12079429626465,
	"learning_rate": 3.0996309963099634e-05,
	"loss": 1.0171,
	"step": 504
	},
	{
	"epoch": 0.3726937269372694,
	"grad_norm": 27.398155212402344,
	"learning_rate": 3.105781057810579e-05,
	"loss": 1.0255,
	"step": 505
	},
	{
	"epoch": 0.37343173431734317,
	"grad_norm": 30.28290557861328,
	"learning_rate": 3.1119311193111933e-05,
	"loss": 1.0215,
	"step": 506
	},
	{
	"epoch": 0.37416974169741696,
	"grad_norm": 32.874385833740234,
	"learning_rate": 3.118081180811808e-05,
	"loss": 0.9185,
	"step": 507
	},
	{
	"epoch": 0.37490774907749075,
	"grad_norm": 32.606929779052734,
	"learning_rate": 3.124231242312423e-05,
	"loss": 0.921,
	"step": 508
	},
	{
	"epoch": 0.3756457564575646,
	"grad_norm": 32.026466369628906,
	"learning_rate": 3.130381303813038e-05,
	"loss": 0.9647,
	"step": 509
	},
	{
	"epoch": 0.3763837638376384,
	"grad_norm": 28.804256439208984,
	"learning_rate": 3.136531365313653e-05,
	"loss": 0.9783,
	"step": 510
	},
	{
	"epoch": 0.3771217712177122,
	"grad_norm": 33.4760627746582,
	"learning_rate": 3.1426814268142686e-05,
	"loss": 1.1102,
	"step": 511
	},
	{
	"epoch": 0.37785977859778597,
	"grad_norm": 27.7533016204834,
	"learning_rate": 3.148831488314883e-05,
	"loss": 1.0607,
	"step": 512
	},
	{
	"epoch": 0.37859778597785976,
	"grad_norm": 30.21308135986328,
	"learning_rate": 3.1549815498154986e-05,
	"loss": 0.9921,
	"step": 513
	},
	{
	"epoch": 0.3793357933579336,
	"grad_norm": 30.123981475830078,
	"learning_rate": 3.161131611316113e-05,
	"loss": 1.0603,
	"step": 514
	},
	{
	"epoch": 0.3800738007380074,
	"grad_norm": 31.298110961914062,
	"learning_rate": 3.167281672816728e-05,
	"loss": 1.0396,
	"step": 515
	},
	{
	"epoch": 0.3808118081180812,
	"grad_norm": 29.31854248046875,
	"learning_rate": 3.173431734317343e-05,
	"loss": 1.0797,
	"step": 516
	},
	{
	"epoch": 0.381549815498155,
	"grad_norm": 32.191680908203125,
	"learning_rate": 3.1795817958179585e-05,
	"loss": 0.9568,
	"step": 517
	},
	{
	"epoch": 0.38228782287822877,
	"grad_norm": 31.62862777709961,
	"learning_rate": 3.185731857318573e-05,
	"loss": 1.1659,
	"step": 518
	},
	{
	"epoch": 0.38302583025830256,
	"grad_norm": 28.874908447265625,
	"learning_rate": 3.1918819188191885e-05,
	"loss": 1.0192,
	"step": 519
	},
	{
	"epoch": 0.3837638376383764,
	"grad_norm": 28.602893829345703,
	"learning_rate": 3.198031980319803e-05,
	"loss": 1.064,
	"step": 520
	},
	{
	"epoch": 0.3845018450184502,
	"grad_norm": 30.128530502319336,
	"learning_rate": 3.2041820418204185e-05,
	"loss": 0.9613,
	"step": 521
	},
	{
	"epoch": 0.385239852398524,
	"grad_norm": 29.335969924926758,
	"learning_rate": 3.210332103321033e-05,
	"loss": 1.0305,
	"step": 522
	},
	{
	"epoch": 0.3859778597785978,
	"grad_norm": 28.34609031677246,
	"learning_rate": 3.2164821648216484e-05,
	"loss": 1.1001,
	"step": 523
	},
	{
	"epoch": 0.38671586715867157,
	"grad_norm": 29.133621215820312,
	"learning_rate": 3.222632226322264e-05,
	"loss": 1.0011,
	"step": 524
	},
	{
	"epoch": 0.3874538745387454,
	"grad_norm": 29.79188346862793,
	"learning_rate": 3.2287822878228784e-05,
	"loss": 0.8858,
	"step": 525
	},
	{
	"epoch": 0.3881918819188192,
	"grad_norm": 33.12505340576172,
	"learning_rate": 3.234932349323494e-05,
	"loss": 1.0749,
	"step": 526
	},
	{
	"epoch": 0.388929889298893,
	"grad_norm": 28.103736877441406,
	"learning_rate": 3.2410824108241084e-05,
	"loss": 1.02,
	"step": 527
	},
	{
	"epoch": 0.3896678966789668,
	"grad_norm": 29.42950439453125,
	"learning_rate": 3.247232472324723e-05,
	"loss": 1.0181,
	"step": 528
	},
	{
	"epoch": 0.3904059040590406,
	"grad_norm": 28.812963485717773,
	"learning_rate": 3.2533825338253383e-05,
	"loss": 1.1254,
	"step": 529
	},
	{
	"epoch": 0.39114391143911437,
	"grad_norm": 30.136219024658203,
	"learning_rate": 3.259532595325954e-05,
	"loss": 1.1222,
	"step": 530
	},
	{
	"epoch": 0.3918819188191882,
	"grad_norm": 33.467960357666016,
	"learning_rate": 3.265682656826568e-05,
	"loss": 1.0028,
	"step": 531
	},
	{
	"epoch": 0.392619926199262,
	"grad_norm": 32.62849044799805,
	"learning_rate": 3.2718327183271836e-05,
	"loss": 1.1019,
	"step": 532
	},
	{
	"epoch": 0.3933579335793358,
	"grad_norm": 31.51215171813965,
	"learning_rate": 3.277982779827798e-05,
	"loss": 1.1408,
	"step": 533
	},
	{
	"epoch": 0.3940959409594096,
	"grad_norm": 31.761720657348633,
	"learning_rate": 3.2841328413284136e-05,
	"loss": 0.9927,
	"step": 534
	},
	{
	"epoch": 0.3948339483394834,
	"grad_norm": 28.129587173461914,
	"learning_rate": 3.290282902829028e-05,
	"loss": 0.9439,
	"step": 535
	},
	{
	"epoch": 0.3955719557195572,
	"grad_norm": 31.913143157958984,
	"learning_rate": 3.296432964329643e-05,
	"loss": 1.0182,
	"step": 536
	},
	{
	"epoch": 0.396309963099631,
	"grad_norm": 28.858692169189453,
	"learning_rate": 3.302583025830259e-05,
	"loss": 1.1423,
	"step": 537
	},
	{
	"epoch": 0.3970479704797048,
	"grad_norm": 39.564964294433594,
	"learning_rate": 3.3087330873308736e-05,
	"loss": 1.0672,
	"step": 538
	},
	{
	"epoch": 0.3977859778597786,
	"grad_norm": 35.25300216674805,
	"learning_rate": 3.314883148831489e-05,
	"loss": 1.0794,
	"step": 539
	},
	{
	"epoch": 0.3985239852398524,
	"grad_norm": 28.474002838134766,
	"learning_rate": 3.3210332103321035e-05,
	"loss": 1.1484,
	"step": 540
	},
	{
	"epoch": 0.3992619926199262,
	"grad_norm": 33.87021255493164,
	"learning_rate": 3.327183271832718e-05,
	"loss": 1.1114,
	"step": 541
	},
	{
	"epoch": 0.4,
	"grad_norm": 28.42962074279785,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 1.0833,
	"step": 542
	},
	{
	"epoch": 0.4007380073800738,
	"grad_norm": 30.21544075012207,
	"learning_rate": 3.339483394833948e-05,
	"loss": 1.1128,
	"step": 543
	},
	{
	"epoch": 0.4014760147601476,
	"grad_norm": 29.623260498046875,
	"learning_rate": 3.3456334563345635e-05,
	"loss": 1.0984,
	"step": 544
	},
	{
	"epoch": 0.4022140221402214,
	"grad_norm": 34.08790588378906,
	"learning_rate": 3.351783517835179e-05,
	"loss": 1.1091,
	"step": 545
	},
	{
	"epoch": 0.4029520295202952,
	"grad_norm": 33.139915466308594,
	"learning_rate": 3.3579335793357934e-05,
	"loss": 1.0295,
	"step": 546
	},
	{
	"epoch": 0.40369003690036903,
	"grad_norm": 35.7862663269043,
	"learning_rate": 3.364083640836409e-05,
	"loss": 1.1139,
	"step": 547
	},
	{
	"epoch": 0.4044280442804428,
	"grad_norm": 28.253767013549805,
	"learning_rate": 3.3702337023370234e-05,
	"loss": 1.0673,
	"step": 548
	},
	{
	"epoch": 0.4051660516605166,
	"grad_norm": 32.525115966796875,
	"learning_rate": 3.376383763837638e-05,
	"loss": 1.0096,
	"step": 549
	},
	{
	"epoch": 0.4059040590405904,
	"grad_norm": 27.90035057067871,
	"learning_rate": 3.382533825338254e-05,
	"loss": 0.9391,
	"step": 550
	},
	{
	"epoch": 0.4066420664206642,
	"grad_norm": 30.637134552001953,
	"learning_rate": 3.388683886838869e-05,
	"loss": 1.187,
	"step": 551
	},
	{
	"epoch": 0.407380073800738,
	"grad_norm": 29.55883026123047,
	"learning_rate": 3.3948339483394833e-05,
	"loss": 1.0611,
	"step": 552
	},
	{
	"epoch": 0.40811808118081183,
	"grad_norm": 30.938365936279297,
	"learning_rate": 3.400984009840099e-05,
	"loss": 1.0229,
	"step": 553
	},
	{
	"epoch": 0.4088560885608856,
	"grad_norm": 29.01971435546875,
	"learning_rate": 3.407134071340713e-05,
	"loss": 1.1979,
	"step": 554
	},
	{
	"epoch": 0.4095940959409594,
	"grad_norm": 28.88690185546875,
	"learning_rate": 3.4132841328413286e-05,
	"loss": 0.9652,
	"step": 555
	},
	{
	"epoch": 0.4103321033210332,
	"grad_norm": 30.13008689880371,
	"learning_rate": 3.419434194341943e-05,
	"loss": 1.023,
	"step": 556
	},
	{
	"epoch": 0.411070110701107,
	"grad_norm": 30.277244567871094,
	"learning_rate": 3.4255842558425586e-05,
	"loss": 1.0419,
	"step": 557
	},
	{
	"epoch": 0.4118081180811808,
	"grad_norm": 31.770061492919922,
	"learning_rate": 3.431734317343174e-05,
	"loss": 1.1385,
	"step": 558
	},
	{
	"epoch": 0.41254612546125463,
	"grad_norm": 28.85527992248535,
	"learning_rate": 3.4378843788437886e-05,
	"loss": 1.0576,
	"step": 559
	},
	{
	"epoch": 0.4132841328413284,
	"grad_norm": 27.674936294555664,
	"learning_rate": 3.444034440344404e-05,
	"loss": 0.9695,
	"step": 560
	},
	{
	"epoch": 0.4140221402214022,
	"grad_norm": 30.44672203063965,
	"learning_rate": 3.4501845018450186e-05,
	"loss": 1.1668,
	"step": 561
	},
	{
	"epoch": 0.414760147601476,
	"grad_norm": 26.084020614624023,
	"learning_rate": 3.456334563345633e-05,
	"loss": 1.0662,
	"step": 562
	},
	{
	"epoch": 0.4154981549815498,
	"grad_norm": 29.204233169555664,
	"learning_rate": 3.4624846248462485e-05,
	"loss": 1.0049,
	"step": 563
	},
	{
	"epoch": 0.41623616236162364,
	"grad_norm": 31.064088821411133,
	"learning_rate": 3.468634686346864e-05,
	"loss": 1.0733,
	"step": 564
	},
	{
	"epoch": 0.41697416974169743,
	"grad_norm": 28.714794158935547,
	"learning_rate": 3.4747847478474785e-05,
	"loss": 1.1252,
	"step": 565
	},
	{
	"epoch": 0.4177121771217712,
	"grad_norm": 36.692623138427734,
	"learning_rate": 3.480934809348094e-05,
	"loss": 1.1517,
	"step": 566
	},
	{
	"epoch": 0.418450184501845,
	"grad_norm": 29.342973709106445,
	"learning_rate": 3.4870848708487085e-05,
	"loss": 1.1617,
	"step": 567
	},
	{
	"epoch": 0.4191881918819188,
	"grad_norm": 30.187889099121094,
	"learning_rate": 3.493234932349324e-05,
	"loss": 1.1766,
	"step": 568
	},
	{
	"epoch": 0.4199261992619926,
	"grad_norm": 27.71148681640625,
	"learning_rate": 3.4993849938499384e-05,
	"loss": 1.1307,
	"step": 569
	},
	{
	"epoch": 0.42066420664206644,
	"grad_norm": 26.817026138305664,
	"learning_rate": 3.505535055350554e-05,
	"loss": 1.1422,
	"step": 570
	},
	{
	"epoch": 0.42140221402214023,
	"grad_norm": 29.25654411315918,
	"learning_rate": 3.511685116851169e-05,
	"loss": 1.0934,
	"step": 571
	},
	{
	"epoch": 0.422140221402214,
	"grad_norm": 28.460424423217773,
	"learning_rate": 3.517835178351784e-05,
	"loss": 1.1308,
	"step": 572
	},
	{
	"epoch": 0.4228782287822878,
	"grad_norm": 27.779157638549805,
	"learning_rate": 3.5239852398523984e-05,
	"loss": 1.0648,
	"step": 573
	},
	{
	"epoch": 0.4236162361623616,
	"grad_norm": 32.28572082519531,
	"learning_rate": 3.530135301353014e-05,
	"loss": 1.0195,
	"step": 574
	},
	{
	"epoch": 0.42435424354243545,
	"grad_norm": 30.577444076538086,
	"learning_rate": 3.5362853628536283e-05,
	"loss": 1.0581,
	"step": 575
	},
	{
	"epoch": 0.42509225092250924,
	"grad_norm": 27.929576873779297,
	"learning_rate": 3.542435424354244e-05,
	"loss": 1.0838,
	"step": 576
	},
	{
	"epoch": 0.42583025830258303,
	"grad_norm": 30.955745697021484,
	"learning_rate": 3.548585485854859e-05,
	"loss": 1.0065,
	"step": 577
	},
	{
	"epoch": 0.4265682656826568,
	"grad_norm": 30.847639083862305,
	"learning_rate": 3.5547355473554736e-05,
	"loss": 1.0464,
	"step": 578
	},
	{
	"epoch": 0.4273062730627306,
	"grad_norm": 26.83955192565918,
	"learning_rate": 3.560885608856089e-05,
	"loss": 1.0382,
	"step": 579
	},
	{
	"epoch": 0.4280442804428044,
	"grad_norm": 28.2490177154541,
	"learning_rate": 3.5670356703567036e-05,
	"loss": 0.9712,
	"step": 580
	},
	{
	"epoch": 0.42878228782287825,
	"grad_norm": 28.63175392150879,
	"learning_rate": 3.573185731857319e-05,
	"loss": 0.9944,
	"step": 581
	},
	{
	"epoch": 0.42952029520295204,
	"grad_norm": 27.138669967651367,
	"learning_rate": 3.5793357933579336e-05,
	"loss": 1.1288,
	"step": 582
	},
	{
	"epoch": 0.43025830258302583,
	"grad_norm": 28.75208282470703,
	"learning_rate": 3.585485854858548e-05,
	"loss": 1.0389,
	"step": 583
	},
	{
	"epoch": 0.4309963099630996,
	"grad_norm": 29.765209197998047,
	"learning_rate": 3.591635916359164e-05,
	"loss": 1.0375,
	"step": 584
	},
	{
	"epoch": 0.4317343173431734,
	"grad_norm": 31.77211570739746,
	"learning_rate": 3.597785977859779e-05,
	"loss": 1.1282,
	"step": 585
	},
	{
	"epoch": 0.43247232472324726,
	"grad_norm": 28.593671798706055,
	"learning_rate": 3.6039360393603935e-05,
	"loss": 1.0487,
	"step": 586
	},
	{
	"epoch": 0.43321033210332105,
	"grad_norm": 28.624773025512695,
	"learning_rate": 3.610086100861009e-05,
	"loss": 1.0686,
	"step": 587
	},
	{
	"epoch": 0.43394833948339484,
	"grad_norm": 27.676698684692383,
	"learning_rate": 3.6162361623616235e-05,
	"loss": 1.1286,
	"step": 588
	},
	{
	"epoch": 0.43468634686346863,
	"grad_norm": 28.334789276123047,
	"learning_rate": 3.622386223862239e-05,
	"loss": 1.0686,
	"step": 589
	},
	{
	"epoch": 0.4354243542435424,
	"grad_norm": 24.738544464111328,
	"learning_rate": 3.628536285362854e-05,
	"loss": 0.8636,
	"step": 590
	},
	{
	"epoch": 0.4361623616236162,
	"grad_norm": 29.112049102783203,
	"learning_rate": 3.634686346863469e-05,
	"loss": 0.9369,
	"step": 591
	},
	{
	"epoch": 0.43690036900369006,
	"grad_norm": 29.67219352722168,
	"learning_rate": 3.640836408364084e-05,
	"loss": 1.0318,
	"step": 592
	},
	{
	"epoch": 0.43763837638376385,
	"grad_norm": 32.45582580566406,
	"learning_rate": 3.646986469864699e-05,
	"loss": 1.0077,
	"step": 593
	},
	{
	"epoch": 0.43837638376383764,
	"grad_norm": 30.126052856445312,
	"learning_rate": 3.653136531365314e-05,
	"loss": 1.1069,
	"step": 594
	},
	{
	"epoch": 0.43911439114391143,
	"grad_norm": 30.43257713317871,
	"learning_rate": 3.659286592865929e-05,
	"loss": 1.0041,
	"step": 595
	},
	{
	"epoch": 0.4398523985239852,
	"grad_norm": 28.884113311767578,
	"learning_rate": 3.6654366543665434e-05,
	"loss": 1.0136,
	"step": 596
	},
	{
	"epoch": 0.44059040590405907,
	"grad_norm": 28.1043758392334,
	"learning_rate": 3.6715867158671594e-05,
	"loss": 1.0784,
	"step": 597
	},
	{
	"epoch": 0.44132841328413286,
	"grad_norm": 29.222322463989258,
	"learning_rate": 3.677736777367774e-05,
	"loss": 0.994,
	"step": 598
	},
	{
	"epoch": 0.44206642066420665,
	"grad_norm": 31.78004264831543,
	"learning_rate": 3.683886838868389e-05,
	"loss": 0.9989,
	"step": 599
	},
	{
	"epoch": 0.44280442804428044,
	"grad_norm": 26.486068725585938,
	"learning_rate": 3.690036900369004e-05,
	"loss": 1.0936,
	"step": 600
	},
	{
	"epoch": 0.44280442804428044,
	"eval_loss": 1.3267521858215332,
	"eval_runtime": 309.179,
	"eval_samples_per_second": 3.716,
	"eval_steps_per_second": 0.31,
	"step": 600
	},
	{
	"epoch": 0.44354243542435423,
	"grad_norm": 28.453187942504883,
	"learning_rate": 3.6961869618696186e-05,
	"loss": 1.0252,
	"step": 601
	},
	{
	"epoch": 0.444280442804428,
	"grad_norm": 30.434410095214844,
	"learning_rate": 3.702337023370234e-05,
	"loss": 1.1192,
	"step": 602
	},
	{
	"epoch": 0.44501845018450187,
	"grad_norm": 28.11585807800293,
	"learning_rate": 3.7084870848708486e-05,
	"loss": 0.9912,
	"step": 603
	},
	{
	"epoch": 0.44575645756457566,
	"grad_norm": 32.852027893066406,
	"learning_rate": 3.714637146371464e-05,
	"loss": 0.9976,
	"step": 604
	},
	{
	"epoch": 0.44649446494464945,
	"grad_norm": 26.785593032836914,
	"learning_rate": 3.720787207872079e-05,
	"loss": 1.0799,
	"step": 605
	},
	{
	"epoch": 0.44723247232472324,
	"grad_norm": 28.873849868774414,
	"learning_rate": 3.726937269372694e-05,
	"loss": 1.0319,
	"step": 606
	},
	{
	"epoch": 0.44797047970479703,
	"grad_norm": 31.951059341430664,
	"learning_rate": 3.7330873308733085e-05,
	"loss": 1.0665,
	"step": 607
	},
	{
	"epoch": 0.4487084870848708,
	"grad_norm": 26.902822494506836,
	"learning_rate": 3.739237392373924e-05,
	"loss": 1.0973,
	"step": 608
	},
	{
	"epoch": 0.44944649446494467,
	"grad_norm": 31.43962287902832,
	"learning_rate": 3.7453874538745385e-05,
	"loss": 0.997,
	"step": 609
	},
	{
	"epoch": 0.45018450184501846,
	"grad_norm": 28.310514450073242,
	"learning_rate": 3.7515375153751545e-05,
	"loss": 1.1017,
	"step": 610
	},
	{
	"epoch": 0.45092250922509225,
	"grad_norm": 26.364179611206055,
	"learning_rate": 3.757687576875769e-05,
	"loss": 1.087,
	"step": 611
	},
	{
	"epoch": 0.45166051660516604,
	"grad_norm": 26.653833389282227,
	"learning_rate": 3.763837638376384e-05,
	"loss": 1.0061,
	"step": 612
	},
	{
	"epoch": 0.45239852398523983,
	"grad_norm": 30.07135581970215,
	"learning_rate": 3.769987699876999e-05,
	"loss": 1.0957,
	"step": 613
	},
	{
	"epoch": 0.4531365313653137,
	"grad_norm": 27.822776794433594,
	"learning_rate": 3.776137761377614e-05,
	"loss": 1.0992,
	"step": 614
	},
	{
	"epoch": 0.45387453874538747,
	"grad_norm": 31.2148494720459,
	"learning_rate": 3.782287822878229e-05,
	"loss": 0.9902,
	"step": 615
	},
	{
	"epoch": 0.45461254612546126,
	"grad_norm": 34.85270309448242,
	"learning_rate": 3.788437884378844e-05,
	"loss": 1.1163,
	"step": 616
	},
	{
	"epoch": 0.45535055350553505,
	"grad_norm": 27.64411735534668,
	"learning_rate": 3.794587945879459e-05,
	"loss": 1.1273,
	"step": 617
	},
	{
	"epoch": 0.45608856088560884,
	"grad_norm": 28.515451431274414,
	"learning_rate": 3.8007380073800744e-05,
	"loss": 1.0642,
	"step": 618
	},
	{
	"epoch": 0.45682656826568263,
	"grad_norm": 34.522491455078125,
	"learning_rate": 3.806888068880689e-05,
	"loss": 0.9994,
	"step": 619
	},
	{
	"epoch": 0.4575645756457565,
	"grad_norm": 30.255014419555664,
	"learning_rate": 3.813038130381304e-05,
	"loss": 1.091,
	"step": 620
	},
	{
	"epoch": 0.45830258302583027,
	"grad_norm": 30.578969955444336,
	"learning_rate": 3.819188191881919e-05,
	"loss": 1.1066,
	"step": 621
	},
	{
	"epoch": 0.45904059040590406,
	"grad_norm": 27.243410110473633,
	"learning_rate": 3.825338253382534e-05,
	"loss": 1.1007,
	"step": 622
	},
	{
	"epoch": 0.45977859778597785,
	"grad_norm": 29.49376678466797,
	"learning_rate": 3.831488314883149e-05,
	"loss": 1.1645,
	"step": 623
	},
	{
	"epoch": 0.46051660516605164,
	"grad_norm": 30.315433502197266,
	"learning_rate": 3.837638376383764e-05,
	"loss": 1.0911,
	"step": 624
	},
	{
	"epoch": 0.4612546125461255,
	"grad_norm": 31.19307518005371,
	"learning_rate": 3.843788437884379e-05,
	"loss": 1.1693,
	"step": 625
	},
	{
	"epoch": 0.4619926199261993,
	"grad_norm": 27.844942092895508,
	"learning_rate": 3.849938499384994e-05,
	"loss": 1.0592,
	"step": 626
	},
	{
	"epoch": 0.46273062730627307,
	"grad_norm": 29.83812141418457,
	"learning_rate": 3.856088560885609e-05,
	"loss": 1.0263,
	"step": 627
	},
	{
	"epoch": 0.46346863468634686,
	"grad_norm": 27.992292404174805,
	"learning_rate": 3.862238622386224e-05,
	"loss": 1.0808,
	"step": 628
	},
	{
	"epoch": 0.46420664206642065,
	"grad_norm": 27.693565368652344,
	"learning_rate": 3.868388683886839e-05,
	"loss": 0.9699,
	"step": 629
	},
	{
	"epoch": 0.46494464944649444,
	"grad_norm": 29.0965633392334,
	"learning_rate": 3.874538745387454e-05,
	"loss": 1.1051,
	"step": 630
	},
	{
	"epoch": 0.4656826568265683,
	"grad_norm": 29.10242462158203,
	"learning_rate": 3.8806888068880695e-05,
	"loss": 1.0039,
	"step": 631
	},
	{
	"epoch": 0.4664206642066421,
	"grad_norm": 32.43134307861328,
	"learning_rate": 3.886838868388684e-05,
	"loss": 1.064,
	"step": 632
	},
	{
	"epoch": 0.46715867158671587,
	"grad_norm": 29.64716148376465,
	"learning_rate": 3.892988929889299e-05,
	"loss": 1.0935,
	"step": 633
	},
	{
	"epoch": 0.46789667896678966,
	"grad_norm": 29.36592674255371,
	"learning_rate": 3.899138991389914e-05,
	"loss": 1.0937,
	"step": 634
	},
	{
	"epoch": 0.46863468634686345,
	"grad_norm": 28.95639991760254,
	"learning_rate": 3.905289052890529e-05,
	"loss": 1.0853,
	"step": 635
	},
	{
	"epoch": 0.4693726937269373,
	"grad_norm": 29.89202308654785,
	"learning_rate": 3.911439114391144e-05,
	"loss": 1.0811,
	"step": 636
	},
	{
	"epoch": 0.4701107011070111,
	"grad_norm": 29.48238754272461,
	"learning_rate": 3.9175891758917595e-05,
	"loss": 1.1506,
	"step": 637
	},
	{
	"epoch": 0.4708487084870849,
	"grad_norm": 28.27334213256836,
	"learning_rate": 3.923739237392374e-05,
	"loss": 1.1197,
	"step": 638
	},
	{
	"epoch": 0.47158671586715867,
	"grad_norm": 28.055349349975586,
	"learning_rate": 3.9298892988929894e-05,
	"loss": 1.0456,
	"step": 639
	},
	{
	"epoch": 0.47232472324723246,
	"grad_norm": 27.234216690063477,
	"learning_rate": 3.936039360393604e-05,
	"loss": 0.9234,
	"step": 640
	},
	{
	"epoch": 0.47306273062730625,
	"grad_norm": 28.06637191772461,
	"learning_rate": 3.942189421894219e-05,
	"loss": 1.0727,
	"step": 641
	},
	{
	"epoch": 0.4738007380073801,
	"grad_norm": 32.17995834350586,
	"learning_rate": 3.948339483394834e-05,
	"loss": 0.9436,
	"step": 642
	},
	{
	"epoch": 0.4745387453874539,
	"grad_norm": 34.09589767456055,
	"learning_rate": 3.954489544895449e-05,
	"loss": 1.1217,
	"step": 643
	},
	{
	"epoch": 0.4752767527675277,
	"grad_norm": 28.410308837890625,
	"learning_rate": 3.960639606396064e-05,
	"loss": 1.2026,
	"step": 644
	},
	{
	"epoch": 0.47601476014760147,
	"grad_norm": 30.437602996826172,
	"learning_rate": 3.9667896678966793e-05,
	"loss": 1.197,
	"step": 645
	},
	{
	"epoch": 0.47675276752767526,
	"grad_norm": 25.85258674621582,
	"learning_rate": 3.972939729397294e-05,
	"loss": 0.9193,
	"step": 646
	},
	{
	"epoch": 0.4774907749077491,
	"grad_norm": 30.591075897216797,
	"learning_rate": 3.979089790897909e-05,
	"loss": 1.0067,
	"step": 647
	},
	{
	"epoch": 0.4782287822878229,
	"grad_norm": 35.56831741333008,
	"learning_rate": 3.985239852398524e-05,
	"loss": 1.0091,
	"step": 648
	},
	{
	"epoch": 0.4789667896678967,
	"grad_norm": 28.925878524780273,
	"learning_rate": 3.991389913899139e-05,
	"loss": 1.0451,
	"step": 649
	},
	{
	"epoch": 0.4797047970479705,
	"grad_norm": 26.45174789428711,
	"learning_rate": 3.9975399753997546e-05,
	"loss": 1.1113,
	"step": 650
	},
	{
	"epoch": 0.48044280442804427,
	"grad_norm": 32.575260162353516,
	"learning_rate": 4.003690036900369e-05,
	"loss": 1.1129,
	"step": 651
	},
	{
	"epoch": 0.48118081180811806,
	"grad_norm": 31.939918518066406,
	"learning_rate": 4.0098400984009846e-05,
	"loss": 1.0175,
	"step": 652
	},
	{
	"epoch": 0.4819188191881919,
	"grad_norm": 72.9084701538086,
	"learning_rate": 4.015990159901599e-05,
	"loss": 0.966,
	"step": 653
	},
	{
	"epoch": 0.4826568265682657,
	"grad_norm": 32.10757827758789,
	"learning_rate": 4.022140221402214e-05,
	"loss": 1.124,
	"step": 654
	},
	{
	"epoch": 0.4833948339483395,
	"grad_norm": 35.528778076171875,
	"learning_rate": 4.028290282902829e-05,
	"loss": 1.133,
	"step": 655
	},
	{
	"epoch": 0.4841328413284133,
	"grad_norm": 29.31783676147461,
	"learning_rate": 4.034440344403444e-05,
	"loss": 1.0159,
	"step": 656
	},
	{
	"epoch": 0.48487084870848707,
	"grad_norm": 28.90894889831543,
	"learning_rate": 4.040590405904059e-05,
	"loss": 1.0186,
	"step": 657
	},
	{
	"epoch": 0.48560885608856086,
	"grad_norm": 27.08976173400879,
	"learning_rate": 4.0467404674046745e-05,
	"loss": 0.8565,
	"step": 658
	},
	{
	"epoch": 0.4863468634686347,
	"grad_norm": 32.08723831176758,
	"learning_rate": 4.052890528905289e-05,
	"loss": 0.9848,
	"step": 659
	},
	{
	"epoch": 0.4870848708487085,
	"grad_norm": 31.9980525970459,
	"learning_rate": 4.0590405904059045e-05,
	"loss": 1.2406,
	"step": 660
	},
	{
	"epoch": 0.4878228782287823,
	"grad_norm": 27.090219497680664,
	"learning_rate": 4.065190651906519e-05,
	"loss": 1.2235,
	"step": 661
	},
	{
	"epoch": 0.4885608856088561,
	"grad_norm": 42.83357620239258,
	"learning_rate": 4.071340713407134e-05,
	"loss": 1.1278,
	"step": 662
	},
	{
	"epoch": 0.48929889298892987,
	"grad_norm": 28.690671920776367,
	"learning_rate": 4.077490774907749e-05,
	"loss": 1.19,
	"step": 663
	},
	{
	"epoch": 0.4900369003690037,
	"grad_norm": 32.07972717285156,
	"learning_rate": 4.0836408364083644e-05,
	"loss": 1.1053,
	"step": 664
	},
	{
	"epoch": 0.4907749077490775,
	"grad_norm": 29.517995834350586,
	"learning_rate": 4.08979089790898e-05,
	"loss": 0.9924,
	"step": 665
	},
	{
	"epoch": 0.4915129151291513,
	"grad_norm": 36.88546371459961,
	"learning_rate": 4.0959409594095944e-05,
	"loss": 1.097,
	"step": 666
	},
	{
	"epoch": 0.4922509225092251,
	"grad_norm": 27.41716957092285,
	"learning_rate": 4.102091020910209e-05,
	"loss": 1.1743,
	"step": 667
	},
	{
	"epoch": 0.4929889298892989,
	"grad_norm": 36.04215621948242,
	"learning_rate": 4.108241082410824e-05,
	"loss": 1.0724,
	"step": 668
	},
	{
	"epoch": 0.49372693726937267,
	"grad_norm": 31.058218002319336,
	"learning_rate": 4.114391143911439e-05,
	"loss": 1.2224,
	"step": 669
	},
	{
	"epoch": 0.4944649446494465,
	"grad_norm": 30.21110725402832,
	"learning_rate": 4.120541205412054e-05,
	"loss": 1.0559,
	"step": 670
	},
	{
	"epoch": 0.4952029520295203,
	"grad_norm": 317.8634033203125,
	"learning_rate": 4.1266912669126696e-05,
	"loss": 1.1668,
	"step": 671
	},
	{
	"epoch": 0.4959409594095941,
	"grad_norm": 30.09259605407715,
	"learning_rate": 4.132841328413284e-05,
	"loss": 1.107,
	"step": 672
	},
	{
	"epoch": 0.4966789667896679,
	"grad_norm": 30.432334899902344,
	"learning_rate": 4.1389913899138996e-05,
	"loss": 1.0314,
	"step": 673
	},
	{
	"epoch": 0.4974169741697417,
	"grad_norm": 29.147876739501953,
	"learning_rate": 4.145141451414514e-05,
	"loss": 1.1293,
	"step": 674
	},
	{
	"epoch": 0.4981549815498155,
	"grad_norm": 28.299036026000977,
	"learning_rate": 4.151291512915129e-05,
	"loss": 0.9126,
	"step": 675
	},
	{
	"epoch": 0.4988929889298893,
	"grad_norm": 27.47956085205078,
	"learning_rate": 4.157441574415744e-05,
	"loss": 1.1542,
	"step": 676
	},
	{
	"epoch": 0.4996309963099631,
	"grad_norm": 31.645191192626953,
	"learning_rate": 4.1635916359163595e-05,
	"loss": 1.0069,
	"step": 677
	},
	{
	"epoch": 0.5003690036900369,
	"grad_norm": 28.30335235595703,
	"learning_rate": 4.169741697416974e-05,
	"loss": 1.1189,
	"step": 678
	},
	{
	"epoch": 0.5011070110701107,
	"grad_norm": 28.922136306762695,
	"learning_rate": 4.1758917589175895e-05,
	"loss": 1.0529,
	"step": 679
	},
	{
	"epoch": 0.5018450184501845,
	"grad_norm": 29.070533752441406,
	"learning_rate": 4.182041820418204e-05,
	"loss": 1.0434,
	"step": 680
	},
	{
	"epoch": 0.5025830258302583,
	"grad_norm": 34.41718292236328,
	"learning_rate": 4.1881918819188195e-05,
	"loss": 1.0136,
	"step": 681
	},
	{
	"epoch": 0.5033210332103321,
	"grad_norm": 30.644197463989258,
	"learning_rate": 4.194341943419434e-05,
	"loss": 1.2139,
	"step": 682
	},
	{
	"epoch": 0.5040590405904058,
	"grad_norm": 31.38071060180664,
	"learning_rate": 4.2004920049200495e-05,
	"loss": 1.0473,
	"step": 683
	},
	{
	"epoch": 0.5047970479704798,
	"grad_norm": 28.35428237915039,
	"learning_rate": 4.206642066420665e-05,
	"loss": 1.1185,
	"step": 684
	},
	{
	"epoch": 0.5055350553505535,
	"grad_norm": 30.84862518310547,
	"learning_rate": 4.2127921279212794e-05,
	"loss": 1.0605,
	"step": 685
	},
	{
	"epoch": 0.5062730627306273,
	"grad_norm": 28.12001609802246,
	"learning_rate": 4.218942189421895e-05,
	"loss": 1.0421,
	"step": 686
	},
	{
	"epoch": 0.5070110701107011,
	"grad_norm": 94.46589660644531,
	"learning_rate": 4.2250922509225094e-05,
	"loss": 1.1904,
	"step": 687
	},
	{
	"epoch": 0.5077490774907749,
	"grad_norm": 28.075532913208008,
	"learning_rate": 4.231242312423124e-05,
	"loss": 0.9612,
	"step": 688
	},
	{
	"epoch": 0.5084870848708487,
	"grad_norm": 33.0609245300293,
	"learning_rate": 4.2373923739237394e-05,
	"loss": 1.1283,
	"step": 689
	},
	{
	"epoch": 0.5092250922509225,
	"grad_norm": 31.729276657104492,
	"learning_rate": 4.243542435424355e-05,
	"loss": 1.1253,
	"step": 690
	},
	{
	"epoch": 0.5099630996309963,
	"grad_norm": 29.362197875976562,
	"learning_rate": 4.249692496924969e-05,
	"loss": 1.0577,
	"step": 691
	},
	{
	"epoch": 0.5107011070110701,
	"grad_norm": 27.433551788330078,
	"learning_rate": 4.2558425584255847e-05,
	"loss": 0.9175,
	"step": 692
	},
	{
	"epoch": 0.5114391143911439,
	"grad_norm": 28.477914810180664,
	"learning_rate": 4.261992619926199e-05,
	"loss": 1.1097,
	"step": 693
	},
	{
	"epoch": 0.5121771217712177,
	"grad_norm": 26.180309295654297,
	"learning_rate": 4.2681426814268146e-05,
	"loss": 0.9585,
	"step": 694
	},
	{
	"epoch": 0.5129151291512916,
	"grad_norm": 28.950037002563477,
	"learning_rate": 4.274292742927429e-05,
	"loss": 0.9945,
	"step": 695
	},
	{
	"epoch": 0.5136531365313654,
	"grad_norm": 33.97092819213867,
	"learning_rate": 4.280442804428044e-05,
	"loss": 1.1573,
	"step": 696
	},
	{
	"epoch": 0.5143911439114391,
	"grad_norm": 31.86573600769043,
	"learning_rate": 4.28659286592866e-05,
	"loss": 1.1061,
	"step": 697
	},
	{
	"epoch": 0.5151291512915129,
	"grad_norm": 35.693443298339844,
	"learning_rate": 4.2927429274292746e-05,
	"loss": 1.1284,
	"step": 698
	},
	{
	"epoch": 0.5158671586715867,
	"grad_norm": 29.409988403320312,
	"learning_rate": 4.29889298892989e-05,
	"loss": 1.2092,
	"step": 699
	},
	{
	"epoch": 0.5166051660516605,
	"grad_norm": 28.83966636657715,
	"learning_rate": 4.3050430504305045e-05,
	"loss": 0.9437,
	"step": 700
	},
	{
	"epoch": 0.5166051660516605,
	"eval_loss": 1.3298412561416626,
	"eval_runtime": 307.823,
	"eval_samples_per_second": 3.733,
	"eval_steps_per_second": 0.312,
	"step": 700
	},
	{
	"epoch": 0.5173431734317343,
	"grad_norm": 26.844846725463867,
	"learning_rate": 4.311193111931119e-05,
	"loss": 1.112,
	"step": 701
	},
	{
	"epoch": 0.5180811808118081,
	"grad_norm": 28.658428192138672,
	"learning_rate": 4.3173431734317345e-05,
	"loss": 0.9918,
	"step": 702
	},
	{
	"epoch": 0.5188191881918819,
	"grad_norm": 32.5452995300293,
	"learning_rate": 4.323493234932349e-05,
	"loss": 1.0447,
	"step": 703
	},
	{
	"epoch": 0.5195571955719557,
	"grad_norm": 26.970304489135742,
	"learning_rate": 4.3296432964329645e-05,
	"loss": 1.1313,
	"step": 704
	},
	{
	"epoch": 0.5202952029520295,
	"grad_norm": 28.920679092407227,
	"learning_rate": 4.33579335793358e-05,
	"loss": 1.0252,
	"step": 705
	},
	{
	"epoch": 0.5210332103321034,
	"grad_norm": 40.62504959106445,
	"learning_rate": 4.3419434194341945e-05,
	"loss": 1.1523,
	"step": 706
	},
	{
	"epoch": 0.5217712177121772,
	"grad_norm": 30.851390838623047,
	"learning_rate": 4.34809348093481e-05,
	"loss": 0.9797,
	"step": 707
	},
	{
	"epoch": 0.522509225092251,
	"grad_norm": 27.900365829467773,
	"learning_rate": 4.3542435424354244e-05,
	"loss": 1.0221,
	"step": 708
	},
	{
	"epoch": 0.5232472324723247,
	"grad_norm": 26.0831356048584,
	"learning_rate": 4.360393603936039e-05,
	"loss": 1.0887,
	"step": 709
	},
	{
	"epoch": 0.5239852398523985,
	"grad_norm": 29.75108528137207,
	"learning_rate": 4.366543665436655e-05,
	"loss": 0.9471,
	"step": 710
	},
	{
	"epoch": 0.5247232472324723,
	"grad_norm": 31.546483993530273,
	"learning_rate": 4.37269372693727e-05,
	"loss": 1.1382,
	"step": 711
	},
	{
	"epoch": 0.5254612546125461,
	"grad_norm": 27.857818603515625,
	"learning_rate": 4.3788437884378844e-05,
	"loss": 1.1366,
	"step": 712
	},
	{
	"epoch": 0.5261992619926199,
	"grad_norm": 26.583192825317383,
	"learning_rate": 4.3849938499385e-05,
	"loss": 1.0916,
	"step": 713
	},
	{
	"epoch": 0.5269372693726937,
	"grad_norm": 30.150146484375,
	"learning_rate": 4.391143911439114e-05,
	"loss": 1.0575,
	"step": 714
	},
	{
	"epoch": 0.5276752767527675,
	"grad_norm": 27.24560546875,
	"learning_rate": 4.3972939729397297e-05,
	"loss": 1.0683,
	"step": 715
	},
	{
	"epoch": 0.5284132841328413,
	"grad_norm": 29.45226287841797,
	"learning_rate": 4.403444034440344e-05,
	"loss": 1.1279,
	"step": 716
	},
	{
	"epoch": 0.5291512915129152,
	"grad_norm": 28.790172576904297,
	"learning_rate": 4.4095940959409596e-05,
	"loss": 1.1934,
	"step": 717
	},
	{
	"epoch": 0.529889298892989,
	"grad_norm": 42.536705017089844,
	"learning_rate": 4.415744157441575e-05,
	"loss": 1.061,
	"step": 718
	},
	{
	"epoch": 0.5306273062730628,
	"grad_norm": 28.66362953186035,
	"learning_rate": 4.4218942189421896e-05,
	"loss": 1.0786,
	"step": 719
	},
	{
	"epoch": 0.5313653136531366,
	"grad_norm": 25.908044815063477,
	"learning_rate": 4.428044280442805e-05,
	"loss": 1.0297,
	"step": 720
	},
	{
	"epoch": 0.5321033210332103,
	"grad_norm": 28.063125610351562,
	"learning_rate": 4.4341943419434196e-05,
	"loss": 0.9617,
	"step": 721
	},
	{
	"epoch": 0.5328413284132841,
	"grad_norm": 27.69817352294922,
	"learning_rate": 4.440344403444034e-05,
	"loss": 1.1288,
	"step": 722
	},
	{
	"epoch": 0.5335793357933579,
	"grad_norm": 30.366674423217773,
	"learning_rate": 4.4464944649446495e-05,
	"loss": 1.1191,
	"step": 723
	},
	{
	"epoch": 0.5343173431734317,
	"grad_norm": 30.783306121826172,
	"learning_rate": 4.452644526445265e-05,
	"loss": 1.1135,
	"step": 724
	},
	{
	"epoch": 0.5350553505535055,
	"grad_norm": 28.302270889282227,
	"learning_rate": 4.4587945879458795e-05,
	"loss": 1.1435,
	"step": 725
	},
	{
	"epoch": 0.5357933579335793,
	"grad_norm": 28.51706314086914,
	"learning_rate": 4.464944649446495e-05,
	"loss": 1.1788,
	"step": 726
	},
	{
	"epoch": 0.5365313653136531,
	"grad_norm": 31.32042121887207,
	"learning_rate": 4.4710947109471095e-05,
	"loss": 1.1667,
	"step": 727
	},
	{
	"epoch": 0.537269372693727,
	"grad_norm": 28.812145233154297,
	"learning_rate": 4.477244772447725e-05,
	"loss": 1.0405,
	"step": 728
	},
	{
	"epoch": 0.5380073800738008,
	"grad_norm": 26.23000717163086,
	"learning_rate": 4.4833948339483395e-05,
	"loss": 1.0401,
	"step": 729
	},
	{
	"epoch": 0.5387453874538746,
	"grad_norm": 81.6714859008789,
	"learning_rate": 4.489544895448955e-05,
	"loss": 1.1202,
	"step": 730
	},
	{
	"epoch": 0.5394833948339484,
	"grad_norm": 27.881044387817383,
	"learning_rate": 4.49569495694957e-05,
	"loss": 1.0516,
	"step": 731
	},
	{
	"epoch": 0.5402214022140222,
	"grad_norm": 29.472396850585938,
	"learning_rate": 4.501845018450185e-05,
	"loss": 1.1779,
	"step": 732
	},
	{
	"epoch": 0.5409594095940959,
	"grad_norm": 28.200910568237305,
	"learning_rate": 4.5079950799507994e-05,
	"loss": 1.018,
	"step": 733
	},
	{
	"epoch": 0.5416974169741697,
	"grad_norm": 28.53663444519043,
	"learning_rate": 4.514145141451415e-05,
	"loss": 1.1831,
	"step": 734
	},
	{
	"epoch": 0.5424354243542435,
	"grad_norm": 36.12836837768555,
	"learning_rate": 4.5202952029520294e-05,
	"loss": 1.1069,
	"step": 735
	},
	{
	"epoch": 0.5431734317343173,
	"grad_norm": 29.165285110473633,
	"learning_rate": 4.526445264452645e-05,
	"loss": 0.9832,
	"step": 736
	},
	{
	"epoch": 0.5439114391143911,
	"grad_norm": 27.385562896728516,
	"learning_rate": 4.53259532595326e-05,
	"loss": 1.0543,
	"step": 737
	},
	{
	"epoch": 0.5446494464944649,
	"grad_norm": 32.897945404052734,
	"learning_rate": 4.5387453874538747e-05,
	"loss": 1.1396,
	"step": 738
	},
	{
	"epoch": 0.5453874538745388,
	"grad_norm": 29.424503326416016,
	"learning_rate": 4.54489544895449e-05,
	"loss": 1.0489,
	"step": 739
	},
	{
	"epoch": 0.5461254612546126,
	"grad_norm": 31.19598960876465,
	"learning_rate": 4.5510455104551046e-05,
	"loss": 1.2388,
	"step": 740
	},
	{
	"epoch": 0.5468634686346864,
	"grad_norm": 28.53763198852539,
	"learning_rate": 4.55719557195572e-05,
	"loss": 1.0937,
	"step": 741
	},
	{
	"epoch": 0.5476014760147602,
	"grad_norm": 29.64959716796875,
	"learning_rate": 4.5633456334563346e-05,
	"loss": 1.0849,
	"step": 742
	},
	{
	"epoch": 0.548339483394834,
	"grad_norm": 27.357303619384766,
	"learning_rate": 4.569495694956949e-05,
	"loss": 1.1383,
	"step": 743
	},
	{
	"epoch": 0.5490774907749078,
	"grad_norm": 27.413957595825195,
	"learning_rate": 4.575645756457565e-05,
	"loss": 1.079,
	"step": 744
	},
	{
	"epoch": 0.5498154981549815,
	"grad_norm": 29.784135818481445,
	"learning_rate": 4.58179581795818e-05,
	"loss": 0.9767,
	"step": 745
	},
	{
	"epoch": 0.5505535055350553,
	"grad_norm": 55.847591400146484,
	"learning_rate": 4.5879458794587945e-05,
	"loss": 1.0553,
	"step": 746
	},
	{
	"epoch": 0.5512915129151291,
	"grad_norm": 320.68597412109375,
	"learning_rate": 4.59409594095941e-05,
	"loss": 1.1933,
	"step": 747
	},
	{
	"epoch": 0.5520295202952029,
	"grad_norm": 26.938758850097656,
	"learning_rate": 4.6002460024600245e-05,
	"loss": 1.0217,
	"step": 748
	},
	{
	"epoch": 0.5527675276752767,
	"grad_norm": 32.755672454833984,
	"learning_rate": 4.60639606396064e-05,
	"loss": 1.099,
	"step": 749
	},
	{
	"epoch": 0.5535055350553506,
	"grad_norm": 30.825178146362305,
	"learning_rate": 4.612546125461255e-05,
	"loss": 1.1831,
	"step": 750
	},
	{
	"epoch": 0.5542435424354244,
	"grad_norm": 26.865983963012695,
	"learning_rate": 4.61869618696187e-05,
	"loss": 1.172,
	"step": 751
	},
	{
	"epoch": 0.5549815498154982,
	"grad_norm": 27.207359313964844,
	"learning_rate": 4.624846248462485e-05,
	"loss": 1.1431,
	"step": 752
	},
	{
	"epoch": 0.555719557195572,
	"grad_norm": 31.474943161010742,
	"learning_rate": 4.6309963099631e-05,
	"loss": 1.0282,
	"step": 753
	},
	{
	"epoch": 0.5564575645756458,
	"grad_norm": 31.235960006713867,
	"learning_rate": 4.637146371463715e-05,
	"loss": 1.0688,
	"step": 754
	},
	{
	"epoch": 0.5571955719557196,
	"grad_norm": 26.043094635009766,
	"learning_rate": 4.64329643296433e-05,
	"loss": 1.0858,
	"step": 755
	},
	{
	"epoch": 0.5579335793357934,
	"grad_norm": 28.13475227355957,
	"learning_rate": 4.6494464944649444e-05,
	"loss": 0.9878,
	"step": 756
	},
	{
	"epoch": 0.5586715867158671,
	"grad_norm": 28.513853073120117,
	"learning_rate": 4.6555965559655604e-05,
	"loss": 0.9452,
	"step": 757
	},
	{
	"epoch": 0.5594095940959409,
	"grad_norm": 28.906461715698242,
	"learning_rate": 4.661746617466175e-05,
	"loss": 0.9423,
	"step": 758
	},
	{
	"epoch": 0.5601476014760147,
	"grad_norm": 33.28678894042969,
	"learning_rate": 4.66789667896679e-05,
	"loss": 1.1832,
	"step": 759
	},
	{
	"epoch": 0.5608856088560885,
	"grad_norm": 29.69910430908203,
	"learning_rate": 4.674046740467405e-05,
	"loss": 1.0487,
	"step": 760
	},
	{
	"epoch": 0.5616236162361624,
	"grad_norm": 81.67484283447266,
	"learning_rate": 4.6801968019680197e-05,
	"loss": 1.0789,
	"step": 761
	},
	{
	"epoch": 0.5623616236162362,
	"grad_norm": 32.282474517822266,
	"learning_rate": 4.686346863468635e-05,
	"loss": 1.0681,
	"step": 762
	},
	{
	"epoch": 0.56309963099631,
	"grad_norm": 28.49372673034668,
	"learning_rate": 4.6924969249692496e-05,
	"loss": 1.2814,
	"step": 763
	},
	{
	"epoch": 0.5638376383763838,
	"grad_norm": 33.509033203125,
	"learning_rate": 4.698646986469865e-05,
	"loss": 1.056,
	"step": 764
	},
	{
	"epoch": 0.5645756457564576,
	"grad_norm": 31.451663970947266,
	"learning_rate": 4.70479704797048e-05,
	"loss": 1.1701,
	"step": 765
	},
	{
	"epoch": 0.5653136531365314,
	"grad_norm": 28.21207618713379,
	"learning_rate": 4.710947109471095e-05,
	"loss": 1.1759,
	"step": 766
	},
	{
	"epoch": 0.5660516605166052,
	"grad_norm": 25.11651611328125,
	"learning_rate": 4.7170971709717096e-05,
	"loss": 1.0304,
	"step": 767
	},
	{
	"epoch": 0.566789667896679,
	"grad_norm": 26.841819763183594,
	"learning_rate": 4.723247232472325e-05,
	"loss": 1.035,
	"step": 768
	},
	{
	"epoch": 0.5675276752767527,
	"grad_norm": 26.381568908691406,
	"learning_rate": 4.7293972939729395e-05,
	"loss": 1.1387,
	"step": 769
	},
	{
	"epoch": 0.5682656826568265,
	"grad_norm": 29.644023895263672,
	"learning_rate": 4.7355473554735555e-05,
	"loss": 1.0994,
	"step": 770
	},
	{
	"epoch": 0.5690036900369003,
	"grad_norm": 31.37369728088379,
	"learning_rate": 4.74169741697417e-05,
	"loss": 1.124,
	"step": 771
	},
	{
	"epoch": 0.5697416974169742,
	"grad_norm": 29.403026580810547,
	"learning_rate": 4.747847478474785e-05,
	"loss": 1.0507,
	"step": 772
	},
	{
	"epoch": 0.570479704797048,
	"grad_norm": 28.384349822998047,
	"learning_rate": 4.7539975399754e-05,
	"loss": 1.0764,
	"step": 773
	},
	{
	"epoch": 0.5712177121771218,
	"grad_norm": 67.28231811523438,
	"learning_rate": 4.760147601476015e-05,
	"loss": 1.0503,
	"step": 774
	},
	{
	"epoch": 0.5719557195571956,
	"grad_norm": 29.146886825561523,
	"learning_rate": 4.76629766297663e-05,
	"loss": 1.0136,
	"step": 775
	},
	{
	"epoch": 0.5726937269372694,
	"grad_norm": 60.2903938293457,
	"learning_rate": 4.772447724477245e-05,
	"loss": 1.0508,
	"step": 776
	},
	{
	"epoch": 0.5734317343173432,
	"grad_norm": 28.743024826049805,
	"learning_rate": 4.77859778597786e-05,
	"loss": 1.0318,
	"step": 777
	},
	{
	"epoch": 0.574169741697417,
	"grad_norm": 30.6608943939209,
	"learning_rate": 4.7847478474784754e-05,
	"loss": 1.09,
	"step": 778
	},
	{
	"epoch": 0.5749077490774908,
	"grad_norm": 56.827152252197266,
	"learning_rate": 4.79089790897909e-05,
	"loss": 0.9897,
	"step": 779
	},
	{
	"epoch": 0.5756457564575646,
	"grad_norm": 32.71049499511719,
	"learning_rate": 4.797047970479705e-05,
	"loss": 1.1841,
	"step": 780
	},
	{
	"epoch": 0.5763837638376383,
	"grad_norm": 29.06208038330078,
	"learning_rate": 4.80319803198032e-05,
	"loss": 1.2583,
	"step": 781
	},
	{
	"epoch": 0.5771217712177121,
	"grad_norm": 26.83561897277832,
	"learning_rate": 4.809348093480935e-05,
	"loss": 1.07,
	"step": 782
	},
	{
	"epoch": 0.5778597785977859,
	"grad_norm": 28.882770538330078,
	"learning_rate": 4.81549815498155e-05,
	"loss": 1.1521,
	"step": 783
	},
	{
	"epoch": 0.5785977859778598,
	"grad_norm": 90.4433822631836,
	"learning_rate": 4.821648216482165e-05,
	"loss": 1.0745,
	"step": 784
	},
	{
	"epoch": 0.5793357933579336,
	"grad_norm": 30.003938674926758,
	"learning_rate": 4.82779827798278e-05,
	"loss": 1.1911,
	"step": 785
	},
	{
	"epoch": 0.5800738007380074,
	"grad_norm": 63.82630920410156,
	"learning_rate": 4.833948339483395e-05,
	"loss": 1.1678,
	"step": 786
	},
	{
	"epoch": 0.5808118081180812,
	"grad_norm": 238.10055541992188,
	"learning_rate": 4.84009840098401e-05,
	"loss": 1.3465,
	"step": 787
	},
	{
	"epoch": 0.581549815498155,
	"grad_norm": 311.88134765625,
	"learning_rate": 4.846248462484625e-05,
	"loss": 2.3681,
	"step": 788
	},
	{
	"epoch": 0.5822878228782288,
	"grad_norm": 79.10831451416016,
	"learning_rate": 4.85239852398524e-05,
	"loss": 1.3595,
	"step": 789
	},
	{
	"epoch": 0.5830258302583026,
	"grad_norm": 195.71676635742188,
	"learning_rate": 4.858548585485855e-05,
	"loss": 1.8711,
	"step": 790
	},
	{
	"epoch": 0.5837638376383764,
	"grad_norm": 223.3916015625,
	"learning_rate": 4.8646986469864706e-05,
	"loss": 2.4052,
	"step": 791
	},
	{
	"epoch": 0.5845018450184502,
	"grad_norm": 33.84809875488281,
	"learning_rate": 4.870848708487085e-05,
	"loss": 1.04,
	"step": 792
	},
	{
	"epoch": 0.5852398523985239,
	"grad_norm": 134.23912048339844,
	"learning_rate": 4.8769987699877e-05,
	"loss": 2.6438,
	"step": 793
	},
	{
	"epoch": 0.5859778597785977,
	"grad_norm": 44.83888244628906,
	"learning_rate": 4.883148831488315e-05,
	"loss": 1.4395,
	"step": 794
	},
	{
	"epoch": 0.5867158671586716,
	"grad_norm": 299.56988525390625,
	"learning_rate": 4.88929889298893e-05,
	"loss": 1.6989,
	"step": 795
	},
	{
	"epoch": 0.5874538745387454,
	"grad_norm": 284.4837341308594,
	"learning_rate": 4.895448954489545e-05,
	"loss": 2.2906,
	"step": 796
	},
	{
	"epoch": 0.5881918819188192,
	"grad_norm": 53.7056884765625,
	"learning_rate": 4.9015990159901605e-05,
	"loss": 1.3129,
	"step": 797
	},
	{
	"epoch": 0.588929889298893,
	"grad_norm": 117.8404769897461,
	"learning_rate": 4.907749077490775e-05,
	"loss": 1.916,
	"step": 798
	},
	{
	"epoch": 0.5896678966789668,
	"grad_norm": 51.02519607543945,
	"learning_rate": 4.9138991389913904e-05,
	"loss": 2.0983,
	"step": 799
	},
	{
	"epoch": 0.5904059040590406,
	"grad_norm": 376.12225341796875,
	"learning_rate": 4.920049200492005e-05,
	"loss": 1.5877,
	"step": 800
	},
	{
	"epoch": 0.5904059040590406,
	"eval_loss": 1.3728182315826416,
	"eval_runtime": 305.6963,
	"eval_samples_per_second": 3.759,
	"eval_steps_per_second": 0.314,
	"step": 800
	}
	],
	"logging_steps": 1,
	"max_steps": 4065,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.5604991497978511e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}