SaplingDream_V1-0.5B / checkpoint-600 /trainer_state.json

Upload 14 files

ac38b26 10 days ago

134 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.04202894743754761,
	"eval_steps": 200,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 7.004824572924602e-05,
	"grad_norm": 6.222772121429443,
	"learning_rate": 9.99930017513135e-05,
	"loss": 1.1076,
	"num_input_tokens_seen": 16384,
	"step": 1
	},
	{
	"epoch": 0.00014009649145849205,
	"grad_norm": 6.042057037353516,
	"learning_rate": 9.998600350262697e-05,
	"loss": 1.1086,
	"num_input_tokens_seen": 32768,
	"step": 2
	},
	{
	"epoch": 0.00021014473718773804,
	"grad_norm": 7.119229316711426,
	"learning_rate": 9.997900525394046e-05,
	"loss": 1.4047,
	"num_input_tokens_seen": 49152,
	"step": 3
	},
	{
	"epoch": 0.0002801929829169841,
	"grad_norm": 7.133191108703613,
	"learning_rate": 9.997200700525395e-05,
	"loss": 1.3921,
	"num_input_tokens_seen": 65536,
	"step": 4
	},
	{
	"epoch": 0.0003502412286462301,
	"grad_norm": 6.1078338623046875,
	"learning_rate": 9.996500875656743e-05,
	"loss": 1.3171,
	"num_input_tokens_seen": 81920,
	"step": 5
	},
	{
	"epoch": 0.0004202894743754761,
	"grad_norm": 6.466420650482178,
	"learning_rate": 9.995801050788092e-05,
	"loss": 1.0732,
	"num_input_tokens_seen": 97344,
	"step": 6
	},
	{
	"epoch": 0.0004903377201047221,
	"grad_norm": 5.578189849853516,
	"learning_rate": 9.99510122591944e-05,
	"loss": 0.9929,
	"num_input_tokens_seen": 113728,
	"step": 7
	},
	{
	"epoch": 0.0005603859658339682,
	"grad_norm": 7.197720527648926,
	"learning_rate": 9.994401401050789e-05,
	"loss": 1.2512,
	"num_input_tokens_seen": 129528,
	"step": 8
	},
	{
	"epoch": 0.0006304342115632141,
	"grad_norm": 6.618913650512695,
	"learning_rate": 9.993701576182136e-05,
	"loss": 1.3495,
	"num_input_tokens_seen": 145704,
	"step": 9
	},
	{
	"epoch": 0.0007004824572924602,
	"grad_norm": 6.955508232116699,
	"learning_rate": 9.993001751313485e-05,
	"loss": 1.1823,
	"num_input_tokens_seen": 161664,
	"step": 10
	},
	{
	"epoch": 0.0007705307030217062,
	"grad_norm": 6.6807074546813965,
	"learning_rate": 9.992301926444835e-05,
	"loss": 1.1693,
	"num_input_tokens_seen": 177960,
	"step": 11
	},
	{
	"epoch": 0.0008405789487509522,
	"grad_norm": 6.784447193145752,
	"learning_rate": 9.991602101576183e-05,
	"loss": 1.3744,
	"num_input_tokens_seen": 194344,
	"step": 12
	},
	{
	"epoch": 0.0009106271944801982,
	"grad_norm": 6.7418437004089355,
	"learning_rate": 9.990902276707532e-05,
	"loss": 1.22,
	"num_input_tokens_seen": 210728,
	"step": 13
	},
	{
	"epoch": 0.0009806754402094443,
	"grad_norm": 6.43395471572876,
	"learning_rate": 9.990202451838879e-05,
	"loss": 1.1772,
	"num_input_tokens_seen": 227112,
	"step": 14
	},
	{
	"epoch": 0.0010507236859386903,
	"grad_norm": 6.09422492980957,
	"learning_rate": 9.989502626970228e-05,
	"loss": 1.195,
	"num_input_tokens_seen": 243496,
	"step": 15
	},
	{
	"epoch": 0.0011207719316679364,
	"grad_norm": 6.238271236419678,
	"learning_rate": 9.988802802101577e-05,
	"loss": 1.2623,
	"num_input_tokens_seen": 259744,
	"step": 16
	},
	{
	"epoch": 0.0011908201773971822,
	"grad_norm": 6.56187629699707,
	"learning_rate": 9.988102977232926e-05,
	"loss": 1.2721,
	"num_input_tokens_seen": 276128,
	"step": 17
	},
	{
	"epoch": 0.0012608684231264283,
	"grad_norm": 6.818358898162842,
	"learning_rate": 9.987403152364275e-05,
	"loss": 1.2649,
	"num_input_tokens_seen": 292512,
	"step": 18
	},
	{
	"epoch": 0.0013309166688556743,
	"grad_norm": 5.950352191925049,
	"learning_rate": 9.986703327495622e-05,
	"loss": 1.0024,
	"num_input_tokens_seen": 308632,
	"step": 19
	},
	{
	"epoch": 0.0014009649145849204,
	"grad_norm": 6.387479305267334,
	"learning_rate": 9.986003502626971e-05,
	"loss": 1.2783,
	"num_input_tokens_seen": 325016,
	"step": 20
	},
	{
	"epoch": 0.0014710131603141664,
	"grad_norm": 6.187346458435059,
	"learning_rate": 9.985303677758318e-05,
	"loss": 1.1701,
	"num_input_tokens_seen": 341384,
	"step": 21
	},
	{
	"epoch": 0.0015410614060434125,
	"grad_norm": 5.371951103210449,
	"learning_rate": 9.984603852889667e-05,
	"loss": 1.0483,
	"num_input_tokens_seen": 357768,
	"step": 22
	},
	{
	"epoch": 0.0016111096517726585,
	"grad_norm": 6.2206807136535645,
	"learning_rate": 9.983904028021016e-05,
	"loss": 1.2516,
	"num_input_tokens_seen": 374152,
	"step": 23
	},
	{
	"epoch": 0.0016811578975019044,
	"grad_norm": 6.121264457702637,
	"learning_rate": 9.983204203152365e-05,
	"loss": 1.1506,
	"num_input_tokens_seen": 390536,
	"step": 24
	},
	{
	"epoch": 0.0017512061432311504,
	"grad_norm": 6.353756904602051,
	"learning_rate": 9.982504378283714e-05,
	"loss": 1.3118,
	"num_input_tokens_seen": 406920,
	"step": 25
	},
	{
	"epoch": 0.0018212543889603965,
	"grad_norm": 6.270686149597168,
	"learning_rate": 9.981804553415061e-05,
	"loss": 1.0883,
	"num_input_tokens_seen": 422728,
	"step": 26
	},
	{
	"epoch": 0.0018913026346896425,
	"grad_norm": 6.117632865905762,
	"learning_rate": 9.98110472854641e-05,
	"loss": 1.3346,
	"num_input_tokens_seen": 439112,
	"step": 27
	},
	{
	"epoch": 0.0019613508804188886,
	"grad_norm": 6.429015159606934,
	"learning_rate": 9.980404903677759e-05,
	"loss": 1.2494,
	"num_input_tokens_seen": 455144,
	"step": 28
	},
	{
	"epoch": 0.0020313991261481346,
	"grad_norm": 6.4467620849609375,
	"learning_rate": 9.979705078809107e-05,
	"loss": 1.3335,
	"num_input_tokens_seen": 470360,
	"step": 29
	},
	{
	"epoch": 0.0021014473718773807,
	"grad_norm": 6.57926082611084,
	"learning_rate": 9.979005253940455e-05,
	"loss": 1.2126,
	"num_input_tokens_seen": 486120,
	"step": 30
	},
	{
	"epoch": 0.0021714956176066267,
	"grad_norm": 5.650569915771484,
	"learning_rate": 9.978305429071804e-05,
	"loss": 1.1363,
	"num_input_tokens_seen": 501896,
	"step": 31
	},
	{
	"epoch": 0.0022415438633358728,
	"grad_norm": 6.380292892456055,
	"learning_rate": 9.977605604203153e-05,
	"loss": 1.2251,
	"num_input_tokens_seen": 517752,
	"step": 32
	},
	{
	"epoch": 0.002311592109065119,
	"grad_norm": 5.704173564910889,
	"learning_rate": 9.976905779334502e-05,
	"loss": 1.1685,
	"num_input_tokens_seen": 534136,
	"step": 33
	},
	{
	"epoch": 0.0023816403547943644,
	"grad_norm": 5.342978000640869,
	"learning_rate": 9.97620595446585e-05,
	"loss": 1.2012,
	"num_input_tokens_seen": 550216,
	"step": 34
	},
	{
	"epoch": 0.0024516886005236105,
	"grad_norm": 5.7014241218566895,
	"learning_rate": 9.975506129597198e-05,
	"loss": 1.2342,
	"num_input_tokens_seen": 566600,
	"step": 35
	},
	{
	"epoch": 0.0025217368462528565,
	"grad_norm": 6.26229190826416,
	"learning_rate": 9.974806304728546e-05,
	"loss": 1.2041,
	"num_input_tokens_seen": 582984,
	"step": 36
	},
	{
	"epoch": 0.0025917850919821026,
	"grad_norm": 6.583463191986084,
	"learning_rate": 9.974106479859896e-05,
	"loss": 1.3021,
	"num_input_tokens_seen": 598968,
	"step": 37
	},
	{
	"epoch": 0.0026618333377113486,
	"grad_norm": 5.58498477935791,
	"learning_rate": 9.973406654991245e-05,
	"loss": 1.1622,
	"num_input_tokens_seen": 614840,
	"step": 38
	},
	{
	"epoch": 0.0027318815834405947,
	"grad_norm": 5.906906604766846,
	"learning_rate": 9.972706830122592e-05,
	"loss": 1.1971,
	"num_input_tokens_seen": 631224,
	"step": 39
	},
	{
	"epoch": 0.0028019298291698407,
	"grad_norm": 5.962359428405762,
	"learning_rate": 9.972007005253941e-05,
	"loss": 1.1326,
	"num_input_tokens_seen": 647000,
	"step": 40
	},
	{
	"epoch": 0.002871978074899087,
	"grad_norm": 6.447500705718994,
	"learning_rate": 9.971307180385289e-05,
	"loss": 1.0905,
	"num_input_tokens_seen": 662480,
	"step": 41
	},
	{
	"epoch": 0.002942026320628333,
	"grad_norm": 5.7290520668029785,
	"learning_rate": 9.970607355516638e-05,
	"loss": 1.3585,
	"num_input_tokens_seen": 678480,
	"step": 42
	},
	{
	"epoch": 0.003012074566357579,
	"grad_norm": 6.063445568084717,
	"learning_rate": 9.969907530647987e-05,
	"loss": 1.2841,
	"num_input_tokens_seen": 694256,
	"step": 43
	},
	{
	"epoch": 0.003082122812086825,
	"grad_norm": 5.302809238433838,
	"learning_rate": 9.969207705779335e-05,
	"loss": 1.1168,
	"num_input_tokens_seen": 710152,
	"step": 44
	},
	{
	"epoch": 0.003152171057816071,
	"grad_norm": 5.634128093719482,
	"learning_rate": 9.968507880910684e-05,
	"loss": 1.0609,
	"num_input_tokens_seen": 726184,
	"step": 45
	},
	{
	"epoch": 0.003222219303545317,
	"grad_norm": 5.652642726898193,
	"learning_rate": 9.967808056042032e-05,
	"loss": 1.2228,
	"num_input_tokens_seen": 742520,
	"step": 46
	},
	{
	"epoch": 0.0032922675492745627,
	"grad_norm": 5.340751647949219,
	"learning_rate": 9.96710823117338e-05,
	"loss": 1.0595,
	"num_input_tokens_seen": 758904,
	"step": 47
	},
	{
	"epoch": 0.0033623157950038087,
	"grad_norm": 5.422239780426025,
	"learning_rate": 9.966408406304728e-05,
	"loss": 1.1161,
	"num_input_tokens_seen": 775040,
	"step": 48
	},
	{
	"epoch": 0.0034323640407330548,
	"grad_norm": 5.29241418838501,
	"learning_rate": 9.965708581436077e-05,
	"loss": 1.0255,
	"num_input_tokens_seen": 790856,
	"step": 49
	},
	{
	"epoch": 0.003502412286462301,
	"grad_norm": 5.146270275115967,
	"learning_rate": 9.965008756567426e-05,
	"loss": 0.9762,
	"num_input_tokens_seen": 807064,
	"step": 50
	},
	{
	"epoch": 0.003572460532191547,
	"grad_norm": 5.825758457183838,
	"learning_rate": 9.964308931698775e-05,
	"loss": 1.2108,
	"num_input_tokens_seen": 823448,
	"step": 51
	},
	{
	"epoch": 0.003642508777920793,
	"grad_norm": 6.179538726806641,
	"learning_rate": 9.963609106830124e-05,
	"loss": 1.322,
	"num_input_tokens_seen": 838888,
	"step": 52
	},
	{
	"epoch": 0.003712557023650039,
	"grad_norm": 6.464454174041748,
	"learning_rate": 9.962909281961471e-05,
	"loss": 1.5077,
	"num_input_tokens_seen": 855272,
	"step": 53
	},
	{
	"epoch": 0.003782605269379285,
	"grad_norm": 5.4227294921875,
	"learning_rate": 9.96220945709282e-05,
	"loss": 1.2679,
	"num_input_tokens_seen": 871656,
	"step": 54
	},
	{
	"epoch": 0.003852653515108531,
	"grad_norm": 5.949041366577148,
	"learning_rate": 9.961509632224169e-05,
	"loss": 1.3618,
	"num_input_tokens_seen": 888040,
	"step": 55
	},
	{
	"epoch": 0.003922701760837777,
	"grad_norm": 6.050904750823975,
	"learning_rate": 9.960809807355516e-05,
	"loss": 1.3155,
	"num_input_tokens_seen": 904400,
	"step": 56
	},
	{
	"epoch": 0.003992750006567023,
	"grad_norm": 6.048308849334717,
	"learning_rate": 9.960109982486866e-05,
	"loss": 1.3131,
	"num_input_tokens_seen": 919952,
	"step": 57
	},
	{
	"epoch": 0.004062798252296269,
	"grad_norm": 5.683863162994385,
	"learning_rate": 9.959410157618214e-05,
	"loss": 1.1692,
	"num_input_tokens_seen": 936336,
	"step": 58
	},
	{
	"epoch": 0.004132846498025515,
	"grad_norm": 5.449287414550781,
	"learning_rate": 9.958710332749563e-05,
	"loss": 1.0613,
	"num_input_tokens_seen": 952152,
	"step": 59
	},
	{
	"epoch": 0.004202894743754761,
	"grad_norm": 5.31496524810791,
	"learning_rate": 9.958010507880912e-05,
	"loss": 0.9605,
	"num_input_tokens_seen": 967824,
	"step": 60
	},
	{
	"epoch": 0.004272942989484007,
	"grad_norm": 5.57105016708374,
	"learning_rate": 9.957310683012259e-05,
	"loss": 1.1701,
	"num_input_tokens_seen": 983864,
	"step": 61
	},
	{
	"epoch": 0.004342991235213253,
	"grad_norm": 5.3456830978393555,
	"learning_rate": 9.956610858143608e-05,
	"loss": 1.0995,
	"num_input_tokens_seen": 1000248,
	"step": 62
	},
	{
	"epoch": 0.004413039480942499,
	"grad_norm": 5.453295707702637,
	"learning_rate": 9.955911033274957e-05,
	"loss": 1.2413,
	"num_input_tokens_seen": 1016632,
	"step": 63
	},
	{
	"epoch": 0.0044830877266717455,
	"grad_norm": 4.975449562072754,
	"learning_rate": 9.955211208406306e-05,
	"loss": 1.0961,
	"num_input_tokens_seen": 1033016,
	"step": 64
	},
	{
	"epoch": 0.004553135972400991,
	"grad_norm": 5.542137145996094,
	"learning_rate": 9.954511383537655e-05,
	"loss": 1.1171,
	"num_input_tokens_seen": 1049400,
	"step": 65
	},
	{
	"epoch": 0.004623184218130238,
	"grad_norm": 5.213950157165527,
	"learning_rate": 9.953811558669002e-05,
	"loss": 1.2228,
	"num_input_tokens_seen": 1065784,
	"step": 66
	},
	{
	"epoch": 0.004693232463859483,
	"grad_norm": 5.496099948883057,
	"learning_rate": 9.953111733800351e-05,
	"loss": 1.1529,
	"num_input_tokens_seen": 1082168,
	"step": 67
	},
	{
	"epoch": 0.004763280709588729,
	"grad_norm": 5.64145565032959,
	"learning_rate": 9.952411908931698e-05,
	"loss": 1.2301,
	"num_input_tokens_seen": 1098024,
	"step": 68
	},
	{
	"epoch": 0.004833328955317975,
	"grad_norm": 5.566709995269775,
	"learning_rate": 9.951712084063047e-05,
	"loss": 1.2679,
	"num_input_tokens_seen": 1114408,
	"step": 69
	},
	{
	"epoch": 0.004903377201047221,
	"grad_norm": 6.443673133850098,
	"learning_rate": 9.951012259194396e-05,
	"loss": 1.2313,
	"num_input_tokens_seen": 1130792,
	"step": 70
	},
	{
	"epoch": 0.0049734254467764675,
	"grad_norm": 5.882962226867676,
	"learning_rate": 9.950312434325745e-05,
	"loss": 1.4304,
	"num_input_tokens_seen": 1147176,
	"step": 71
	},
	{
	"epoch": 0.005043473692505713,
	"grad_norm": 6.0052666664123535,
	"learning_rate": 9.949612609457094e-05,
	"loss": 1.3027,
	"num_input_tokens_seen": 1160968,
	"step": 72
	},
	{
	"epoch": 0.0051135219382349596,
	"grad_norm": 5.260256767272949,
	"learning_rate": 9.948912784588441e-05,
	"loss": 1.1526,
	"num_input_tokens_seen": 1177352,
	"step": 73
	},
	{
	"epoch": 0.005183570183964205,
	"grad_norm": 5.641814708709717,
	"learning_rate": 9.94821295971979e-05,
	"loss": 1.0666,
	"num_input_tokens_seen": 1193032,
	"step": 74
	},
	{
	"epoch": 0.005253618429693452,
	"grad_norm": 5.121115207672119,
	"learning_rate": 9.947513134851138e-05,
	"loss": 1.2404,
	"num_input_tokens_seen": 1208952,
	"step": 75
	},
	{
	"epoch": 0.005323666675422697,
	"grad_norm": 5.63930082321167,
	"learning_rate": 9.946813309982487e-05,
	"loss": 1.5127,
	"num_input_tokens_seen": 1225000,
	"step": 76
	},
	{
	"epoch": 0.005393714921151944,
	"grad_norm": 4.880716800689697,
	"learning_rate": 9.946113485113837e-05,
	"loss": 1.1484,
	"num_input_tokens_seen": 1241384,
	"step": 77
	},
	{
	"epoch": 0.005463763166881189,
	"grad_norm": 5.59611177444458,
	"learning_rate": 9.945413660245184e-05,
	"loss": 1.1678,
	"num_input_tokens_seen": 1257680,
	"step": 78
	},
	{
	"epoch": 0.005533811412610436,
	"grad_norm": 5.052026271820068,
	"learning_rate": 9.944713835376533e-05,
	"loss": 1.2207,
	"num_input_tokens_seen": 1274064,
	"step": 79
	},
	{
	"epoch": 0.0056038596583396815,
	"grad_norm": 5.285096168518066,
	"learning_rate": 9.944014010507881e-05,
	"loss": 1.1457,
	"num_input_tokens_seen": 1290448,
	"step": 80
	},
	{
	"epoch": 0.005673907904068927,
	"grad_norm": 5.4286580085754395,
	"learning_rate": 9.94331418563923e-05,
	"loss": 1.3047,
	"num_input_tokens_seen": 1306832,
	"step": 81
	},
	{
	"epoch": 0.005743956149798174,
	"grad_norm": 5.937953472137451,
	"learning_rate": 9.942614360770578e-05,
	"loss": 1.4353,
	"num_input_tokens_seen": 1323216,
	"step": 82
	},
	{
	"epoch": 0.005814004395527419,
	"grad_norm": 5.129006385803223,
	"learning_rate": 9.941914535901927e-05,
	"loss": 1.1434,
	"num_input_tokens_seen": 1339408,
	"step": 83
	},
	{
	"epoch": 0.005884052641256666,
	"grad_norm": 5.179675102233887,
	"learning_rate": 9.941214711033276e-05,
	"loss": 1.2452,
	"num_input_tokens_seen": 1355792,
	"step": 84
	},
	{
	"epoch": 0.005954100886985911,
	"grad_norm": 4.912832736968994,
	"learning_rate": 9.940514886164624e-05,
	"loss": 1.1255,
	"num_input_tokens_seen": 1372176,
	"step": 85
	},
	{
	"epoch": 0.006024149132715158,
	"grad_norm": 5.190899848937988,
	"learning_rate": 9.939815061295973e-05,
	"loss": 1.2543,
	"num_input_tokens_seen": 1388560,
	"step": 86
	},
	{
	"epoch": 0.006094197378444403,
	"grad_norm": 5.1751275062561035,
	"learning_rate": 9.939115236427321e-05,
	"loss": 1.3145,
	"num_input_tokens_seen": 1404944,
	"step": 87
	},
	{
	"epoch": 0.00616424562417365,
	"grad_norm": 5.450705528259277,
	"learning_rate": 9.938415411558669e-05,
	"loss": 1.2844,
	"num_input_tokens_seen": 1421328,
	"step": 88
	},
	{
	"epoch": 0.0062342938699028955,
	"grad_norm": 5.593935012817383,
	"learning_rate": 9.937715586690018e-05,
	"loss": 1.3284,
	"num_input_tokens_seen": 1437464,
	"step": 89
	},
	{
	"epoch": 0.006304342115632142,
	"grad_norm": 5.156428813934326,
	"learning_rate": 9.937015761821367e-05,
	"loss": 1.1682,
	"num_input_tokens_seen": 1452952,
	"step": 90
	},
	{
	"epoch": 0.006374390361361388,
	"grad_norm": 4.673638820648193,
	"learning_rate": 9.936315936952715e-05,
	"loss": 1.004,
	"num_input_tokens_seen": 1469336,
	"step": 91
	},
	{
	"epoch": 0.006444438607090634,
	"grad_norm": 4.996700763702393,
	"learning_rate": 9.935616112084064e-05,
	"loss": 1.087,
	"num_input_tokens_seen": 1485448,
	"step": 92
	},
	{
	"epoch": 0.00651448685281988,
	"grad_norm": 4.817474365234375,
	"learning_rate": 9.934916287215412e-05,
	"loss": 1.151,
	"num_input_tokens_seen": 1501472,
	"step": 93
	},
	{
	"epoch": 0.006584535098549125,
	"grad_norm": 5.400479316711426,
	"learning_rate": 9.934216462346761e-05,
	"loss": 1.3144,
	"num_input_tokens_seen": 1516424,
	"step": 94
	},
	{
	"epoch": 0.006654583344278372,
	"grad_norm": 5.232216835021973,
	"learning_rate": 9.933516637478108e-05,
	"loss": 1.0019,
	"num_input_tokens_seen": 1532792,
	"step": 95
	},
	{
	"epoch": 0.006724631590007617,
	"grad_norm": 5.392521381378174,
	"learning_rate": 9.932816812609457e-05,
	"loss": 1.3195,
	"num_input_tokens_seen": 1548600,
	"step": 96
	},
	{
	"epoch": 0.006794679835736864,
	"grad_norm": 5.5280866622924805,
	"learning_rate": 9.932116987740806e-05,
	"loss": 1.283,
	"num_input_tokens_seen": 1564088,
	"step": 97
	},
	{
	"epoch": 0.0068647280814661095,
	"grad_norm": 4.963179588317871,
	"learning_rate": 9.931417162872155e-05,
	"loss": 1.2716,
	"num_input_tokens_seen": 1580040,
	"step": 98
	},
	{
	"epoch": 0.006934776327195356,
	"grad_norm": 4.920302391052246,
	"learning_rate": 9.930717338003504e-05,
	"loss": 1.088,
	"num_input_tokens_seen": 1595880,
	"step": 99
	},
	{
	"epoch": 0.007004824572924602,
	"grad_norm": 4.935486793518066,
	"learning_rate": 9.930017513134851e-05,
	"loss": 1.0122,
	"num_input_tokens_seen": 1611864,
	"step": 100
	},
	{
	"epoch": 0.007074872818653848,
	"grad_norm": 5.099087238311768,
	"learning_rate": 9.9293176882662e-05,
	"loss": 1.1605,
	"num_input_tokens_seen": 1627472,
	"step": 101
	},
	{
	"epoch": 0.007144921064383094,
	"grad_norm": 5.3764328956604,
	"learning_rate": 9.928617863397548e-05,
	"loss": 1.2225,
	"num_input_tokens_seen": 1643856,
	"step": 102
	},
	{
	"epoch": 0.00721496931011234,
	"grad_norm": 5.281564712524414,
	"learning_rate": 9.927918038528898e-05,
	"loss": 1.1483,
	"num_input_tokens_seen": 1660240,
	"step": 103
	},
	{
	"epoch": 0.007285017555841586,
	"grad_norm": 5.395167827606201,
	"learning_rate": 9.927218213660247e-05,
	"loss": 1.6014,
	"num_input_tokens_seen": 1676624,
	"step": 104
	},
	{
	"epoch": 0.007355065801570832,
	"grad_norm": 5.322319507598877,
	"learning_rate": 9.926518388791594e-05,
	"loss": 1.0933,
	"num_input_tokens_seen": 1693008,
	"step": 105
	},
	{
	"epoch": 0.007425114047300078,
	"grad_norm": 5.301229953765869,
	"learning_rate": 9.925818563922943e-05,
	"loss": 1.1998,
	"num_input_tokens_seen": 1708424,
	"step": 106
	},
	{
	"epoch": 0.0074951622930293236,
	"grad_norm": 4.958597183227539,
	"learning_rate": 9.92511873905429e-05,
	"loss": 1.3285,
	"num_input_tokens_seen": 1724808,
	"step": 107
	},
	{
	"epoch": 0.00756521053875857,
	"grad_norm": 4.3913960456848145,
	"learning_rate": 9.924418914185639e-05,
	"loss": 0.9017,
	"num_input_tokens_seen": 1740752,
	"step": 108
	},
	{
	"epoch": 0.007635258784487816,
	"grad_norm": 5.401021480560303,
	"learning_rate": 9.923719089316988e-05,
	"loss": 1.3646,
	"num_input_tokens_seen": 1755176,
	"step": 109
	},
	{
	"epoch": 0.007705307030217062,
	"grad_norm": 4.894444942474365,
	"learning_rate": 9.923019264448337e-05,
	"loss": 0.9955,
	"num_input_tokens_seen": 1771560,
	"step": 110
	},
	{
	"epoch": 0.007775355275946308,
	"grad_norm": 4.878688335418701,
	"learning_rate": 9.922319439579686e-05,
	"loss": 1.1766,
	"num_input_tokens_seen": 1787944,
	"step": 111
	},
	{
	"epoch": 0.007845403521675554,
	"grad_norm": 4.9379777908325195,
	"learning_rate": 9.921619614711033e-05,
	"loss": 1.1631,
	"num_input_tokens_seen": 1803568,
	"step": 112
	},
	{
	"epoch": 0.0079154517674048,
	"grad_norm": 5.101811408996582,
	"learning_rate": 9.920919789842382e-05,
	"loss": 1.2165,
	"num_input_tokens_seen": 1819952,
	"step": 113
	},
	{
	"epoch": 0.007985500013134045,
	"grad_norm": 5.32574987411499,
	"learning_rate": 9.920219964973731e-05,
	"loss": 1.3012,
	"num_input_tokens_seen": 1835296,
	"step": 114
	},
	{
	"epoch": 0.008055548258863293,
	"grad_norm": 5.2391180992126465,
	"learning_rate": 9.919520140105079e-05,
	"loss": 1.2451,
	"num_input_tokens_seen": 1851224,
	"step": 115
	},
	{
	"epoch": 0.008125596504592538,
	"grad_norm": 4.865017890930176,
	"learning_rate": 9.918820315236427e-05,
	"loss": 1.1683,
	"num_input_tokens_seen": 1867608,
	"step": 116
	},
	{
	"epoch": 0.008195644750321784,
	"grad_norm": 4.943136215209961,
	"learning_rate": 9.918120490367776e-05,
	"loss": 1.31,
	"num_input_tokens_seen": 1883696,
	"step": 117
	},
	{
	"epoch": 0.00826569299605103,
	"grad_norm": 4.769871711730957,
	"learning_rate": 9.917420665499125e-05,
	"loss": 1.1212,
	"num_input_tokens_seen": 1900080,
	"step": 118
	},
	{
	"epoch": 0.008335741241780275,
	"grad_norm": 4.785780429840088,
	"learning_rate": 9.916720840630474e-05,
	"loss": 1.2415,
	"num_input_tokens_seen": 1916464,
	"step": 119
	},
	{
	"epoch": 0.008405789487509523,
	"grad_norm": 4.802333831787109,
	"learning_rate": 9.916021015761822e-05,
	"loss": 1.0513,
	"num_input_tokens_seen": 1932848,
	"step": 120
	},
	{
	"epoch": 0.008475837733238768,
	"grad_norm": 5.22212553024292,
	"learning_rate": 9.91532119089317e-05,
	"loss": 1.2574,
	"num_input_tokens_seen": 1949232,
	"step": 121
	},
	{
	"epoch": 0.008545885978968014,
	"grad_norm": 5.104204177856445,
	"learning_rate": 9.914621366024518e-05,
	"loss": 1.0436,
	"num_input_tokens_seen": 1964184,
	"step": 122
	},
	{
	"epoch": 0.00861593422469726,
	"grad_norm": 5.11055326461792,
	"learning_rate": 9.913921541155868e-05,
	"loss": 1.1939,
	"num_input_tokens_seen": 1980568,
	"step": 123
	},
	{
	"epoch": 0.008685982470426507,
	"grad_norm": 4.784866809844971,
	"learning_rate": 9.913221716287216e-05,
	"loss": 1.2056,
	"num_input_tokens_seen": 1996952,
	"step": 124
	},
	{
	"epoch": 0.008756030716155752,
	"grad_norm": 4.763037204742432,
	"learning_rate": 9.912521891418564e-05,
	"loss": 1.1403,
	"num_input_tokens_seen": 2013336,
	"step": 125
	},
	{
	"epoch": 0.008826078961884998,
	"grad_norm": 4.813408851623535,
	"learning_rate": 9.911822066549913e-05,
	"loss": 1.1897,
	"num_input_tokens_seen": 2029720,
	"step": 126
	},
	{
	"epoch": 0.008896127207614244,
	"grad_norm": 4.79008674621582,
	"learning_rate": 9.911122241681261e-05,
	"loss": 1.2315,
	"num_input_tokens_seen": 2046104,
	"step": 127
	},
	{
	"epoch": 0.008966175453343491,
	"grad_norm": 4.843508720397949,
	"learning_rate": 9.91042241681261e-05,
	"loss": 1.0883,
	"num_input_tokens_seen": 2061592,
	"step": 128
	},
	{
	"epoch": 0.009036223699072737,
	"grad_norm": 4.917592525482178,
	"learning_rate": 9.909722591943959e-05,
	"loss": 1.2512,
	"num_input_tokens_seen": 2077792,
	"step": 129
	},
	{
	"epoch": 0.009106271944801982,
	"grad_norm": 4.9154133796691895,
	"learning_rate": 9.909022767075307e-05,
	"loss": 1.3284,
	"num_input_tokens_seen": 2094176,
	"step": 130
	},
	{
	"epoch": 0.009176320190531228,
	"grad_norm": 5.2125420570373535,
	"learning_rate": 9.908322942206656e-05,
	"loss": 1.3469,
	"num_input_tokens_seen": 2110480,
	"step": 131
	},
	{
	"epoch": 0.009246368436260475,
	"grad_norm": 4.715712547302246,
	"learning_rate": 9.907623117338004e-05,
	"loss": 1.0844,
	"num_input_tokens_seen": 2126864,
	"step": 132
	},
	{
	"epoch": 0.009316416681989721,
	"grad_norm": 4.805694580078125,
	"learning_rate": 9.906923292469353e-05,
	"loss": 1.069,
	"num_input_tokens_seen": 2142848,
	"step": 133
	},
	{
	"epoch": 0.009386464927718966,
	"grad_norm": 4.961355209350586,
	"learning_rate": 9.9062234676007e-05,
	"loss": 1.3387,
	"num_input_tokens_seen": 2159232,
	"step": 134
	},
	{
	"epoch": 0.009456513173448212,
	"grad_norm": 4.582219123840332,
	"learning_rate": 9.905523642732049e-05,
	"loss": 1.2013,
	"num_input_tokens_seen": 2175616,
	"step": 135
	},
	{
	"epoch": 0.009526561419177458,
	"grad_norm": 5.195998191833496,
	"learning_rate": 9.904823817863398e-05,
	"loss": 1.2552,
	"num_input_tokens_seen": 2191872,
	"step": 136
	},
	{
	"epoch": 0.009596609664906705,
	"grad_norm": 4.934189319610596,
	"learning_rate": 9.904123992994747e-05,
	"loss": 1.2961,
	"num_input_tokens_seen": 2208208,
	"step": 137
	},
	{
	"epoch": 0.00966665791063595,
	"grad_norm": 4.981037616729736,
	"learning_rate": 9.903424168126096e-05,
	"loss": 1.1546,
	"num_input_tokens_seen": 2224592,
	"step": 138
	},
	{
	"epoch": 0.009736706156365196,
	"grad_norm": 5.469496250152588,
	"learning_rate": 9.902724343257443e-05,
	"loss": 1.3833,
	"num_input_tokens_seen": 2240976,
	"step": 139
	},
	{
	"epoch": 0.009806754402094442,
	"grad_norm": 4.889583587646484,
	"learning_rate": 9.902024518388792e-05,
	"loss": 1.2095,
	"num_input_tokens_seen": 2257360,
	"step": 140
	},
	{
	"epoch": 0.00987680264782369,
	"grad_norm": 4.532052516937256,
	"learning_rate": 9.901324693520141e-05,
	"loss": 1.143,
	"num_input_tokens_seen": 2272848,
	"step": 141
	},
	{
	"epoch": 0.009946850893552935,
	"grad_norm": 5.278079032897949,
	"learning_rate": 9.900624868651488e-05,
	"loss": 1.2849,
	"num_input_tokens_seen": 2289232,
	"step": 142
	},
	{
	"epoch": 0.01001689913928218,
	"grad_norm": 4.549891948699951,
	"learning_rate": 9.899925043782839e-05,
	"loss": 1.0482,
	"num_input_tokens_seen": 2305424,
	"step": 143
	},
	{
	"epoch": 0.010086947385011426,
	"grad_norm": 4.7777180671691895,
	"learning_rate": 9.899225218914186e-05,
	"loss": 1.1926,
	"num_input_tokens_seen": 2320968,
	"step": 144
	},
	{
	"epoch": 0.010156995630740673,
	"grad_norm": 4.320313453674316,
	"learning_rate": 9.898525394045535e-05,
	"loss": 1.0468,
	"num_input_tokens_seen": 2337352,
	"step": 145
	},
	{
	"epoch": 0.010227043876469919,
	"grad_norm": 4.915202617645264,
	"learning_rate": 9.897825569176882e-05,
	"loss": 1.1326,
	"num_input_tokens_seen": 2353064,
	"step": 146
	},
	{
	"epoch": 0.010297092122199165,
	"grad_norm": 4.569783687591553,
	"learning_rate": 9.897125744308231e-05,
	"loss": 0.8586,
	"num_input_tokens_seen": 2369128,
	"step": 147
	},
	{
	"epoch": 0.01036714036792841,
	"grad_norm": 4.591664791107178,
	"learning_rate": 9.89642591943958e-05,
	"loss": 1.1369,
	"num_input_tokens_seen": 2385512,
	"step": 148
	},
	{
	"epoch": 0.010437188613657656,
	"grad_norm": 4.913016319274902,
	"learning_rate": 9.895726094570929e-05,
	"loss": 1.1564,
	"num_input_tokens_seen": 2401208,
	"step": 149
	},
	{
	"epoch": 0.010507236859386903,
	"grad_norm": 4.908018112182617,
	"learning_rate": 9.895026269702278e-05,
	"loss": 1.1247,
	"num_input_tokens_seen": 2417592,
	"step": 150
	},
	{
	"epoch": 0.010577285105116149,
	"grad_norm": 4.536910057067871,
	"learning_rate": 9.894326444833625e-05,
	"loss": 1.014,
	"num_input_tokens_seen": 2433976,
	"step": 151
	},
	{
	"epoch": 0.010647333350845395,
	"grad_norm": 4.899227142333984,
	"learning_rate": 9.893626619964974e-05,
	"loss": 1.0418,
	"num_input_tokens_seen": 2448072,
	"step": 152
	},
	{
	"epoch": 0.01071738159657464,
	"grad_norm": 4.600861072540283,
	"learning_rate": 9.892926795096323e-05,
	"loss": 1.0459,
	"num_input_tokens_seen": 2464240,
	"step": 153
	},
	{
	"epoch": 0.010787429842303888,
	"grad_norm": 4.707681179046631,
	"learning_rate": 9.89222697022767e-05,
	"loss": 1.0859,
	"num_input_tokens_seen": 2480624,
	"step": 154
	},
	{
	"epoch": 0.010857478088033133,
	"grad_norm": 4.748518466949463,
	"learning_rate": 9.89152714535902e-05,
	"loss": 1.0608,
	"num_input_tokens_seen": 2497008,
	"step": 155
	},
	{
	"epoch": 0.010927526333762379,
	"grad_norm": 4.794179439544678,
	"learning_rate": 9.890827320490368e-05,
	"loss": 1.2243,
	"num_input_tokens_seen": 2513392,
	"step": 156
	},
	{
	"epoch": 0.010997574579491624,
	"grad_norm": 4.593925476074219,
	"learning_rate": 9.890127495621717e-05,
	"loss": 1.1002,
	"num_input_tokens_seen": 2529776,
	"step": 157
	},
	{
	"epoch": 0.011067622825220872,
	"grad_norm": 4.318257808685303,
	"learning_rate": 9.889427670753066e-05,
	"loss": 0.9561,
	"num_input_tokens_seen": 2546160,
	"step": 158
	},
	{
	"epoch": 0.011137671070950117,
	"grad_norm": 4.631777286529541,
	"learning_rate": 9.888727845884414e-05,
	"loss": 1.1553,
	"num_input_tokens_seen": 2562544,
	"step": 159
	},
	{
	"epoch": 0.011207719316679363,
	"grad_norm": 4.896609783172607,
	"learning_rate": 9.888028021015762e-05,
	"loss": 1.1779,
	"num_input_tokens_seen": 2578088,
	"step": 160
	},
	{
	"epoch": 0.011277767562408609,
	"grad_norm": 4.3978681564331055,
	"learning_rate": 9.88732819614711e-05,
	"loss": 1.1778,
	"num_input_tokens_seen": 2594416,
	"step": 161
	},
	{
	"epoch": 0.011347815808137854,
	"grad_norm": 4.82927942276001,
	"learning_rate": 9.886628371278459e-05,
	"loss": 1.0339,
	"num_input_tokens_seen": 2609776,
	"step": 162
	},
	{
	"epoch": 0.011417864053867102,
	"grad_norm": 4.413319110870361,
	"learning_rate": 9.885928546409809e-05,
	"loss": 1.0992,
	"num_input_tokens_seen": 2626160,
	"step": 163
	},
	{
	"epoch": 0.011487912299596347,
	"grad_norm": 4.626354694366455,
	"learning_rate": 9.885228721541156e-05,
	"loss": 1.1948,
	"num_input_tokens_seen": 2642464,
	"step": 164
	},
	{
	"epoch": 0.011557960545325593,
	"grad_norm": 4.328434467315674,
	"learning_rate": 9.884528896672505e-05,
	"loss": 1.1493,
	"num_input_tokens_seen": 2658528,
	"step": 165
	},
	{
	"epoch": 0.011628008791054838,
	"grad_norm": 4.57839822769165,
	"learning_rate": 9.883829071803853e-05,
	"loss": 1.0775,
	"num_input_tokens_seen": 2674912,
	"step": 166
	},
	{
	"epoch": 0.011698057036784086,
	"grad_norm": 5.103973865509033,
	"learning_rate": 9.883129246935202e-05,
	"loss": 1.2458,
	"num_input_tokens_seen": 2690792,
	"step": 167
	},
	{
	"epoch": 0.011768105282513331,
	"grad_norm": 4.558016300201416,
	"learning_rate": 9.88242942206655e-05,
	"loss": 1.0122,
	"num_input_tokens_seen": 2705616,
	"step": 168
	},
	{
	"epoch": 0.011838153528242577,
	"grad_norm": 4.811260223388672,
	"learning_rate": 9.8817295971979e-05,
	"loss": 1.2989,
	"num_input_tokens_seen": 2721704,
	"step": 169
	},
	{
	"epoch": 0.011908201773971823,
	"grad_norm": 4.726966857910156,
	"learning_rate": 9.881029772329248e-05,
	"loss": 1.176,
	"num_input_tokens_seen": 2738088,
	"step": 170
	},
	{
	"epoch": 0.01197825001970107,
	"grad_norm": 4.874902725219727,
	"learning_rate": 9.880329947460596e-05,
	"loss": 1.2586,
	"num_input_tokens_seen": 2754040,
	"step": 171
	},
	{
	"epoch": 0.012048298265430316,
	"grad_norm": 4.379549980163574,
	"learning_rate": 9.879630122591945e-05,
	"loss": 1.1771,
	"num_input_tokens_seen": 2770424,
	"step": 172
	},
	{
	"epoch": 0.012118346511159561,
	"grad_norm": 4.455331802368164,
	"learning_rate": 9.878930297723292e-05,
	"loss": 1.0714,
	"num_input_tokens_seen": 2786808,
	"step": 173
	},
	{
	"epoch": 0.012188394756888807,
	"grad_norm": 4.42273473739624,
	"learning_rate": 9.878230472854641e-05,
	"loss": 1.1798,
	"num_input_tokens_seen": 2803176,
	"step": 174
	},
	{
	"epoch": 0.012258443002618052,
	"grad_norm": 4.4078874588012695,
	"learning_rate": 9.87753064798599e-05,
	"loss": 1.1672,
	"num_input_tokens_seen": 2819448,
	"step": 175
	},
	{
	"epoch": 0.0123284912483473,
	"grad_norm": 4.79048490524292,
	"learning_rate": 9.876830823117339e-05,
	"loss": 1.3331,
	"num_input_tokens_seen": 2835832,
	"step": 176
	},
	{
	"epoch": 0.012398539494076545,
	"grad_norm": 4.212133884429932,
	"learning_rate": 9.876130998248688e-05,
	"loss": 1.0007,
	"num_input_tokens_seen": 2851776,
	"step": 177
	},
	{
	"epoch": 0.012468587739805791,
	"grad_norm": 5.7587738037109375,
	"learning_rate": 9.875431173380035e-05,
	"loss": 1.4729,
	"num_input_tokens_seen": 2867896,
	"step": 178
	},
	{
	"epoch": 0.012538635985535037,
	"grad_norm": 4.3469462394714355,
	"learning_rate": 9.874731348511384e-05,
	"loss": 0.957,
	"num_input_tokens_seen": 2884280,
	"step": 179
	},
	{
	"epoch": 0.012608684231264284,
	"grad_norm": 4.584625244140625,
	"learning_rate": 9.874031523642733e-05,
	"loss": 1.0753,
	"num_input_tokens_seen": 2899208,
	"step": 180
	},
	{
	"epoch": 0.01267873247699353,
	"grad_norm": 4.544627666473389,
	"learning_rate": 9.87333169877408e-05,
	"loss": 1.1706,
	"num_input_tokens_seen": 2915416,
	"step": 181
	},
	{
	"epoch": 0.012748780722722775,
	"grad_norm": 4.8749237060546875,
	"learning_rate": 9.872631873905429e-05,
	"loss": 1.3382,
	"num_input_tokens_seen": 2931360,
	"step": 182
	},
	{
	"epoch": 0.01281882896845202,
	"grad_norm": 4.593903541564941,
	"learning_rate": 9.871932049036778e-05,
	"loss": 1.1588,
	"num_input_tokens_seen": 2947744,
	"step": 183
	},
	{
	"epoch": 0.012888877214181268,
	"grad_norm": 4.478219509124756,
	"learning_rate": 9.871232224168127e-05,
	"loss": 1.1013,
	"num_input_tokens_seen": 2963664,
	"step": 184
	},
	{
	"epoch": 0.012958925459910514,
	"grad_norm": 5.028106212615967,
	"learning_rate": 9.870532399299476e-05,
	"loss": 1.3223,
	"num_input_tokens_seen": 2980048,
	"step": 185
	},
	{
	"epoch": 0.01302897370563976,
	"grad_norm": 4.866946697235107,
	"learning_rate": 9.869832574430823e-05,
	"loss": 1.2376,
	"num_input_tokens_seen": 2995992,
	"step": 186
	},
	{
	"epoch": 0.013099021951369005,
	"grad_norm": 4.421341419219971,
	"learning_rate": 9.869132749562172e-05,
	"loss": 1.2252,
	"num_input_tokens_seen": 3012000,
	"step": 187
	},
	{
	"epoch": 0.01316907019709825,
	"grad_norm": 4.88083028793335,
	"learning_rate": 9.86843292469352e-05,
	"loss": 1.2951,
	"num_input_tokens_seen": 3028384,
	"step": 188
	},
	{
	"epoch": 0.013239118442827498,
	"grad_norm": 4.654318809509277,
	"learning_rate": 9.86773309982487e-05,
	"loss": 1.2839,
	"num_input_tokens_seen": 3044768,
	"step": 189
	},
	{
	"epoch": 0.013309166688556744,
	"grad_norm": 4.626763820648193,
	"learning_rate": 9.867033274956219e-05,
	"loss": 1.2389,
	"num_input_tokens_seen": 3061152,
	"step": 190
	},
	{
	"epoch": 0.01337921493428599,
	"grad_norm": 4.178484916687012,
	"learning_rate": 9.866333450087566e-05,
	"loss": 1.1186,
	"num_input_tokens_seen": 3077056,
	"step": 191
	},
	{
	"epoch": 0.013449263180015235,
	"grad_norm": 4.755034923553467,
	"learning_rate": 9.865633625218915e-05,
	"loss": 1.0594,
	"num_input_tokens_seen": 3093400,
	"step": 192
	},
	{
	"epoch": 0.013519311425744482,
	"grad_norm": 4.437506198883057,
	"learning_rate": 9.864933800350263e-05,
	"loss": 1.2078,
	"num_input_tokens_seen": 3109784,
	"step": 193
	},
	{
	"epoch": 0.013589359671473728,
	"grad_norm": 5.140488624572754,
	"learning_rate": 9.864233975481611e-05,
	"loss": 1.4312,
	"num_input_tokens_seen": 3124976,
	"step": 194
	},
	{
	"epoch": 0.013659407917202973,
	"grad_norm": 4.72155237197876,
	"learning_rate": 9.86353415061296e-05,
	"loss": 1.1752,
	"num_input_tokens_seen": 3140632,
	"step": 195
	},
	{
	"epoch": 0.013729456162932219,
	"grad_norm": 4.914645671844482,
	"learning_rate": 9.862834325744309e-05,
	"loss": 1.2464,
	"num_input_tokens_seen": 3156616,
	"step": 196
	},
	{
	"epoch": 0.013799504408661466,
	"grad_norm": 4.23387336730957,
	"learning_rate": 9.862134500875658e-05,
	"loss": 0.9722,
	"num_input_tokens_seen": 3172840,
	"step": 197
	},
	{
	"epoch": 0.013869552654390712,
	"grad_norm": 4.659370422363281,
	"learning_rate": 9.861434676007005e-05,
	"loss": 1.1981,
	"num_input_tokens_seen": 3188584,
	"step": 198
	},
	{
	"epoch": 0.013939600900119958,
	"grad_norm": 4.580902576446533,
	"learning_rate": 9.860734851138354e-05,
	"loss": 1.1913,
	"num_input_tokens_seen": 3204432,
	"step": 199
	},
	{
	"epoch": 0.014009649145849203,
	"grad_norm": 4.208237648010254,
	"learning_rate": 9.860035026269702e-05,
	"loss": 1.2056,
	"num_input_tokens_seen": 3220816,
	"step": 200
	},
	{
	"epoch": 0.014009649145849203,
	"eval_loss": 1.2226407527923584,
	"eval_runtime": 0.3992,
	"eval_samples_per_second": 2.505,
	"eval_steps_per_second": 2.505,
	"num_input_tokens_seen": 3220816,
	"step": 200
	},
	{
	"epoch": 0.014079697391578449,
	"grad_norm": 4.526260852813721,
	"learning_rate": 9.85933520140105e-05,
	"loss": 1.0488,
	"num_input_tokens_seen": 3237200,
	"step": 201
	},
	{
	"epoch": 0.014149745637307696,
	"grad_norm": 4.46895170211792,
	"learning_rate": 9.8586353765324e-05,
	"loss": 1.1101,
	"num_input_tokens_seen": 3253336,
	"step": 202
	},
	{
	"epoch": 0.014219793883036942,
	"grad_norm": 4.367347717285156,
	"learning_rate": 9.857935551663748e-05,
	"loss": 1.0425,
	"num_input_tokens_seen": 3269632,
	"step": 203
	},
	{
	"epoch": 0.014289842128766187,
	"grad_norm": 4.860860347747803,
	"learning_rate": 9.857235726795097e-05,
	"loss": 1.4068,
	"num_input_tokens_seen": 3285432,
	"step": 204
	},
	{
	"epoch": 0.014359890374495433,
	"grad_norm": 4.336480617523193,
	"learning_rate": 9.856535901926445e-05,
	"loss": 1.2579,
	"num_input_tokens_seen": 3301632,
	"step": 205
	},
	{
	"epoch": 0.01442993862022468,
	"grad_norm": 4.587873458862305,
	"learning_rate": 9.855836077057794e-05,
	"loss": 1.1508,
	"num_input_tokens_seen": 3318016,
	"step": 206
	},
	{
	"epoch": 0.014499986865953926,
	"grad_norm": 4.719262599945068,
	"learning_rate": 9.855136252189142e-05,
	"loss": 1.0208,
	"num_input_tokens_seen": 3333168,
	"step": 207
	},
	{
	"epoch": 0.014570035111683172,
	"grad_norm": 4.419138431549072,
	"learning_rate": 9.85443642732049e-05,
	"loss": 1.2576,
	"num_input_tokens_seen": 3349384,
	"step": 208
	},
	{
	"epoch": 0.014640083357412417,
	"grad_norm": 4.3150835037231445,
	"learning_rate": 9.85373660245184e-05,
	"loss": 1.1786,
	"num_input_tokens_seen": 3365768,
	"step": 209
	},
	{
	"epoch": 0.014710131603141665,
	"grad_norm": 4.5917649269104,
	"learning_rate": 9.853036777583188e-05,
	"loss": 1.2821,
	"num_input_tokens_seen": 3382152,
	"step": 210
	},
	{
	"epoch": 0.01478017984887091,
	"grad_norm": 4.9094343185424805,
	"learning_rate": 9.852336952714537e-05,
	"loss": 1.2415,
	"num_input_tokens_seen": 3397896,
	"step": 211
	},
	{
	"epoch": 0.014850228094600156,
	"grad_norm": 4.394861698150635,
	"learning_rate": 9.851637127845885e-05,
	"loss": 1.1776,
	"num_input_tokens_seen": 3414280,
	"step": 212
	},
	{
	"epoch": 0.014920276340329401,
	"grad_norm": 4.196374416351318,
	"learning_rate": 9.850937302977233e-05,
	"loss": 1.065,
	"num_input_tokens_seen": 3430584,
	"step": 213
	},
	{
	"epoch": 0.014990324586058647,
	"grad_norm": 4.728682518005371,
	"learning_rate": 9.850237478108582e-05,
	"loss": 1.2686,
	"num_input_tokens_seen": 3446968,
	"step": 214
	},
	{
	"epoch": 0.015060372831787894,
	"grad_norm": 4.291411876678467,
	"learning_rate": 9.84953765323993e-05,
	"loss": 1.1877,
	"num_input_tokens_seen": 3462568,
	"step": 215
	},
	{
	"epoch": 0.01513042107751714,
	"grad_norm": 4.405060768127441,
	"learning_rate": 9.84883782837128e-05,
	"loss": 1.2873,
	"num_input_tokens_seen": 3478952,
	"step": 216
	},
	{
	"epoch": 0.015200469323246386,
	"grad_norm": 4.254365921020508,
	"learning_rate": 9.848138003502628e-05,
	"loss": 1.1062,
	"num_input_tokens_seen": 3495304,
	"step": 217
	},
	{
	"epoch": 0.015270517568975631,
	"grad_norm": 4.741672039031982,
	"learning_rate": 9.847438178633976e-05,
	"loss": 1.1983,
	"num_input_tokens_seen": 3511688,
	"step": 218
	},
	{
	"epoch": 0.015340565814704879,
	"grad_norm": 4.352742671966553,
	"learning_rate": 9.846738353765325e-05,
	"loss": 1.2028,
	"num_input_tokens_seen": 3528072,
	"step": 219
	},
	{
	"epoch": 0.015410614060434124,
	"grad_norm": 4.996603488922119,
	"learning_rate": 9.846038528896672e-05,
	"loss": 1.1561,
	"num_input_tokens_seen": 3542904,
	"step": 220
	},
	{
	"epoch": 0.01548066230616337,
	"grad_norm": 4.911815166473389,
	"learning_rate": 9.845338704028021e-05,
	"loss": 1.3375,
	"num_input_tokens_seen": 3558352,
	"step": 221
	},
	{
	"epoch": 0.015550710551892616,
	"grad_norm": 4.638419151306152,
	"learning_rate": 9.84463887915937e-05,
	"loss": 1.1963,
	"num_input_tokens_seen": 3574736,
	"step": 222
	},
	{
	"epoch": 0.015620758797621863,
	"grad_norm": 4.323521614074707,
	"learning_rate": 9.843939054290719e-05,
	"loss": 1.1224,
	"num_input_tokens_seen": 3591120,
	"step": 223
	},
	{
	"epoch": 0.01569080704335111,
	"grad_norm": 4.466544151306152,
	"learning_rate": 9.843239229422068e-05,
	"loss": 1.3988,
	"num_input_tokens_seen": 3607392,
	"step": 224
	},
	{
	"epoch": 0.015760855289080354,
	"grad_norm": 4.476973533630371,
	"learning_rate": 9.842539404553415e-05,
	"loss": 1.184,
	"num_input_tokens_seen": 3623776,
	"step": 225
	},
	{
	"epoch": 0.0158309035348096,
	"grad_norm": 4.648625373840332,
	"learning_rate": 9.841839579684764e-05,
	"loss": 1.1768,
	"num_input_tokens_seen": 3640008,
	"step": 226
	},
	{
	"epoch": 0.015900951780538845,
	"grad_norm": 4.364476203918457,
	"learning_rate": 9.841139754816112e-05,
	"loss": 1.0208,
	"num_input_tokens_seen": 3656392,
	"step": 227
	},
	{
	"epoch": 0.01597100002626809,
	"grad_norm": 4.3054633140563965,
	"learning_rate": 9.84043992994746e-05,
	"loss": 1.1215,
	"num_input_tokens_seen": 3672392,
	"step": 228
	},
	{
	"epoch": 0.016041048271997337,
	"grad_norm": 4.83436918258667,
	"learning_rate": 9.83974010507881e-05,
	"loss": 1.2284,
	"num_input_tokens_seen": 3688776,
	"step": 229
	},
	{
	"epoch": 0.016111096517726586,
	"grad_norm": 4.447519779205322,
	"learning_rate": 9.839040280210158e-05,
	"loss": 1.1765,
	"num_input_tokens_seen": 3705080,
	"step": 230
	},
	{
	"epoch": 0.01618114476345583,
	"grad_norm": 4.269217491149902,
	"learning_rate": 9.838340455341507e-05,
	"loss": 1.0466,
	"num_input_tokens_seen": 3721464,
	"step": 231
	},
	{
	"epoch": 0.016251193009185077,
	"grad_norm": 4.41223669052124,
	"learning_rate": 9.837640630472854e-05,
	"loss": 1.2098,
	"num_input_tokens_seen": 3737184,
	"step": 232
	},
	{
	"epoch": 0.016321241254914323,
	"grad_norm": 4.632737159729004,
	"learning_rate": 9.836940805604203e-05,
	"loss": 1.1562,
	"num_input_tokens_seen": 3753192,
	"step": 233
	},
	{
	"epoch": 0.016391289500643568,
	"grad_norm": 4.379425525665283,
	"learning_rate": 9.836240980735552e-05,
	"loss": 1.1219,
	"num_input_tokens_seen": 3767976,
	"step": 234
	},
	{
	"epoch": 0.016461337746372814,
	"grad_norm": 4.28551721572876,
	"learning_rate": 9.835541155866901e-05,
	"loss": 1.0259,
	"num_input_tokens_seen": 3784008,
	"step": 235
	},
	{
	"epoch": 0.01653138599210206,
	"grad_norm": 4.642453670501709,
	"learning_rate": 9.83484133099825e-05,
	"loss": 1.1684,
	"num_input_tokens_seen": 3800000,
	"step": 236
	},
	{
	"epoch": 0.016601434237831305,
	"grad_norm": 4.367178440093994,
	"learning_rate": 9.834141506129597e-05,
	"loss": 1.2877,
	"num_input_tokens_seen": 3816384,
	"step": 237
	},
	{
	"epoch": 0.01667148248356055,
	"grad_norm": 4.5724005699157715,
	"learning_rate": 9.833441681260946e-05,
	"loss": 1.1814,
	"num_input_tokens_seen": 3830328,
	"step": 238
	},
	{
	"epoch": 0.0167415307292898,
	"grad_norm": 4.318159580230713,
	"learning_rate": 9.832741856392295e-05,
	"loss": 1.1143,
	"num_input_tokens_seen": 3846712,
	"step": 239
	},
	{
	"epoch": 0.016811578975019045,
	"grad_norm": 4.408501625061035,
	"learning_rate": 9.832042031523643e-05,
	"loss": 1.1508,
	"num_input_tokens_seen": 3861776,
	"step": 240
	},
	{
	"epoch": 0.01688162722074829,
	"grad_norm": 4.20060920715332,
	"learning_rate": 9.831342206654991e-05,
	"loss": 1.209,
	"num_input_tokens_seen": 3877736,
	"step": 241
	},
	{
	"epoch": 0.016951675466477537,
	"grad_norm": 4.431649208068848,
	"learning_rate": 9.83064238178634e-05,
	"loss": 1.2458,
	"num_input_tokens_seen": 3893320,
	"step": 242
	},
	{
	"epoch": 0.017021723712206782,
	"grad_norm": 4.000490188598633,
	"learning_rate": 9.829942556917689e-05,
	"loss": 1.0274,
	"num_input_tokens_seen": 3909704,
	"step": 243
	},
	{
	"epoch": 0.017091771957936028,
	"grad_norm": 4.703495025634766,
	"learning_rate": 9.829242732049038e-05,
	"loss": 1.1711,
	"num_input_tokens_seen": 3925808,
	"step": 244
	},
	{
	"epoch": 0.017161820203665273,
	"grad_norm": 4.639338970184326,
	"learning_rate": 9.828542907180386e-05,
	"loss": 1.3046,
	"num_input_tokens_seen": 3942192,
	"step": 245
	},
	{
	"epoch": 0.01723186844939452,
	"grad_norm": 4.414276599884033,
	"learning_rate": 9.827843082311734e-05,
	"loss": 1.271,
	"num_input_tokens_seen": 3958528,
	"step": 246
	},
	{
	"epoch": 0.017301916695123768,
	"grad_norm": 4.404853820800781,
	"learning_rate": 9.827143257443082e-05,
	"loss": 1.0693,
	"num_input_tokens_seen": 3974912,
	"step": 247
	},
	{
	"epoch": 0.017371964940853014,
	"grad_norm": 4.519491195678711,
	"learning_rate": 9.826443432574431e-05,
	"loss": 1.2894,
	"num_input_tokens_seen": 3991296,
	"step": 248
	},
	{
	"epoch": 0.01744201318658226,
	"grad_norm": 4.261727809906006,
	"learning_rate": 9.825743607705781e-05,
	"loss": 1.2059,
	"num_input_tokens_seen": 4006544,
	"step": 249
	},
	{
	"epoch": 0.017512061432311505,
	"grad_norm": 4.102485656738281,
	"learning_rate": 9.825043782837129e-05,
	"loss": 0.9365,
	"num_input_tokens_seen": 4022320,
	"step": 250
	},
	{
	"epoch": 0.01758210967804075,
	"grad_norm": 4.804764270782471,
	"learning_rate": 9.824343957968477e-05,
	"loss": 1.3344,
	"num_input_tokens_seen": 4037048,
	"step": 251
	},
	{
	"epoch": 0.017652157923769996,
	"grad_norm": 4.130600452423096,
	"learning_rate": 9.823644133099825e-05,
	"loss": 1.2349,
	"num_input_tokens_seen": 4053432,
	"step": 252
	},
	{
	"epoch": 0.017722206169499242,
	"grad_norm": 4.234742641448975,
	"learning_rate": 9.822944308231174e-05,
	"loss": 1.1371,
	"num_input_tokens_seen": 4069816,
	"step": 253
	},
	{
	"epoch": 0.017792254415228487,
	"grad_norm": 4.754928112030029,
	"learning_rate": 9.822244483362521e-05,
	"loss": 1.5168,
	"num_input_tokens_seen": 4085864,
	"step": 254
	},
	{
	"epoch": 0.017862302660957733,
	"grad_norm": 4.542768478393555,
	"learning_rate": 9.821544658493871e-05,
	"loss": 1.1943,
	"num_input_tokens_seen": 4102240,
	"step": 255
	},
	{
	"epoch": 0.017932350906686982,
	"grad_norm": 4.411310195922852,
	"learning_rate": 9.82084483362522e-05,
	"loss": 1.2694,
	"num_input_tokens_seen": 4118544,
	"step": 256
	},
	{
	"epoch": 0.018002399152416228,
	"grad_norm": 4.205377101898193,
	"learning_rate": 9.820145008756568e-05,
	"loss": 1.1581,
	"num_input_tokens_seen": 4134928,
	"step": 257
	},
	{
	"epoch": 0.018072447398145473,
	"grad_norm": 4.451165199279785,
	"learning_rate": 9.819445183887917e-05,
	"loss": 1.089,
	"num_input_tokens_seen": 4150848,
	"step": 258
	},
	{
	"epoch": 0.01814249564387472,
	"grad_norm": 4.366336822509766,
	"learning_rate": 9.818745359019264e-05,
	"loss": 1.1767,
	"num_input_tokens_seen": 4167184,
	"step": 259
	},
	{
	"epoch": 0.018212543889603965,
	"grad_norm": 4.394649982452393,
	"learning_rate": 9.818045534150613e-05,
	"loss": 1.0741,
	"num_input_tokens_seen": 4183376,
	"step": 260
	},
	{
	"epoch": 0.01828259213533321,
	"grad_norm": 4.344518184661865,
	"learning_rate": 9.817345709281962e-05,
	"loss": 1.2282,
	"num_input_tokens_seen": 4199760,
	"step": 261
	},
	{
	"epoch": 0.018352640381062456,
	"grad_norm": 4.403041362762451,
	"learning_rate": 9.816645884413311e-05,
	"loss": 1.2317,
	"num_input_tokens_seen": 4215816,
	"step": 262
	},
	{
	"epoch": 0.0184226886267917,
	"grad_norm": 4.715320110321045,
	"learning_rate": 9.81594605954466e-05,
	"loss": 1.3074,
	"num_input_tokens_seen": 4231504,
	"step": 263
	},
	{
	"epoch": 0.01849273687252095,
	"grad_norm": 4.5754265785217285,
	"learning_rate": 9.815246234676007e-05,
	"loss": 1.253,
	"num_input_tokens_seen": 4247888,
	"step": 264
	},
	{
	"epoch": 0.018562785118250196,
	"grad_norm": 4.2346930503845215,
	"learning_rate": 9.814546409807356e-05,
	"loss": 1.1727,
	"num_input_tokens_seen": 4264248,
	"step": 265
	},
	{
	"epoch": 0.018632833363979442,
	"grad_norm": 4.186713218688965,
	"learning_rate": 9.813846584938705e-05,
	"loss": 1.2693,
	"num_input_tokens_seen": 4280632,
	"step": 266
	},
	{
	"epoch": 0.018702881609708687,
	"grad_norm": 4.6356706619262695,
	"learning_rate": 9.813146760070052e-05,
	"loss": 1.3755,
	"num_input_tokens_seen": 4296648,
	"step": 267
	},
	{
	"epoch": 0.018772929855437933,
	"grad_norm": 4.466466903686523,
	"learning_rate": 9.812446935201401e-05,
	"loss": 1.283,
	"num_input_tokens_seen": 4311408,
	"step": 268
	},
	{
	"epoch": 0.01884297810116718,
	"grad_norm": 4.3369140625,
	"learning_rate": 9.81174711033275e-05,
	"loss": 1.1555,
	"num_input_tokens_seen": 4326736,
	"step": 269
	},
	{
	"epoch": 0.018913026346896424,
	"grad_norm": 4.434782028198242,
	"learning_rate": 9.811047285464099e-05,
	"loss": 1.2859,
	"num_input_tokens_seen": 4343120,
	"step": 270
	},
	{
	"epoch": 0.01898307459262567,
	"grad_norm": 4.346708297729492,
	"learning_rate": 9.810347460595448e-05,
	"loss": 1.1421,
	"num_input_tokens_seen": 4359504,
	"step": 271
	},
	{
	"epoch": 0.019053122838354915,
	"grad_norm": 4.529878616333008,
	"learning_rate": 9.809647635726795e-05,
	"loss": 1.2654,
	"num_input_tokens_seen": 4375888,
	"step": 272
	},
	{
	"epoch": 0.019123171084084165,
	"grad_norm": 4.051745891571045,
	"learning_rate": 9.808947810858144e-05,
	"loss": 1.1469,
	"num_input_tokens_seen": 4392224,
	"step": 273
	},
	{
	"epoch": 0.01919321932981341,
	"grad_norm": 4.403522491455078,
	"learning_rate": 9.808247985989492e-05,
	"loss": 1.233,
	"num_input_tokens_seen": 4408608,
	"step": 274
	},
	{
	"epoch": 0.019263267575542656,
	"grad_norm": 4.166261196136475,
	"learning_rate": 9.807548161120842e-05,
	"loss": 1.1697,
	"num_input_tokens_seen": 4424992,
	"step": 275
	},
	{
	"epoch": 0.0193333158212719,
	"grad_norm": 4.29187536239624,
	"learning_rate": 9.806848336252191e-05,
	"loss": 1.0503,
	"num_input_tokens_seen": 4441376,
	"step": 276
	},
	{
	"epoch": 0.019403364067001147,
	"grad_norm": 4.4056172370910645,
	"learning_rate": 9.806148511383538e-05,
	"loss": 1.1965,
	"num_input_tokens_seen": 4457760,
	"step": 277
	},
	{
	"epoch": 0.019473412312730393,
	"grad_norm": 4.355875015258789,
	"learning_rate": 9.805448686514887e-05,
	"loss": 1.1024,
	"num_input_tokens_seen": 4474144,
	"step": 278
	},
	{
	"epoch": 0.019543460558459638,
	"grad_norm": 4.46420955657959,
	"learning_rate": 9.804748861646235e-05,
	"loss": 1.203,
	"num_input_tokens_seen": 4488912,
	"step": 279
	},
	{
	"epoch": 0.019613508804188884,
	"grad_norm": 4.48052453994751,
	"learning_rate": 9.804049036777583e-05,
	"loss": 1.2089,
	"num_input_tokens_seen": 4505296,
	"step": 280
	},
	{
	"epoch": 0.01968355704991813,
	"grad_norm": 4.458749294281006,
	"learning_rate": 9.803349211908932e-05,
	"loss": 1.1557,
	"num_input_tokens_seen": 4520576,
	"step": 281
	},
	{
	"epoch": 0.01975360529564738,
	"grad_norm": 4.551771640777588,
	"learning_rate": 9.802649387040281e-05,
	"loss": 1.1671,
	"num_input_tokens_seen": 4536960,
	"step": 282
	},
	{
	"epoch": 0.019823653541376624,
	"grad_norm": 4.038064956665039,
	"learning_rate": 9.80194956217163e-05,
	"loss": 1.1562,
	"num_input_tokens_seen": 4553344,
	"step": 283
	},
	{
	"epoch": 0.01989370178710587,
	"grad_norm": 4.647075653076172,
	"learning_rate": 9.801249737302978e-05,
	"loss": 1.3069,
	"num_input_tokens_seen": 4568928,
	"step": 284
	},
	{
	"epoch": 0.019963750032835115,
	"grad_norm": 4.258941650390625,
	"learning_rate": 9.800549912434326e-05,
	"loss": 1.0349,
	"num_input_tokens_seen": 4585312,
	"step": 285
	},
	{
	"epoch": 0.02003379827856436,
	"grad_norm": 4.348769664764404,
	"learning_rate": 9.799850087565674e-05,
	"loss": 1.1163,
	"num_input_tokens_seen": 4601696,
	"step": 286
	},
	{
	"epoch": 0.020103846524293607,
	"grad_norm": 4.105901718139648,
	"learning_rate": 9.799150262697023e-05,
	"loss": 1.0313,
	"num_input_tokens_seen": 4617312,
	"step": 287
	},
	{
	"epoch": 0.020173894770022852,
	"grad_norm": 4.079495429992676,
	"learning_rate": 9.798450437828372e-05,
	"loss": 1.0828,
	"num_input_tokens_seen": 4633696,
	"step": 288
	},
	{
	"epoch": 0.020243943015752098,
	"grad_norm": 4.03472375869751,
	"learning_rate": 9.79775061295972e-05,
	"loss": 0.9475,
	"num_input_tokens_seen": 4650080,
	"step": 289
	},
	{
	"epoch": 0.020313991261481347,
	"grad_norm": 4.077049732208252,
	"learning_rate": 9.797050788091069e-05,
	"loss": 1.1323,
	"num_input_tokens_seen": 4666328,
	"step": 290
	},
	{
	"epoch": 0.020384039507210593,
	"grad_norm": 4.086606025695801,
	"learning_rate": 9.796350963222417e-05,
	"loss": 1.1218,
	"num_input_tokens_seen": 4682256,
	"step": 291
	},
	{
	"epoch": 0.020454087752939838,
	"grad_norm": 4.296900749206543,
	"learning_rate": 9.795651138353766e-05,
	"loss": 1.2964,
	"num_input_tokens_seen": 4698640,
	"step": 292
	},
	{
	"epoch": 0.020524135998669084,
	"grad_norm": 4.040759086608887,
	"learning_rate": 9.794951313485115e-05,
	"loss": 1.1077,
	"num_input_tokens_seen": 4714928,
	"step": 293
	},
	{
	"epoch": 0.02059418424439833,
	"grad_norm": 3.8260273933410645,
	"learning_rate": 9.794251488616462e-05,
	"loss": 0.9667,
	"num_input_tokens_seen": 4731312,
	"step": 294
	},
	{
	"epoch": 0.020664232490127575,
	"grad_norm": 4.294517993927002,
	"learning_rate": 9.793551663747811e-05,
	"loss": 1.2704,
	"num_input_tokens_seen": 4747544,
	"step": 295
	},
	{
	"epoch": 0.02073428073585682,
	"grad_norm": 4.206037521362305,
	"learning_rate": 9.79285183887916e-05,
	"loss": 1.1593,
	"num_input_tokens_seen": 4763928,
	"step": 296
	},
	{
	"epoch": 0.020804328981586066,
	"grad_norm": 4.147867202758789,
	"learning_rate": 9.792152014010509e-05,
	"loss": 1.1256,
	"num_input_tokens_seen": 4780312,
	"step": 297
	},
	{
	"epoch": 0.020874377227315312,
	"grad_norm": 4.23718786239624,
	"learning_rate": 9.791452189141857e-05,
	"loss": 1.2353,
	"num_input_tokens_seen": 4796384,
	"step": 298
	},
	{
	"epoch": 0.02094442547304456,
	"grad_norm": 4.172685146331787,
	"learning_rate": 9.790752364273205e-05,
	"loss": 1.1868,
	"num_input_tokens_seen": 4812768,
	"step": 299
	},
	{
	"epoch": 0.021014473718773807,
	"grad_norm": 4.167289733886719,
	"learning_rate": 9.790052539404554e-05,
	"loss": 1.0606,
	"num_input_tokens_seen": 4829152,
	"step": 300
	},
	{
	"epoch": 0.021084521964503052,
	"grad_norm": 4.096963882446289,
	"learning_rate": 9.789352714535903e-05,
	"loss": 1.0557,
	"num_input_tokens_seen": 4845384,
	"step": 301
	},
	{
	"epoch": 0.021154570210232298,
	"grad_norm": 4.223779678344727,
	"learning_rate": 9.788652889667252e-05,
	"loss": 1.1485,
	"num_input_tokens_seen": 4861768,
	"step": 302
	},
	{
	"epoch": 0.021224618455961543,
	"grad_norm": 3.8243472576141357,
	"learning_rate": 9.7879530647986e-05,
	"loss": 1.004,
	"num_input_tokens_seen": 4878152,
	"step": 303
	},
	{
	"epoch": 0.02129466670169079,
	"grad_norm": 4.092590808868408,
	"learning_rate": 9.787253239929948e-05,
	"loss": 1.0211,
	"num_input_tokens_seen": 4894536,
	"step": 304
	},
	{
	"epoch": 0.021364714947420035,
	"grad_norm": 4.42412805557251,
	"learning_rate": 9.786553415061297e-05,
	"loss": 0.9915,
	"num_input_tokens_seen": 4910320,
	"step": 305
	},
	{
	"epoch": 0.02143476319314928,
	"grad_norm": 4.488316535949707,
	"learning_rate": 9.785853590192644e-05,
	"loss": 1.1782,
	"num_input_tokens_seen": 4926704,
	"step": 306
	},
	{
	"epoch": 0.021504811438878526,
	"grad_norm": 4.110256195068359,
	"learning_rate": 9.785153765323993e-05,
	"loss": 1.102,
	"num_input_tokens_seen": 4943088,
	"step": 307
	},
	{
	"epoch": 0.021574859684607775,
	"grad_norm": 4.246950149536133,
	"learning_rate": 9.784453940455342e-05,
	"loss": 1.067,
	"num_input_tokens_seen": 4958736,
	"step": 308
	},
	{
	"epoch": 0.02164490793033702,
	"grad_norm": 4.175214767456055,
	"learning_rate": 9.783754115586691e-05,
	"loss": 1.0638,
	"num_input_tokens_seen": 4975120,
	"step": 309
	},
	{
	"epoch": 0.021714956176066266,
	"grad_norm": 4.427795886993408,
	"learning_rate": 9.78305429071804e-05,
	"loss": 1.1347,
	"num_input_tokens_seen": 4991504,
	"step": 310
	},
	{
	"epoch": 0.021785004421795512,
	"grad_norm": 4.158191204071045,
	"learning_rate": 9.782354465849387e-05,
	"loss": 1.1662,
	"num_input_tokens_seen": 5007152,
	"step": 311
	},
	{
	"epoch": 0.021855052667524758,
	"grad_norm": 4.184347629547119,
	"learning_rate": 9.781654640980736e-05,
	"loss": 1.0791,
	"num_input_tokens_seen": 5023536,
	"step": 312
	},
	{
	"epoch": 0.021925100913254003,
	"grad_norm": 3.8506295680999756,
	"learning_rate": 9.780954816112084e-05,
	"loss": 1.0615,
	"num_input_tokens_seen": 5039728,
	"step": 313
	},
	{
	"epoch": 0.02199514915898325,
	"grad_norm": 4.310062408447266,
	"learning_rate": 9.780254991243432e-05,
	"loss": 1.1363,
	"num_input_tokens_seen": 5056008,
	"step": 314
	},
	{
	"epoch": 0.022065197404712494,
	"grad_norm": 4.215006351470947,
	"learning_rate": 9.779555166374781e-05,
	"loss": 1.1715,
	"num_input_tokens_seen": 5072096,
	"step": 315
	},
	{
	"epoch": 0.022135245650441743,
	"grad_norm": 4.219073295593262,
	"learning_rate": 9.77885534150613e-05,
	"loss": 1.219,
	"num_input_tokens_seen": 5088432,
	"step": 316
	},
	{
	"epoch": 0.02220529389617099,
	"grad_norm": 4.319522857666016,
	"learning_rate": 9.778155516637479e-05,
	"loss": 1.3085,
	"num_input_tokens_seen": 5104240,
	"step": 317
	},
	{
	"epoch": 0.022275342141900235,
	"grad_norm": 4.118961334228516,
	"learning_rate": 9.777455691768827e-05,
	"loss": 1.0926,
	"num_input_tokens_seen": 5120624,
	"step": 318
	},
	{
	"epoch": 0.02234539038762948,
	"grad_norm": 4.195051193237305,
	"learning_rate": 9.776755866900175e-05,
	"loss": 1.0894,
	"num_input_tokens_seen": 5137008,
	"step": 319
	},
	{
	"epoch": 0.022415438633358726,
	"grad_norm": 4.114197254180908,
	"learning_rate": 9.776056042031524e-05,
	"loss": 1.1897,
	"num_input_tokens_seen": 5153272,
	"step": 320
	},
	{
	"epoch": 0.02248548687908797,
	"grad_norm": 4.014908313751221,
	"learning_rate": 9.775356217162872e-05,
	"loss": 1.0932,
	"num_input_tokens_seen": 5169472,
	"step": 321
	},
	{
	"epoch": 0.022555535124817217,
	"grad_norm": 4.190642356872559,
	"learning_rate": 9.774656392294222e-05,
	"loss": 1.1413,
	"num_input_tokens_seen": 5185856,
	"step": 322
	},
	{
	"epoch": 0.022625583370546463,
	"grad_norm": 4.562993049621582,
	"learning_rate": 9.77395656742557e-05,
	"loss": 1.2865,
	"num_input_tokens_seen": 5202240,
	"step": 323
	},
	{
	"epoch": 0.02269563161627571,
	"grad_norm": 4.607022762298584,
	"learning_rate": 9.773256742556918e-05,
	"loss": 1.1465,
	"num_input_tokens_seen": 5218168,
	"step": 324
	},
	{
	"epoch": 0.022765679862004957,
	"grad_norm": 3.956439256668091,
	"learning_rate": 9.772556917688267e-05,
	"loss": 1.028,
	"num_input_tokens_seen": 5234368,
	"step": 325
	},
	{
	"epoch": 0.022835728107734203,
	"grad_norm": 4.20713472366333,
	"learning_rate": 9.771857092819615e-05,
	"loss": 1.2332,
	"num_input_tokens_seen": 5249808,
	"step": 326
	},
	{
	"epoch": 0.02290577635346345,
	"grad_norm": 4.4092864990234375,
	"learning_rate": 9.771157267950964e-05,
	"loss": 1.104,
	"num_input_tokens_seen": 5266120,
	"step": 327
	},
	{
	"epoch": 0.022975824599192694,
	"grad_norm": 4.529845237731934,
	"learning_rate": 9.770457443082312e-05,
	"loss": 1.3475,
	"num_input_tokens_seen": 5282504,
	"step": 328
	},
	{
	"epoch": 0.02304587284492194,
	"grad_norm": 4.221986293792725,
	"learning_rate": 9.769757618213661e-05,
	"loss": 1.4115,
	"num_input_tokens_seen": 5298344,
	"step": 329
	},
	{
	"epoch": 0.023115921090651186,
	"grad_norm": 4.29000186920166,
	"learning_rate": 9.76905779334501e-05,
	"loss": 1.2855,
	"num_input_tokens_seen": 5314728,
	"step": 330
	},
	{
	"epoch": 0.02318596933638043,
	"grad_norm": 4.426812648773193,
	"learning_rate": 9.768357968476358e-05,
	"loss": 1.514,
	"num_input_tokens_seen": 5330816,
	"step": 331
	},
	{
	"epoch": 0.023256017582109677,
	"grad_norm": 4.210752964019775,
	"learning_rate": 9.767658143607706e-05,
	"loss": 1.0854,
	"num_input_tokens_seen": 5346552,
	"step": 332
	},
	{
	"epoch": 0.023326065827838922,
	"grad_norm": 4.216427326202393,
	"learning_rate": 9.766958318739054e-05,
	"loss": 1.1573,
	"num_input_tokens_seen": 5362936,
	"step": 333
	},
	{
	"epoch": 0.02339611407356817,
	"grad_norm": 4.132325649261475,
	"learning_rate": 9.766258493870403e-05,
	"loss": 1.0942,
	"num_input_tokens_seen": 5379320,
	"step": 334
	},
	{
	"epoch": 0.023466162319297417,
	"grad_norm": 4.277027130126953,
	"learning_rate": 9.765558669001752e-05,
	"loss": 1.1227,
	"num_input_tokens_seen": 5395704,
	"step": 335
	},
	{
	"epoch": 0.023536210565026663,
	"grad_norm": 4.228096961975098,
	"learning_rate": 9.7648588441331e-05,
	"loss": 1.1094,
	"num_input_tokens_seen": 5412088,
	"step": 336
	},
	{
	"epoch": 0.02360625881075591,
	"grad_norm": 4.194522380828857,
	"learning_rate": 9.76415901926445e-05,
	"loss": 1.2066,
	"num_input_tokens_seen": 5428472,
	"step": 337
	},
	{
	"epoch": 0.023676307056485154,
	"grad_norm": 4.336326599121094,
	"learning_rate": 9.763459194395797e-05,
	"loss": 1.2251,
	"num_input_tokens_seen": 5444856,
	"step": 338
	},
	{
	"epoch": 0.0237463553022144,
	"grad_norm": 4.2723307609558105,
	"learning_rate": 9.762759369527146e-05,
	"loss": 1.0927,
	"num_input_tokens_seen": 5460304,
	"step": 339
	},
	{
	"epoch": 0.023816403547943645,
	"grad_norm": 4.190036773681641,
	"learning_rate": 9.762059544658493e-05,
	"loss": 1.2036,
	"num_input_tokens_seen": 5476688,
	"step": 340
	},
	{
	"epoch": 0.02388645179367289,
	"grad_norm": 4.477560043334961,
	"learning_rate": 9.761359719789842e-05,
	"loss": 1.362,
	"num_input_tokens_seen": 5493072,
	"step": 341
	},
	{
	"epoch": 0.02395650003940214,
	"grad_norm": 4.160232067108154,
	"learning_rate": 9.760659894921192e-05,
	"loss": 1.1602,
	"num_input_tokens_seen": 5509456,
	"step": 342
	},
	{
	"epoch": 0.024026548285131386,
	"grad_norm": 3.857335090637207,
	"learning_rate": 9.75996007005254e-05,
	"loss": 1.0963,
	"num_input_tokens_seen": 5525840,
	"step": 343
	},
	{
	"epoch": 0.02409659653086063,
	"grad_norm": 4.141246318817139,
	"learning_rate": 9.759260245183889e-05,
	"loss": 1.2009,
	"num_input_tokens_seen": 5541888,
	"step": 344
	},
	{
	"epoch": 0.024166644776589877,
	"grad_norm": 4.50364875793457,
	"learning_rate": 9.758560420315236e-05,
	"loss": 1.1483,
	"num_input_tokens_seen": 5557848,
	"step": 345
	},
	{
	"epoch": 0.024236693022319122,
	"grad_norm": 4.3343353271484375,
	"learning_rate": 9.757860595446585e-05,
	"loss": 1.3594,
	"num_input_tokens_seen": 5573504,
	"step": 346
	},
	{
	"epoch": 0.024306741268048368,
	"grad_norm": 4.050408363342285,
	"learning_rate": 9.757160770577934e-05,
	"loss": 1.0563,
	"num_input_tokens_seen": 5589544,
	"step": 347
	},
	{
	"epoch": 0.024376789513777614,
	"grad_norm": 4.051811695098877,
	"learning_rate": 9.756460945709283e-05,
	"loss": 1.0288,
	"num_input_tokens_seen": 5605368,
	"step": 348
	},
	{
	"epoch": 0.02444683775950686,
	"grad_norm": 4.365113258361816,
	"learning_rate": 9.755761120840632e-05,
	"loss": 1.3054,
	"num_input_tokens_seen": 5621752,
	"step": 349
	},
	{
	"epoch": 0.024516886005236105,
	"grad_norm": 4.0057501792907715,
	"learning_rate": 9.755061295971979e-05,
	"loss": 1.1302,
	"num_input_tokens_seen": 5638136,
	"step": 350
	},
	{
	"epoch": 0.024586934250965354,
	"grad_norm": 4.254896640777588,
	"learning_rate": 9.754361471103328e-05,
	"loss": 1.0495,
	"num_input_tokens_seen": 5653168,
	"step": 351
	},
	{
	"epoch": 0.0246569824966946,
	"grad_norm": 3.8119771480560303,
	"learning_rate": 9.753661646234677e-05,
	"loss": 1.0349,
	"num_input_tokens_seen": 5669504,
	"step": 352
	},
	{
	"epoch": 0.024727030742423845,
	"grad_norm": 4.5082621574401855,
	"learning_rate": 9.752961821366024e-05,
	"loss": 1.2537,
	"num_input_tokens_seen": 5685168,
	"step": 353
	},
	{
	"epoch": 0.02479707898815309,
	"grad_norm": 4.392731189727783,
	"learning_rate": 9.752261996497373e-05,
	"loss": 1.2534,
	"num_input_tokens_seen": 5701240,
	"step": 354
	},
	{
	"epoch": 0.024867127233882336,
	"grad_norm": 4.293395519256592,
	"learning_rate": 9.751562171628722e-05,
	"loss": 1.2774,
	"num_input_tokens_seen": 5717624,
	"step": 355
	},
	{
	"epoch": 0.024937175479611582,
	"grad_norm": 4.64813756942749,
	"learning_rate": 9.750862346760071e-05,
	"loss": 1.2795,
	"num_input_tokens_seen": 5733104,
	"step": 356
	},
	{
	"epoch": 0.025007223725340828,
	"grad_norm": 4.5166778564453125,
	"learning_rate": 9.75016252189142e-05,
	"loss": 1.1301,
	"num_input_tokens_seen": 5749488,
	"step": 357
	},
	{
	"epoch": 0.025077271971070073,
	"grad_norm": 3.894291400909424,
	"learning_rate": 9.749462697022767e-05,
	"loss": 0.901,
	"num_input_tokens_seen": 5765872,
	"step": 358
	},
	{
	"epoch": 0.02514732021679932,
	"grad_norm": 4.10056209564209,
	"learning_rate": 9.748762872154116e-05,
	"loss": 1.0529,
	"num_input_tokens_seen": 5780856,
	"step": 359
	},
	{
	"epoch": 0.025217368462528568,
	"grad_norm": 4.6277666091918945,
	"learning_rate": 9.748063047285464e-05,
	"loss": 1.3649,
	"num_input_tokens_seen": 5796856,
	"step": 360
	},
	{
	"epoch": 0.025287416708257814,
	"grad_norm": 4.029720306396484,
	"learning_rate": 9.747363222416813e-05,
	"loss": 0.8863,
	"num_input_tokens_seen": 5812176,
	"step": 361
	},
	{
	"epoch": 0.02535746495398706,
	"grad_norm": 3.7772202491760254,
	"learning_rate": 9.746663397548161e-05,
	"loss": 1.0448,
	"num_input_tokens_seen": 5828064,
	"step": 362
	},
	{
	"epoch": 0.025427513199716305,
	"grad_norm": 4.379861354827881,
	"learning_rate": 9.74596357267951e-05,
	"loss": 1.3274,
	"num_input_tokens_seen": 5843680,
	"step": 363
	},
	{
	"epoch": 0.02549756144544555,
	"grad_norm": 4.254587173461914,
	"learning_rate": 9.745263747810859e-05,
	"loss": 1.1502,
	"num_input_tokens_seen": 5859024,
	"step": 364
	},
	{
	"epoch": 0.025567609691174796,
	"grad_norm": 4.271276473999023,
	"learning_rate": 9.744563922942207e-05,
	"loss": 1.2785,
	"num_input_tokens_seen": 5874320,
	"step": 365
	},
	{
	"epoch": 0.02563765793690404,
	"grad_norm": 4.224324703216553,
	"learning_rate": 9.743864098073555e-05,
	"loss": 1.0926,
	"num_input_tokens_seen": 5890704,
	"step": 366
	},
	{
	"epoch": 0.025707706182633287,
	"grad_norm": 4.289444446563721,
	"learning_rate": 9.743164273204903e-05,
	"loss": 1.1913,
	"num_input_tokens_seen": 5906016,
	"step": 367
	},
	{
	"epoch": 0.025777754428362536,
	"grad_norm": 4.280707359313965,
	"learning_rate": 9.742464448336253e-05,
	"loss": 1.2238,
	"num_input_tokens_seen": 5921784,
	"step": 368
	},
	{
	"epoch": 0.025847802674091782,
	"grad_norm": 4.554803848266602,
	"learning_rate": 9.741764623467602e-05,
	"loss": 1.2491,
	"num_input_tokens_seen": 5938072,
	"step": 369
	},
	{
	"epoch": 0.025917850919821028,
	"grad_norm": 4.677784442901611,
	"learning_rate": 9.74106479859895e-05,
	"loss": 1.2387,
	"num_input_tokens_seen": 5954456,
	"step": 370
	},
	{
	"epoch": 0.025987899165550273,
	"grad_norm": 4.268225193023682,
	"learning_rate": 9.740364973730298e-05,
	"loss": 1.2983,
	"num_input_tokens_seen": 5970664,
	"step": 371
	},
	{
	"epoch": 0.02605794741127952,
	"grad_norm": 4.361818790435791,
	"learning_rate": 9.739665148861646e-05,
	"loss": 1.199,
	"num_input_tokens_seen": 5987048,
	"step": 372
	},
	{
	"epoch": 0.026127995657008764,
	"grad_norm": 3.9990735054016113,
	"learning_rate": 9.738965323992995e-05,
	"loss": 1.0777,
	"num_input_tokens_seen": 6003432,
	"step": 373
	},
	{
	"epoch": 0.02619804390273801,
	"grad_norm": 3.992142915725708,
	"learning_rate": 9.738265499124344e-05,
	"loss": 1.0443,
	"num_input_tokens_seen": 6019816,
	"step": 374
	},
	{
	"epoch": 0.026268092148467256,
	"grad_norm": 4.270167827606201,
	"learning_rate": 9.737565674255693e-05,
	"loss": 1.1764,
	"num_input_tokens_seen": 6036200,
	"step": 375
	},
	{
	"epoch": 0.0263381403941965,
	"grad_norm": 4.362086296081543,
	"learning_rate": 9.736865849387041e-05,
	"loss": 1.2735,
	"num_input_tokens_seen": 6052120,
	"step": 376
	},
	{
	"epoch": 0.02640818863992575,
	"grad_norm": 3.6900475025177,
	"learning_rate": 9.736166024518389e-05,
	"loss": 0.8729,
	"num_input_tokens_seen": 6068264,
	"step": 377
	},
	{
	"epoch": 0.026478236885654996,
	"grad_norm": 3.8281285762786865,
	"learning_rate": 9.735466199649738e-05,
	"loss": 1.1096,
	"num_input_tokens_seen": 6084504,
	"step": 378
	},
	{
	"epoch": 0.02654828513138424,
	"grad_norm": 3.9335553646087646,
	"learning_rate": 9.734766374781087e-05,
	"loss": 1.0763,
	"num_input_tokens_seen": 6100592,
	"step": 379
	},
	{
	"epoch": 0.026618333377113487,
	"grad_norm": 4.332645416259766,
	"learning_rate": 9.734066549912434e-05,
	"loss": 1.1751,
	"num_input_tokens_seen": 6116976,
	"step": 380
	},
	{
	"epoch": 0.026688381622842733,
	"grad_norm": 4.160863399505615,
	"learning_rate": 9.733366725043783e-05,
	"loss": 1.0778,
	"num_input_tokens_seen": 6133360,
	"step": 381
	},
	{
	"epoch": 0.02675842986857198,
	"grad_norm": 4.388178825378418,
	"learning_rate": 9.732666900175132e-05,
	"loss": 1.2214,
	"num_input_tokens_seen": 6149744,
	"step": 382
	},
	{
	"epoch": 0.026828478114301224,
	"grad_norm": 4.354910373687744,
	"learning_rate": 9.73196707530648e-05,
	"loss": 1.4115,
	"num_input_tokens_seen": 6166048,
	"step": 383
	},
	{
	"epoch": 0.02689852636003047,
	"grad_norm": 4.058071613311768,
	"learning_rate": 9.73126725043783e-05,
	"loss": 1.0934,
	"num_input_tokens_seen": 6181840,
	"step": 384
	},
	{
	"epoch": 0.026968574605759715,
	"grad_norm": 4.060855865478516,
	"learning_rate": 9.730567425569177e-05,
	"loss": 1.1395,
	"num_input_tokens_seen": 6198224,
	"step": 385
	},
	{
	"epoch": 0.027038622851488964,
	"grad_norm": 4.316681385040283,
	"learning_rate": 9.729867600700526e-05,
	"loss": 1.1052,
	"num_input_tokens_seen": 6214608,
	"step": 386
	},
	{
	"epoch": 0.02710867109721821,
	"grad_norm": 4.322516918182373,
	"learning_rate": 9.729167775831873e-05,
	"loss": 1.2512,
	"num_input_tokens_seen": 6230992,
	"step": 387
	},
	{
	"epoch": 0.027178719342947456,
	"grad_norm": 4.090857028961182,
	"learning_rate": 9.728467950963224e-05,
	"loss": 1.0772,
	"num_input_tokens_seen": 6246760,
	"step": 388
	},
	{
	"epoch": 0.0272487675886767,
	"grad_norm": 4.0143961906433105,
	"learning_rate": 9.727768126094571e-05,
	"loss": 1.0578,
	"num_input_tokens_seen": 6261968,
	"step": 389
	},
	{
	"epoch": 0.027318815834405947,
	"grad_norm": 4.911194324493408,
	"learning_rate": 9.72706830122592e-05,
	"loss": 1.3016,
	"num_input_tokens_seen": 6276664,
	"step": 390
	},
	{
	"epoch": 0.027388864080135192,
	"grad_norm": 4.057498931884766,
	"learning_rate": 9.726368476357269e-05,
	"loss": 1.026,
	"num_input_tokens_seen": 6293048,
	"step": 391
	},
	{
	"epoch": 0.027458912325864438,
	"grad_norm": 3.9827401638031006,
	"learning_rate": 9.725668651488616e-05,
	"loss": 1.136,
	"num_input_tokens_seen": 6309432,
	"step": 392
	},
	{
	"epoch": 0.027528960571593684,
	"grad_norm": 4.640822887420654,
	"learning_rate": 9.724968826619965e-05,
	"loss": 1.2823,
	"num_input_tokens_seen": 6325568,
	"step": 393
	},
	{
	"epoch": 0.027599008817322933,
	"grad_norm": 4.372538089752197,
	"learning_rate": 9.724269001751314e-05,
	"loss": 1.0354,
	"num_input_tokens_seen": 6341952,
	"step": 394
	},
	{
	"epoch": 0.02766905706305218,
	"grad_norm": 4.018289566040039,
	"learning_rate": 9.723569176882663e-05,
	"loss": 1.029,
	"num_input_tokens_seen": 6358336,
	"step": 395
	},
	{
	"epoch": 0.027739105308781424,
	"grad_norm": 4.440858364105225,
	"learning_rate": 9.722869352014012e-05,
	"loss": 1.2272,
	"num_input_tokens_seen": 6374680,
	"step": 396
	},
	{
	"epoch": 0.02780915355451067,
	"grad_norm": 4.246788024902344,
	"learning_rate": 9.722169527145359e-05,
	"loss": 1.0161,
	"num_input_tokens_seen": 6390672,
	"step": 397
	},
	{
	"epoch": 0.027879201800239915,
	"grad_norm": 4.27274751663208,
	"learning_rate": 9.721469702276708e-05,
	"loss": 1.293,
	"num_input_tokens_seen": 6407056,
	"step": 398
	},
	{
	"epoch": 0.02794925004596916,
	"grad_norm": 4.171760559082031,
	"learning_rate": 9.720769877408056e-05,
	"loss": 1.2766,
	"num_input_tokens_seen": 6423440,
	"step": 399
	},
	{
	"epoch": 0.028019298291698407,
	"grad_norm": 4.174622535705566,
	"learning_rate": 9.720070052539405e-05,
	"loss": 1.049,
	"num_input_tokens_seen": 6439824,
	"step": 400
	},
	{
	"epoch": 0.028019298291698407,
	"eval_loss": 1.1994441747665405,
	"eval_runtime": 0.2131,
	"eval_samples_per_second": 4.693,
	"eval_steps_per_second": 4.693,
	"num_input_tokens_seen": 6439824,
	"step": 400
	},
	{
	"epoch": 0.028089346537427652,
	"grad_norm": 4.199150562286377,
	"learning_rate": 9.719370227670753e-05,
	"loss": 1.3432,
	"num_input_tokens_seen": 6456208,
	"step": 401
	},
	{
	"epoch": 0.028159394783156898,
	"grad_norm": 3.9011733531951904,
	"learning_rate": 9.718670402802102e-05,
	"loss": 1.0895,
	"num_input_tokens_seen": 6472592,
	"step": 402
	},
	{
	"epoch": 0.028229443028886147,
	"grad_norm": 4.142306327819824,
	"learning_rate": 9.717970577933451e-05,
	"loss": 0.9031,
	"num_input_tokens_seen": 6488976,
	"step": 403
	},
	{
	"epoch": 0.028299491274615392,
	"grad_norm": 3.9745633602142334,
	"learning_rate": 9.717270753064799e-05,
	"loss": 0.9951,
	"num_input_tokens_seen": 6505360,
	"step": 404
	},
	{
	"epoch": 0.028369539520344638,
	"grad_norm": 3.838865280151367,
	"learning_rate": 9.716570928196147e-05,
	"loss": 0.809,
	"num_input_tokens_seen": 6521744,
	"step": 405
	},
	{
	"epoch": 0.028439587766073884,
	"grad_norm": 4.48146390914917,
	"learning_rate": 9.715871103327496e-05,
	"loss": 1.4985,
	"num_input_tokens_seen": 6538128,
	"step": 406
	},
	{
	"epoch": 0.02850963601180313,
	"grad_norm": 4.393556594848633,
	"learning_rate": 9.715171278458844e-05,
	"loss": 1.2355,
	"num_input_tokens_seen": 6554512,
	"step": 407
	},
	{
	"epoch": 0.028579684257532375,
	"grad_norm": 3.970860004425049,
	"learning_rate": 9.714471453590194e-05,
	"loss": 1.1513,
	"num_input_tokens_seen": 6570896,
	"step": 408
	},
	{
	"epoch": 0.02864973250326162,
	"grad_norm": 4.166610240936279,
	"learning_rate": 9.713771628721542e-05,
	"loss": 1.108,
	"num_input_tokens_seen": 6587216,
	"step": 409
	},
	{
	"epoch": 0.028719780748990866,
	"grad_norm": 3.9887096881866455,
	"learning_rate": 9.71307180385289e-05,
	"loss": 1.1639,
	"num_input_tokens_seen": 6603600,
	"step": 410
	},
	{
	"epoch": 0.028789828994720112,
	"grad_norm": 4.195802211761475,
	"learning_rate": 9.712371978984239e-05,
	"loss": 1.1478,
	"num_input_tokens_seen": 6619984,
	"step": 411
	},
	{
	"epoch": 0.02885987724044936,
	"grad_norm": 4.011331081390381,
	"learning_rate": 9.711672154115587e-05,
	"loss": 0.9554,
	"num_input_tokens_seen": 6635904,
	"step": 412
	},
	{
	"epoch": 0.028929925486178606,
	"grad_norm": 4.4170026779174805,
	"learning_rate": 9.710972329246936e-05,
	"loss": 1.1452,
	"num_input_tokens_seen": 6651944,
	"step": 413
	},
	{
	"epoch": 0.028999973731907852,
	"grad_norm": 4.073450088500977,
	"learning_rate": 9.710272504378284e-05,
	"loss": 1.1187,
	"num_input_tokens_seen": 6668096,
	"step": 414
	},
	{
	"epoch": 0.029070021977637098,
	"grad_norm": 4.161722183227539,
	"learning_rate": 9.709572679509633e-05,
	"loss": 1.1603,
	"num_input_tokens_seen": 6684480,
	"step": 415
	},
	{
	"epoch": 0.029140070223366343,
	"grad_norm": 4.540097713470459,
	"learning_rate": 9.708872854640981e-05,
	"loss": 1.2143,
	"num_input_tokens_seen": 6700536,
	"step": 416
	},
	{
	"epoch": 0.02921011846909559,
	"grad_norm": 4.030871868133545,
	"learning_rate": 9.70817302977233e-05,
	"loss": 0.9791,
	"num_input_tokens_seen": 6716920,
	"step": 417
	},
	{
	"epoch": 0.029280166714824835,
	"grad_norm": 4.1743268966674805,
	"learning_rate": 9.707473204903679e-05,
	"loss": 0.9818,
	"num_input_tokens_seen": 6733304,
	"step": 418
	},
	{
	"epoch": 0.02935021496055408,
	"grad_norm": 4.227272987365723,
	"learning_rate": 9.706773380035026e-05,
	"loss": 1.0945,
	"num_input_tokens_seen": 6749688,
	"step": 419
	},
	{
	"epoch": 0.02942026320628333,
	"grad_norm": 4.406428813934326,
	"learning_rate": 9.706073555166375e-05,
	"loss": 1.0302,
	"num_input_tokens_seen": 6766072,
	"step": 420
	},
	{
	"epoch": 0.029490311452012575,
	"grad_norm": 4.17899227142334,
	"learning_rate": 9.705373730297724e-05,
	"loss": 1.1048,
	"num_input_tokens_seen": 6782456,
	"step": 421
	},
	{
	"epoch": 0.02956035969774182,
	"grad_norm": 4.034752368927002,
	"learning_rate": 9.704673905429073e-05,
	"loss": 1.2639,
	"num_input_tokens_seen": 6798840,
	"step": 422
	},
	{
	"epoch": 0.029630407943471066,
	"grad_norm": 4.795727729797363,
	"learning_rate": 9.703974080560421e-05,
	"loss": 1.2448,
	"num_input_tokens_seen": 6814912,
	"step": 423
	},
	{
	"epoch": 0.029700456189200312,
	"grad_norm": 4.509056568145752,
	"learning_rate": 9.703274255691769e-05,
	"loss": 1.2157,
	"num_input_tokens_seen": 6830720,
	"step": 424
	},
	{
	"epoch": 0.029770504434929557,
	"grad_norm": 4.064620494842529,
	"learning_rate": 9.702574430823118e-05,
	"loss": 1.2042,
	"num_input_tokens_seen": 6847104,
	"step": 425
	},
	{
	"epoch": 0.029840552680658803,
	"grad_norm": 3.9060182571411133,
	"learning_rate": 9.701874605954465e-05,
	"loss": 0.9116,
	"num_input_tokens_seen": 6862952,
	"step": 426
	},
	{
	"epoch": 0.02991060092638805,
	"grad_norm": 3.9900951385498047,
	"learning_rate": 9.701174781085814e-05,
	"loss": 1.1621,
	"num_input_tokens_seen": 6879336,
	"step": 427
	},
	{
	"epoch": 0.029980649172117294,
	"grad_norm": 4.371436595916748,
	"learning_rate": 9.700474956217164e-05,
	"loss": 1.2731,
	"num_input_tokens_seen": 6895720,
	"step": 428
	},
	{
	"epoch": 0.030050697417846543,
	"grad_norm": 3.9422085285186768,
	"learning_rate": 9.699775131348512e-05,
	"loss": 0.9636,
	"num_input_tokens_seen": 6912104,
	"step": 429
	},
	{
	"epoch": 0.03012074566357579,
	"grad_norm": 4.080913543701172,
	"learning_rate": 9.699075306479861e-05,
	"loss": 1.1507,
	"num_input_tokens_seen": 6928488,
	"step": 430
	},
	{
	"epoch": 0.030190793909305035,
	"grad_norm": 4.493942737579346,
	"learning_rate": 9.698375481611208e-05,
	"loss": 1.2274,
	"num_input_tokens_seen": 6944664,
	"step": 431
	},
	{
	"epoch": 0.03026084215503428,
	"grad_norm": 4.073723793029785,
	"learning_rate": 9.697675656742557e-05,
	"loss": 1.0498,
	"num_input_tokens_seen": 6960344,
	"step": 432
	},
	{
	"epoch": 0.030330890400763526,
	"grad_norm": 3.9672274589538574,
	"learning_rate": 9.696975831873906e-05,
	"loss": 1.007,
	"num_input_tokens_seen": 6976720,
	"step": 433
	},
	{
	"epoch": 0.03040093864649277,
	"grad_norm": 4.497872829437256,
	"learning_rate": 9.696276007005255e-05,
	"loss": 1.1339,
	"num_input_tokens_seen": 6992552,
	"step": 434
	},
	{
	"epoch": 0.030470986892222017,
	"grad_norm": 4.422168731689453,
	"learning_rate": 9.695576182136604e-05,
	"loss": 1.34,
	"num_input_tokens_seen": 7008936,
	"step": 435
	},
	{
	"epoch": 0.030541035137951263,
	"grad_norm": 4.3009138107299805,
	"learning_rate": 9.694876357267951e-05,
	"loss": 1.2479,
	"num_input_tokens_seen": 7024512,
	"step": 436
	},
	{
	"epoch": 0.030611083383680508,
	"grad_norm": 4.04030704498291,
	"learning_rate": 9.6941765323993e-05,
	"loss": 1.097,
	"num_input_tokens_seen": 7040896,
	"step": 437
	},
	{
	"epoch": 0.030681131629409757,
	"grad_norm": 3.877417802810669,
	"learning_rate": 9.693476707530649e-05,
	"loss": 1.1363,
	"num_input_tokens_seen": 7057280,
	"step": 438
	},
	{
	"epoch": 0.030751179875139003,
	"grad_norm": 3.8185505867004395,
	"learning_rate": 9.692776882661996e-05,
	"loss": 0.9067,
	"num_input_tokens_seen": 7072544,
	"step": 439
	},
	{
	"epoch": 0.03082122812086825,
	"grad_norm": 4.028950214385986,
	"learning_rate": 9.692077057793345e-05,
	"loss": 1.1195,
	"num_input_tokens_seen": 7088928,
	"step": 440
	},
	{
	"epoch": 0.030891276366597494,
	"grad_norm": 4.2786431312561035,
	"learning_rate": 9.691377232924694e-05,
	"loss": 1.1199,
	"num_input_tokens_seen": 7105248,
	"step": 441
	},
	{
	"epoch": 0.03096132461232674,
	"grad_norm": 4.193462371826172,
	"learning_rate": 9.690677408056043e-05,
	"loss": 1.1812,
	"num_input_tokens_seen": 7121008,
	"step": 442
	},
	{
	"epoch": 0.031031372858055985,
	"grad_norm": 3.93597412109375,
	"learning_rate": 9.68997758318739e-05,
	"loss": 1.0677,
	"num_input_tokens_seen": 7136944,
	"step": 443
	},
	{
	"epoch": 0.03110142110378523,
	"grad_norm": 4.3208537101745605,
	"learning_rate": 9.68927775831874e-05,
	"loss": 1.1358,
	"num_input_tokens_seen": 7152928,
	"step": 444
	},
	{
	"epoch": 0.031171469349514477,
	"grad_norm": 3.9743378162384033,
	"learning_rate": 9.688577933450088e-05,
	"loss": 1.094,
	"num_input_tokens_seen": 7169312,
	"step": 445
	},
	{
	"epoch": 0.031241517595243726,
	"grad_norm": 4.226114273071289,
	"learning_rate": 9.687878108581436e-05,
	"loss": 1.1752,
	"num_input_tokens_seen": 7185696,
	"step": 446
	},
	{
	"epoch": 0.03131156584097297,
	"grad_norm": 4.210222244262695,
	"learning_rate": 9.687178283712785e-05,
	"loss": 1.1262,
	"num_input_tokens_seen": 7201784,
	"step": 447
	},
	{
	"epoch": 0.03138161408670222,
	"grad_norm": 4.311635971069336,
	"learning_rate": 9.686478458844133e-05,
	"loss": 1.2491,
	"num_input_tokens_seen": 7218168,
	"step": 448
	},
	{
	"epoch": 0.03145166233243146,
	"grad_norm": 4.56603479385376,
	"learning_rate": 9.685778633975482e-05,
	"loss": 1.3512,
	"num_input_tokens_seen": 7233360,
	"step": 449
	},
	{
	"epoch": 0.03152171057816071,
	"grad_norm": 4.232856750488281,
	"learning_rate": 9.685078809106831e-05,
	"loss": 0.9387,
	"num_input_tokens_seen": 7248280,
	"step": 450
	},
	{
	"epoch": 0.031591758823889954,
	"grad_norm": 4.512947082519531,
	"learning_rate": 9.684378984238179e-05,
	"loss": 1.1988,
	"num_input_tokens_seen": 7264664,
	"step": 451
	},
	{
	"epoch": 0.0316618070696192,
	"grad_norm": 4.273897171020508,
	"learning_rate": 9.683679159369528e-05,
	"loss": 1.2523,
	"num_input_tokens_seen": 7281048,
	"step": 452
	},
	{
	"epoch": 0.031731855315348445,
	"grad_norm": 4.288438320159912,
	"learning_rate": 9.682979334500875e-05,
	"loss": 1.1692,
	"num_input_tokens_seen": 7297424,
	"step": 453
	},
	{
	"epoch": 0.03180190356107769,
	"grad_norm": 4.27367639541626,
	"learning_rate": 9.682279509632225e-05,
	"loss": 1.1868,
	"num_input_tokens_seen": 7312792,
	"step": 454
	},
	{
	"epoch": 0.031871951806806936,
	"grad_norm": 3.978926181793213,
	"learning_rate": 9.681579684763574e-05,
	"loss": 1.0382,
	"num_input_tokens_seen": 7329176,
	"step": 455
	},
	{
	"epoch": 0.03194200005253618,
	"grad_norm": 4.4399919509887695,
	"learning_rate": 9.680879859894922e-05,
	"loss": 1.2072,
	"num_input_tokens_seen": 7345560,
	"step": 456
	},
	{
	"epoch": 0.03201204829826543,
	"grad_norm": 3.9786529541015625,
	"learning_rate": 9.68018003502627e-05,
	"loss": 1.1704,
	"num_input_tokens_seen": 7361944,
	"step": 457
	},
	{
	"epoch": 0.03208209654399467,
	"grad_norm": 4.171195030212402,
	"learning_rate": 9.679480210157618e-05,
	"loss": 1.1307,
	"num_input_tokens_seen": 7378328,
	"step": 458
	},
	{
	"epoch": 0.032152144789723926,
	"grad_norm": 3.9415268898010254,
	"learning_rate": 9.678780385288967e-05,
	"loss": 0.9971,
	"num_input_tokens_seen": 7394208,
	"step": 459
	},
	{
	"epoch": 0.03222219303545317,
	"grad_norm": 4.066036224365234,
	"learning_rate": 9.678080560420316e-05,
	"loss": 1.1227,
	"num_input_tokens_seen": 7410328,
	"step": 460
	},
	{
	"epoch": 0.03229224128118242,
	"grad_norm": 4.22513484954834,
	"learning_rate": 9.677380735551665e-05,
	"loss": 1.0883,
	"num_input_tokens_seen": 7426712,
	"step": 461
	},
	{
	"epoch": 0.03236228952691166,
	"grad_norm": 4.310954570770264,
	"learning_rate": 9.676680910683013e-05,
	"loss": 1.1695,
	"num_input_tokens_seen": 7442736,
	"step": 462
	},
	{
	"epoch": 0.03243233777264091,
	"grad_norm": 4.2868828773498535,
	"learning_rate": 9.675981085814361e-05,
	"loss": 1.0594,
	"num_input_tokens_seen": 7458560,
	"step": 463
	},
	{
	"epoch": 0.032502386018370154,
	"grad_norm": 4.318186283111572,
	"learning_rate": 9.67528126094571e-05,
	"loss": 1.1791,
	"num_input_tokens_seen": 7474944,
	"step": 464
	},
	{
	"epoch": 0.0325724342640994,
	"grad_norm": 4.040421009063721,
	"learning_rate": 9.674581436077059e-05,
	"loss": 1.0649,
	"num_input_tokens_seen": 7490344,
	"step": 465
	},
	{
	"epoch": 0.032642482509828645,
	"grad_norm": 3.914815902709961,
	"learning_rate": 9.673881611208406e-05,
	"loss": 1.1381,
	"num_input_tokens_seen": 7506728,
	"step": 466
	},
	{
	"epoch": 0.03271253075555789,
	"grad_norm": 4.054527282714844,
	"learning_rate": 9.673181786339755e-05,
	"loss": 1.2264,
	"num_input_tokens_seen": 7522912,
	"step": 467
	},
	{
	"epoch": 0.032782579001287136,
	"grad_norm": 4.295147895812988,
	"learning_rate": 9.672481961471104e-05,
	"loss": 1.1369,
	"num_input_tokens_seen": 7539040,
	"step": 468
	},
	{
	"epoch": 0.03285262724701638,
	"grad_norm": 4.109183311462402,
	"learning_rate": 9.671782136602453e-05,
	"loss": 1.1676,
	"num_input_tokens_seen": 7555424,
	"step": 469
	},
	{
	"epoch": 0.03292267549274563,
	"grad_norm": 4.131369590759277,
	"learning_rate": 9.6710823117338e-05,
	"loss": 1.1188,
	"num_input_tokens_seen": 7571808,
	"step": 470
	},
	{
	"epoch": 0.03299272373847487,
	"grad_norm": 3.998414993286133,
	"learning_rate": 9.670382486865149e-05,
	"loss": 1.0201,
	"num_input_tokens_seen": 7587528,
	"step": 471
	},
	{
	"epoch": 0.03306277198420412,
	"grad_norm": 4.1235551834106445,
	"learning_rate": 9.669682661996498e-05,
	"loss": 1.1265,
	"num_input_tokens_seen": 7603912,
	"step": 472
	},
	{
	"epoch": 0.033132820229933364,
	"grad_norm": 4.800798416137695,
	"learning_rate": 9.668982837127845e-05,
	"loss": 1.3634,
	"num_input_tokens_seen": 7617512,
	"step": 473
	},
	{
	"epoch": 0.03320286847566261,
	"grad_norm": 4.068000316619873,
	"learning_rate": 9.668283012259196e-05,
	"loss": 1.1427,
	"num_input_tokens_seen": 7633040,
	"step": 474
	},
	{
	"epoch": 0.033272916721391856,
	"grad_norm": 4.0715484619140625,
	"learning_rate": 9.667583187390543e-05,
	"loss": 1.0633,
	"num_input_tokens_seen": 7648416,
	"step": 475
	},
	{
	"epoch": 0.0333429649671211,
	"grad_norm": 3.937807321548462,
	"learning_rate": 9.666883362521892e-05,
	"loss": 1.1393,
	"num_input_tokens_seen": 7664624,
	"step": 476
	},
	{
	"epoch": 0.033413013212850354,
	"grad_norm": 4.195656776428223,
	"learning_rate": 9.666183537653241e-05,
	"loss": 1.1801,
	"num_input_tokens_seen": 7680480,
	"step": 477
	},
	{
	"epoch": 0.0334830614585796,
	"grad_norm": 4.227575778961182,
	"learning_rate": 9.665483712784588e-05,
	"loss": 1.0453,
	"num_input_tokens_seen": 7696632,
	"step": 478
	},
	{
	"epoch": 0.033553109704308845,
	"grad_norm": 4.328822135925293,
	"learning_rate": 9.664783887915937e-05,
	"loss": 1.221,
	"num_input_tokens_seen": 7713016,
	"step": 479
	},
	{
	"epoch": 0.03362315795003809,
	"grad_norm": 4.086736679077148,
	"learning_rate": 9.664084063047286e-05,
	"loss": 1.2817,
	"num_input_tokens_seen": 7729400,
	"step": 480
	},
	{
	"epoch": 0.033693206195767336,
	"grad_norm": 4.555233955383301,
	"learning_rate": 9.663384238178635e-05,
	"loss": 1.483,
	"num_input_tokens_seen": 7745784,
	"step": 481
	},
	{
	"epoch": 0.03376325444149658,
	"grad_norm": 4.118983745574951,
	"learning_rate": 9.662684413309984e-05,
	"loss": 0.9139,
	"num_input_tokens_seen": 7762168,
	"step": 482
	},
	{
	"epoch": 0.03383330268722583,
	"grad_norm": 4.232059001922607,
	"learning_rate": 9.661984588441331e-05,
	"loss": 1.1269,
	"num_input_tokens_seen": 7777920,
	"step": 483
	},
	{
	"epoch": 0.03390335093295507,
	"grad_norm": 6.288865089416504,
	"learning_rate": 9.66128476357268e-05,
	"loss": 1.0642,
	"num_input_tokens_seen": 7794304,
	"step": 484
	},
	{
	"epoch": 0.03397339917868432,
	"grad_norm": 4.133046627044678,
	"learning_rate": 9.660584938704028e-05,
	"loss": 1.2067,
	"num_input_tokens_seen": 7810200,
	"step": 485
	},
	{
	"epoch": 0.034043447424413564,
	"grad_norm": 4.147965431213379,
	"learning_rate": 9.659885113835377e-05,
	"loss": 1.0367,
	"num_input_tokens_seen": 7826384,
	"step": 486
	},
	{
	"epoch": 0.03411349567014281,
	"grad_norm": 4.1191020011901855,
	"learning_rate": 9.659185288966725e-05,
	"loss": 1.0972,
	"num_input_tokens_seen": 7841704,
	"step": 487
	},
	{
	"epoch": 0.034183543915872056,
	"grad_norm": 4.518441677093506,
	"learning_rate": 9.658485464098074e-05,
	"loss": 1.263,
	"num_input_tokens_seen": 7858088,
	"step": 488
	},
	{
	"epoch": 0.0342535921616013,
	"grad_norm": 4.321181297302246,
	"learning_rate": 9.657785639229423e-05,
	"loss": 1.1378,
	"num_input_tokens_seen": 7874472,
	"step": 489
	},
	{
	"epoch": 0.03432364040733055,
	"grad_norm": 4.366185665130615,
	"learning_rate": 9.65708581436077e-05,
	"loss": 1.1636,
	"num_input_tokens_seen": 7890856,
	"step": 490
	},
	{
	"epoch": 0.03439368865305979,
	"grad_norm": 4.042731761932373,
	"learning_rate": 9.65638598949212e-05,
	"loss": 1.0601,
	"num_input_tokens_seen": 7906776,
	"step": 491
	},
	{
	"epoch": 0.03446373689878904,
	"grad_norm": 3.743668556213379,
	"learning_rate": 9.655686164623468e-05,
	"loss": 1.0441,
	"num_input_tokens_seen": 7923160,
	"step": 492
	},
	{
	"epoch": 0.034533785144518284,
	"grad_norm": 3.8547139167785645,
	"learning_rate": 9.654986339754816e-05,
	"loss": 1.0842,
	"num_input_tokens_seen": 7939296,
	"step": 493
	},
	{
	"epoch": 0.034603833390247536,
	"grad_norm": 4.238414287567139,
	"learning_rate": 9.654286514886166e-05,
	"loss": 1.2498,
	"num_input_tokens_seen": 7955504,
	"step": 494
	},
	{
	"epoch": 0.03467388163597678,
	"grad_norm": 4.134857177734375,
	"learning_rate": 9.653586690017514e-05,
	"loss": 1.1241,
	"num_input_tokens_seen": 7971888,
	"step": 495
	},
	{
	"epoch": 0.03474392988170603,
	"grad_norm": 4.2501983642578125,
	"learning_rate": 9.652886865148862e-05,
	"loss": 1.1829,
	"num_input_tokens_seen": 7988272,
	"step": 496
	},
	{
	"epoch": 0.03481397812743527,
	"grad_norm": 7.4397053718566895,
	"learning_rate": 9.65218704028021e-05,
	"loss": 0.9952,
	"num_input_tokens_seen": 8003744,
	"step": 497
	},
	{
	"epoch": 0.03488402637316452,
	"grad_norm": 4.2750959396362305,
	"learning_rate": 9.651487215411559e-05,
	"loss": 1.2387,
	"num_input_tokens_seen": 8019184,
	"step": 498
	},
	{
	"epoch": 0.034954074618893764,
	"grad_norm": 4.156162261962891,
	"learning_rate": 9.650787390542908e-05,
	"loss": 1.1201,
	"num_input_tokens_seen": 8035176,
	"step": 499
	},
	{
	"epoch": 0.03502412286462301,
	"grad_norm": 4.178225040435791,
	"learning_rate": 9.650087565674257e-05,
	"loss": 1.2026,
	"num_input_tokens_seen": 8051560,
	"step": 500
	},
	{
	"epoch": 0.035094171110352256,
	"grad_norm": 4.147096157073975,
	"learning_rate": 9.649387740805605e-05,
	"loss": 1.2465,
	"num_input_tokens_seen": 8067944,
	"step": 501
	},
	{
	"epoch": 0.0351642193560815,
	"grad_norm": 4.329249858856201,
	"learning_rate": 9.648687915936953e-05,
	"loss": 1.2742,
	"num_input_tokens_seen": 8083824,
	"step": 502
	},
	{
	"epoch": 0.03523426760181075,
	"grad_norm": 4.404232978820801,
	"learning_rate": 9.647988091068302e-05,
	"loss": 1.1511,
	"num_input_tokens_seen": 8100208,
	"step": 503
	},
	{
	"epoch": 0.03530431584753999,
	"grad_norm": 4.190586090087891,
	"learning_rate": 9.64728826619965e-05,
	"loss": 0.9884,
	"num_input_tokens_seen": 8116048,
	"step": 504
	},
	{
	"epoch": 0.03537436409326924,
	"grad_norm": 4.262845516204834,
	"learning_rate": 9.646588441330998e-05,
	"loss": 1.1321,
	"num_input_tokens_seen": 8132432,
	"step": 505
	},
	{
	"epoch": 0.035444412338998484,
	"grad_norm": 4.452746391296387,
	"learning_rate": 9.645888616462347e-05,
	"loss": 1.1667,
	"num_input_tokens_seen": 8148816,
	"step": 506
	},
	{
	"epoch": 0.03551446058472773,
	"grad_norm": 4.111443042755127,
	"learning_rate": 9.645188791593696e-05,
	"loss": 1.0049,
	"num_input_tokens_seen": 8164856,
	"step": 507
	},
	{
	"epoch": 0.035584508830456975,
	"grad_norm": 4.292227268218994,
	"learning_rate": 9.644488966725045e-05,
	"loss": 1.1535,
	"num_input_tokens_seen": 8181240,
	"step": 508
	},
	{
	"epoch": 0.03565455707618622,
	"grad_norm": 4.295238971710205,
	"learning_rate": 9.643789141856394e-05,
	"loss": 1.236,
	"num_input_tokens_seen": 8197624,
	"step": 509
	},
	{
	"epoch": 0.035724605321915466,
	"grad_norm": 3.930659294128418,
	"learning_rate": 9.643089316987741e-05,
	"loss": 0.9195,
	"num_input_tokens_seen": 8213816,
	"step": 510
	},
	{
	"epoch": 0.03579465356764472,
	"grad_norm": 4.092316150665283,
	"learning_rate": 9.64238949211909e-05,
	"loss": 1.0799,
	"num_input_tokens_seen": 8229632,
	"step": 511
	},
	{
	"epoch": 0.035864701813373964,
	"grad_norm": 4.2939252853393555,
	"learning_rate": 9.641689667250437e-05,
	"loss": 1.111,
	"num_input_tokens_seen": 8245232,
	"step": 512
	},
	{
	"epoch": 0.03593475005910321,
	"grad_norm": 4.191503524780273,
	"learning_rate": 9.640989842381786e-05,
	"loss": 0.9399,
	"num_input_tokens_seen": 8260912,
	"step": 513
	},
	{
	"epoch": 0.036004798304832455,
	"grad_norm": 4.141485214233398,
	"learning_rate": 9.640290017513136e-05,
	"loss": 1.1334,
	"num_input_tokens_seen": 8276864,
	"step": 514
	},
	{
	"epoch": 0.0360748465505617,
	"grad_norm": 3.890547752380371,
	"learning_rate": 9.639590192644484e-05,
	"loss": 1.0055,
	"num_input_tokens_seen": 8292720,
	"step": 515
	},
	{
	"epoch": 0.03614489479629095,
	"grad_norm": 4.405922889709473,
	"learning_rate": 9.638890367775833e-05,
	"loss": 1.2238,
	"num_input_tokens_seen": 8309104,
	"step": 516
	},
	{
	"epoch": 0.03621494304202019,
	"grad_norm": 4.207942485809326,
	"learning_rate": 9.63819054290718e-05,
	"loss": 1.0688,
	"num_input_tokens_seen": 8325304,
	"step": 517
	},
	{
	"epoch": 0.03628499128774944,
	"grad_norm": 4.174366474151611,
	"learning_rate": 9.637490718038529e-05,
	"loss": 1.2303,
	"num_input_tokens_seen": 8341688,
	"step": 518
	},
	{
	"epoch": 0.036355039533478684,
	"grad_norm": 3.9641714096069336,
	"learning_rate": 9.636790893169878e-05,
	"loss": 1.2244,
	"num_input_tokens_seen": 8357760,
	"step": 519
	},
	{
	"epoch": 0.03642508777920793,
	"grad_norm": 5.832678318023682,
	"learning_rate": 9.636091068301227e-05,
	"loss": 1.0645,
	"num_input_tokens_seen": 8372712,
	"step": 520
	},
	{
	"epoch": 0.036495136024937175,
	"grad_norm": 3.7905161380767822,
	"learning_rate": 9.635391243432576e-05,
	"loss": 1.0551,
	"num_input_tokens_seen": 8389096,
	"step": 521
	},
	{
	"epoch": 0.03656518427066642,
	"grad_norm": 3.6744072437286377,
	"learning_rate": 9.634691418563923e-05,
	"loss": 1.0687,
	"num_input_tokens_seen": 8405216,
	"step": 522
	},
	{
	"epoch": 0.036635232516395666,
	"grad_norm": 4.897486209869385,
	"learning_rate": 9.633991593695272e-05,
	"loss": 1.1968,
	"num_input_tokens_seen": 8421600,
	"step": 523
	},
	{
	"epoch": 0.03670528076212491,
	"grad_norm": 3.821457862854004,
	"learning_rate": 9.63329176882662e-05,
	"loss": 1.0473,
	"num_input_tokens_seen": 8437984,
	"step": 524
	},
	{
	"epoch": 0.03677532900785416,
	"grad_norm": 3.873832941055298,
	"learning_rate": 9.632591943957969e-05,
	"loss": 0.9656,
	"num_input_tokens_seen": 8453760,
	"step": 525
	},
	{
	"epoch": 0.0368453772535834,
	"grad_norm": 4.139901161193848,
	"learning_rate": 9.631892119089317e-05,
	"loss": 1.0881,
	"num_input_tokens_seen": 8470144,
	"step": 526
	},
	{
	"epoch": 0.03691542549931265,
	"grad_norm": 3.9512782096862793,
	"learning_rate": 9.631192294220666e-05,
	"loss": 1.1093,
	"num_input_tokens_seen": 8486528,
	"step": 527
	},
	{
	"epoch": 0.0369854737450419,
	"grad_norm": 3.8937103748321533,
	"learning_rate": 9.630492469352015e-05,
	"loss": 0.9722,
	"num_input_tokens_seen": 8502912,
	"step": 528
	},
	{
	"epoch": 0.03705552199077115,
	"grad_norm": 4.482640743255615,
	"learning_rate": 9.629792644483363e-05,
	"loss": 1.056,
	"num_input_tokens_seen": 8519296,
	"step": 529
	},
	{
	"epoch": 0.03712557023650039,
	"grad_norm": 4.127941131591797,
	"learning_rate": 9.629092819614711e-05,
	"loss": 1.0285,
	"num_input_tokens_seen": 8535160,
	"step": 530
	},
	{
	"epoch": 0.03719561848222964,
	"grad_norm": 3.973585844039917,
	"learning_rate": 9.62839299474606e-05,
	"loss": 1.0356,
	"num_input_tokens_seen": 8551256,
	"step": 531
	},
	{
	"epoch": 0.037265666727958884,
	"grad_norm": 4.22855281829834,
	"learning_rate": 9.627693169877408e-05,
	"loss": 1.134,
	"num_input_tokens_seen": 8567640,
	"step": 532
	},
	{
	"epoch": 0.03733571497368813,
	"grad_norm": 4.144021511077881,
	"learning_rate": 9.626993345008757e-05,
	"loss": 1.0963,
	"num_input_tokens_seen": 8583504,
	"step": 533
	},
	{
	"epoch": 0.037405763219417375,
	"grad_norm": 3.8666226863861084,
	"learning_rate": 9.626293520140106e-05,
	"loss": 0.912,
	"num_input_tokens_seen": 8599888,
	"step": 534
	},
	{
	"epoch": 0.03747581146514662,
	"grad_norm": 4.215412616729736,
	"learning_rate": 9.625593695271454e-05,
	"loss": 1.1055,
	"num_input_tokens_seen": 8616256,
	"step": 535
	},
	{
	"epoch": 0.037545859710875866,
	"grad_norm": 4.353022575378418,
	"learning_rate": 9.624893870402803e-05,
	"loss": 1.0379,
	"num_input_tokens_seen": 8632640,
	"step": 536
	},
	{
	"epoch": 0.03761590795660511,
	"grad_norm": 3.778947591781616,
	"learning_rate": 9.624194045534151e-05,
	"loss": 1.0547,
	"num_input_tokens_seen": 8648624,
	"step": 537
	},
	{
	"epoch": 0.03768595620233436,
	"grad_norm": 4.481568336486816,
	"learning_rate": 9.6234942206655e-05,
	"loss": 1.3407,
	"num_input_tokens_seen": 8664200,
	"step": 538
	},
	{
	"epoch": 0.0377560044480636,
	"grad_norm": 4.066302299499512,
	"learning_rate": 9.622794395796847e-05,
	"loss": 0.995,
	"num_input_tokens_seen": 8680584,
	"step": 539
	},
	{
	"epoch": 0.03782605269379285,
	"grad_norm": 4.262768268585205,
	"learning_rate": 9.622094570928197e-05,
	"loss": 1.3054,
	"num_input_tokens_seen": 8696968,
	"step": 540
	},
	{
	"epoch": 0.037896100939522094,
	"grad_norm": 3.777597665786743,
	"learning_rate": 9.621394746059546e-05,
	"loss": 0.9831,
	"num_input_tokens_seen": 8713352,
	"step": 541
	},
	{
	"epoch": 0.03796614918525134,
	"grad_norm": 3.9732742309570312,
	"learning_rate": 9.620694921190894e-05,
	"loss": 1.0699,
	"num_input_tokens_seen": 8729048,
	"step": 542
	},
	{
	"epoch": 0.038036197430980585,
	"grad_norm": 4.543329238891602,
	"learning_rate": 9.619995096322243e-05,
	"loss": 1.1546,
	"num_input_tokens_seen": 8745432,
	"step": 543
	},
	{
	"epoch": 0.03810624567670983,
	"grad_norm": 4.903865814208984,
	"learning_rate": 9.61929527145359e-05,
	"loss": 1.1548,
	"num_input_tokens_seen": 8760296,
	"step": 544
	},
	{
	"epoch": 0.03817629392243908,
	"grad_norm": 4.197691917419434,
	"learning_rate": 9.618595446584939e-05,
	"loss": 1.1616,
	"num_input_tokens_seen": 8776680,
	"step": 545
	},
	{
	"epoch": 0.03824634216816833,
	"grad_norm": 3.912689208984375,
	"learning_rate": 9.617895621716288e-05,
	"loss": 0.9926,
	"num_input_tokens_seen": 8793064,
	"step": 546
	},
	{
	"epoch": 0.038316390413897575,
	"grad_norm": 4.291840076446533,
	"learning_rate": 9.617195796847637e-05,
	"loss": 1.1943,
	"num_input_tokens_seen": 8809448,
	"step": 547
	},
	{
	"epoch": 0.03838643865962682,
	"grad_norm": 3.9053072929382324,
	"learning_rate": 9.616495971978985e-05,
	"loss": 1.2437,
	"num_input_tokens_seen": 8825536,
	"step": 548
	},
	{
	"epoch": 0.038456486905356066,
	"grad_norm": 4.860696315765381,
	"learning_rate": 9.615796147110333e-05,
	"loss": 1.3045,
	"num_input_tokens_seen": 8841920,
	"step": 549
	},
	{
	"epoch": 0.03852653515108531,
	"grad_norm": 3.9394373893737793,
	"learning_rate": 9.615096322241682e-05,
	"loss": 1.1367,
	"num_input_tokens_seen": 8858304,
	"step": 550
	},
	{
	"epoch": 0.03859658339681456,
	"grad_norm": 3.8160409927368164,
	"learning_rate": 9.61439649737303e-05,
	"loss": 1.0864,
	"num_input_tokens_seen": 8874688,
	"step": 551
	},
	{
	"epoch": 0.0386666316425438,
	"grad_norm": 4.3792805671691895,
	"learning_rate": 9.613696672504378e-05,
	"loss": 1.2516,
	"num_input_tokens_seen": 8891072,
	"step": 552
	},
	{
	"epoch": 0.03873667988827305,
	"grad_norm": 4.103452682495117,
	"learning_rate": 9.612996847635727e-05,
	"loss": 0.9737,
	"num_input_tokens_seen": 8907456,
	"step": 553
	},
	{
	"epoch": 0.038806728134002294,
	"grad_norm": 4.117603302001953,
	"learning_rate": 9.612297022767076e-05,
	"loss": 1.096,
	"num_input_tokens_seen": 8923816,
	"step": 554
	},
	{
	"epoch": 0.03887677637973154,
	"grad_norm": 4.272468566894531,
	"learning_rate": 9.611597197898425e-05,
	"loss": 1.161,
	"num_input_tokens_seen": 8939344,
	"step": 555
	},
	{
	"epoch": 0.038946824625460785,
	"grad_norm": 4.323635578155518,
	"learning_rate": 9.610897373029772e-05,
	"loss": 1.1922,
	"num_input_tokens_seen": 8954920,
	"step": 556
	},
	{
	"epoch": 0.03901687287119003,
	"grad_norm": 3.783510684967041,
	"learning_rate": 9.610197548161121e-05,
	"loss": 1.0658,
	"num_input_tokens_seen": 8971304,
	"step": 557
	},
	{
	"epoch": 0.039086921116919277,
	"grad_norm": 4.3757548332214355,
	"learning_rate": 9.60949772329247e-05,
	"loss": 1.3186,
	"num_input_tokens_seen": 8987672,
	"step": 558
	},
	{
	"epoch": 0.03915696936264852,
	"grad_norm": 4.048824787139893,
	"learning_rate": 9.608797898423818e-05,
	"loss": 1.1452,
	"num_input_tokens_seen": 9003896,
	"step": 559
	},
	{
	"epoch": 0.03922701760837777,
	"grad_norm": 4.06865930557251,
	"learning_rate": 9.608098073555168e-05,
	"loss": 0.9861,
	"num_input_tokens_seen": 9020280,
	"step": 560
	},
	{
	"epoch": 0.03929706585410701,
	"grad_norm": 3.966737747192383,
	"learning_rate": 9.607398248686515e-05,
	"loss": 1.0323,
	"num_input_tokens_seen": 9036280,
	"step": 561
	},
	{
	"epoch": 0.03936711409983626,
	"grad_norm": 4.466656684875488,
	"learning_rate": 9.606698423817864e-05,
	"loss": 1.2462,
	"num_input_tokens_seen": 9052664,
	"step": 562
	},
	{
	"epoch": 0.03943716234556551,
	"grad_norm": 4.312132358551025,
	"learning_rate": 9.605998598949213e-05,
	"loss": 1.2133,
	"num_input_tokens_seen": 9068832,
	"step": 563
	},
	{
	"epoch": 0.03950721059129476,
	"grad_norm": 3.9202895164489746,
	"learning_rate": 9.60529877408056e-05,
	"loss": 1.0723,
	"num_input_tokens_seen": 9084680,
	"step": 564
	},
	{
	"epoch": 0.039577258837024,
	"grad_norm": 5.139899730682373,
	"learning_rate": 9.604598949211909e-05,
	"loss": 1.1165,
	"num_input_tokens_seen": 9099792,
	"step": 565
	},
	{
	"epoch": 0.03964730708275325,
	"grad_norm": 4.398557186126709,
	"learning_rate": 9.603899124343258e-05,
	"loss": 1.1737,
	"num_input_tokens_seen": 9116136,
	"step": 566
	},
	{
	"epoch": 0.039717355328482494,
	"grad_norm": 4.350982666015625,
	"learning_rate": 9.603199299474607e-05,
	"loss": 1.2174,
	"num_input_tokens_seen": 9132520,
	"step": 567
	},
	{
	"epoch": 0.03978740357421174,
	"grad_norm": 3.787644386291504,
	"learning_rate": 9.602499474605956e-05,
	"loss": 0.9914,
	"num_input_tokens_seen": 9148856,
	"step": 568
	},
	{
	"epoch": 0.039857451819940985,
	"grad_norm": 4.630245685577393,
	"learning_rate": 9.601799649737303e-05,
	"loss": 1.4135,
	"num_input_tokens_seen": 9164888,
	"step": 569
	},
	{
	"epoch": 0.03992750006567023,
	"grad_norm": 4.063969135284424,
	"learning_rate": 9.601099824868652e-05,
	"loss": 1.1312,
	"num_input_tokens_seen": 9181272,
	"step": 570
	},
	{
	"epoch": 0.039997548311399476,
	"grad_norm": 4.2443413734436035,
	"learning_rate": 9.6004e-05,
	"loss": 1.1627,
	"num_input_tokens_seen": 9197344,
	"step": 571
	},
	{
	"epoch": 0.04006759655712872,
	"grad_norm": 4.396352767944336,
	"learning_rate": 9.599700175131349e-05,
	"loss": 1.1222,
	"num_input_tokens_seen": 9212312,
	"step": 572
	},
	{
	"epoch": 0.04013764480285797,
	"grad_norm": 4.364585876464844,
	"learning_rate": 9.599000350262697e-05,
	"loss": 1.0522,
	"num_input_tokens_seen": 9228696,
	"step": 573
	},
	{
	"epoch": 0.04020769304858721,
	"grad_norm": 3.9348409175872803,
	"learning_rate": 9.598300525394046e-05,
	"loss": 1.1375,
	"num_input_tokens_seen": 9245080,
	"step": 574
	},
	{
	"epoch": 0.04027774129431646,
	"grad_norm": 4.051416873931885,
	"learning_rate": 9.597600700525395e-05,
	"loss": 1.0265,
	"num_input_tokens_seen": 9260752,
	"step": 575
	},
	{
	"epoch": 0.040347789540045705,
	"grad_norm": 4.661770820617676,
	"learning_rate": 9.596900875656743e-05,
	"loss": 1.192,
	"num_input_tokens_seen": 9276792,
	"step": 576
	},
	{
	"epoch": 0.04041783778577495,
	"grad_norm": 4.378422260284424,
	"learning_rate": 9.596201050788092e-05,
	"loss": 1.0497,
	"num_input_tokens_seen": 9292768,
	"step": 577
	},
	{
	"epoch": 0.040487886031504196,
	"grad_norm": 4.4690399169921875,
	"learning_rate": 9.595501225919439e-05,
	"loss": 1.2398,
	"num_input_tokens_seen": 9309152,
	"step": 578
	},
	{
	"epoch": 0.04055793427723344,
	"grad_norm": 4.1711273193359375,
	"learning_rate": 9.594801401050788e-05,
	"loss": 1.097,
	"num_input_tokens_seen": 9325536,
	"step": 579
	},
	{
	"epoch": 0.040627982522962694,
	"grad_norm": 3.8115949630737305,
	"learning_rate": 9.594101576182137e-05,
	"loss": 1.0317,
	"num_input_tokens_seen": 9341920,
	"step": 580
	},
	{
	"epoch": 0.04069803076869194,
	"grad_norm": 4.072190284729004,
	"learning_rate": 9.593401751313486e-05,
	"loss": 1.0649,
	"num_input_tokens_seen": 9357904,
	"step": 581
	},
	{
	"epoch": 0.040768079014421185,
	"grad_norm": 3.895766258239746,
	"learning_rate": 9.592701926444835e-05,
	"loss": 1.1906,
	"num_input_tokens_seen": 9373496,
	"step": 582
	},
	{
	"epoch": 0.04083812726015043,
	"grad_norm": 4.026490688323975,
	"learning_rate": 9.592002101576182e-05,
	"loss": 0.9913,
	"num_input_tokens_seen": 9389824,
	"step": 583
	},
	{
	"epoch": 0.040908175505879676,
	"grad_norm": 3.612987518310547,
	"learning_rate": 9.591302276707531e-05,
	"loss": 0.9376,
	"num_input_tokens_seen": 9406208,
	"step": 584
	},
	{
	"epoch": 0.04097822375160892,
	"grad_norm": 4.4619646072387695,
	"learning_rate": 9.59060245183888e-05,
	"loss": 1.2198,
	"num_input_tokens_seen": 9422592,
	"step": 585
	},
	{
	"epoch": 0.04104827199733817,
	"grad_norm": 3.990372896194458,
	"learning_rate": 9.589902626970229e-05,
	"loss": 1.082,
	"num_input_tokens_seen": 9438816,
	"step": 586
	},
	{
	"epoch": 0.04111832024306741,
	"grad_norm": 3.7697947025299072,
	"learning_rate": 9.589202802101577e-05,
	"loss": 1.0173,
	"num_input_tokens_seen": 9455200,
	"step": 587
	},
	{
	"epoch": 0.04118836848879666,
	"grad_norm": 4.066056728363037,
	"learning_rate": 9.588502977232925e-05,
	"loss": 1.124,
	"num_input_tokens_seen": 9471320,
	"step": 588
	},
	{
	"epoch": 0.041258416734525905,
	"grad_norm": 3.913506507873535,
	"learning_rate": 9.587803152364274e-05,
	"loss": 1.0501,
	"num_input_tokens_seen": 9487304,
	"step": 589
	},
	{
	"epoch": 0.04132846498025515,
	"grad_norm": 3.9049429893493652,
	"learning_rate": 9.587103327495623e-05,
	"loss": 1.0563,
	"num_input_tokens_seen": 9503688,
	"step": 590
	},
	{
	"epoch": 0.041398513225984396,
	"grad_norm": 4.316978454589844,
	"learning_rate": 9.58640350262697e-05,
	"loss": 1.1333,
	"num_input_tokens_seen": 9519488,
	"step": 591
	},
	{
	"epoch": 0.04146856147171364,
	"grad_norm": 3.7818517684936523,
	"learning_rate": 9.585703677758319e-05,
	"loss": 1.0537,
	"num_input_tokens_seen": 9535872,
	"step": 592
	},
	{
	"epoch": 0.04153860971744289,
	"grad_norm": 3.8751401901245117,
	"learning_rate": 9.585003852889668e-05,
	"loss": 1.1745,
	"num_input_tokens_seen": 9551928,
	"step": 593
	},
	{
	"epoch": 0.04160865796317213,
	"grad_norm": 4.357265949249268,
	"learning_rate": 9.584304028021017e-05,
	"loss": 1.1154,
	"num_input_tokens_seen": 9568312,
	"step": 594
	},
	{
	"epoch": 0.04167870620890138,
	"grad_norm": 4.184159755706787,
	"learning_rate": 9.583604203152366e-05,
	"loss": 1.125,
	"num_input_tokens_seen": 9583968,
	"step": 595
	},
	{
	"epoch": 0.041748754454630624,
	"grad_norm": 3.9540369510650635,
	"learning_rate": 9.582904378283713e-05,
	"loss": 1.2032,
	"num_input_tokens_seen": 9600152,
	"step": 596
	},
	{
	"epoch": 0.04181880270035987,
	"grad_norm": 4.401122093200684,
	"learning_rate": 9.582204553415062e-05,
	"loss": 1.4808,
	"num_input_tokens_seen": 9615632,
	"step": 597
	},
	{
	"epoch": 0.04188885094608912,
	"grad_norm": 4.418131351470947,
	"learning_rate": 9.58150472854641e-05,
	"loss": 1.0077,
	"num_input_tokens_seen": 9631712,
	"step": 598
	},
	{
	"epoch": 0.04195889919181837,
	"grad_norm": 4.362226963043213,
	"learning_rate": 9.580804903677758e-05,
	"loss": 1.1614,
	"num_input_tokens_seen": 9648096,
	"step": 599
	},
	{
	"epoch": 0.04202894743754761,
	"grad_norm": 4.051177024841309,
	"learning_rate": 9.580105078809107e-05,
	"loss": 1.0718,
	"num_input_tokens_seen": 9663792,
	"step": 600
	},
	{
	"epoch": 0.04202894743754761,
	"eval_loss": 1.1809133291244507,
	"eval_runtime": 0.2062,
	"eval_samples_per_second": 4.849,
	"eval_steps_per_second": 4.849,
	"num_input_tokens_seen": 9663792,
	"step": 600
	}
	],
	"logging_steps": 1,
	"max_steps": 14275,
	"num_input_tokens_seen": 9663792,
	"num_train_epochs": 1,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.0751917469364224e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}