{ "best_metric": 0.7439773264052905, "best_model_checkpoint": "vet-sm/checkpoint-1875", "epoch": 5.0, "eval_steps": 500, "global_step": 1875, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02666666666666667, "grad_norm": 1.9315444231033325, "learning_rate": 2.6595744680851065e-06, "loss": 2.1136, "step": 10 }, { "epoch": 0.05333333333333334, "grad_norm": 1.6707261800765991, "learning_rate": 5.319148936170213e-06, "loss": 2.056, "step": 20 }, { "epoch": 0.08, "grad_norm": 1.0190364122390747, "learning_rate": 7.97872340425532e-06, "loss": 1.9955, "step": 30 }, { "epoch": 0.10666666666666667, "grad_norm": 1.3635365962982178, "learning_rate": 1.0638297872340426e-05, "loss": 1.9384, "step": 40 }, { "epoch": 0.13333333333333333, "grad_norm": 1.222219705581665, "learning_rate": 1.3297872340425532e-05, "loss": 1.872, "step": 50 }, { "epoch": 0.16, "grad_norm": 1.2832980155944824, "learning_rate": 1.595744680851064e-05, "loss": 1.8485, "step": 60 }, { "epoch": 0.18666666666666668, "grad_norm": 1.7878962755203247, "learning_rate": 1.8617021276595745e-05, "loss": 1.8358, "step": 70 }, { "epoch": 0.21333333333333335, "grad_norm": 2.0866761207580566, "learning_rate": 2.1276595744680852e-05, "loss": 1.7612, "step": 80 }, { "epoch": 0.24, "grad_norm": 1.400896430015564, "learning_rate": 2.393617021276596e-05, "loss": 1.7156, "step": 90 }, { "epoch": 0.26666666666666666, "grad_norm": 1.4271560907363892, "learning_rate": 2.6595744680851064e-05, "loss": 1.7121, "step": 100 }, { "epoch": 0.29333333333333333, "grad_norm": 2.8024532794952393, "learning_rate": 2.925531914893617e-05, "loss": 1.6976, "step": 110 }, { "epoch": 0.32, "grad_norm": 1.9484292268753052, "learning_rate": 3.191489361702128e-05, "loss": 1.6501, "step": 120 }, { "epoch": 0.3466666666666667, "grad_norm": 1.495611548423767, "learning_rate": 3.4574468085106386e-05, "loss": 1.6301, "step": 130 }, { "epoch": 0.37333333333333335, "grad_norm": 2.535338878631592, "learning_rate": 3.723404255319149e-05, "loss": 1.6606, "step": 140 }, { "epoch": 0.4, "grad_norm": 1.924212098121643, "learning_rate": 3.9893617021276594e-05, "loss": 1.5707, "step": 150 }, { "epoch": 0.4266666666666667, "grad_norm": 2.4187307357788086, "learning_rate": 4.2553191489361704e-05, "loss": 1.6664, "step": 160 }, { "epoch": 0.4533333333333333, "grad_norm": 2.0328240394592285, "learning_rate": 4.5212765957446815e-05, "loss": 1.5614, "step": 170 }, { "epoch": 0.48, "grad_norm": 2.5374019145965576, "learning_rate": 4.787234042553192e-05, "loss": 1.5623, "step": 180 }, { "epoch": 0.5066666666666667, "grad_norm": 2.289470672607422, "learning_rate": 4.9940723177237705e-05, "loss": 1.5252, "step": 190 }, { "epoch": 0.5333333333333333, "grad_norm": 1.9120097160339355, "learning_rate": 4.96443390634262e-05, "loss": 1.4844, "step": 200 }, { "epoch": 0.56, "grad_norm": 2.2888755798339844, "learning_rate": 4.9347954949614705e-05, "loss": 1.528, "step": 210 }, { "epoch": 0.5866666666666667, "grad_norm": 2.597576141357422, "learning_rate": 4.90515708358032e-05, "loss": 1.5263, "step": 220 }, { "epoch": 0.6133333333333333, "grad_norm": 2.7649598121643066, "learning_rate": 4.87551867219917e-05, "loss": 1.4785, "step": 230 }, { "epoch": 0.64, "grad_norm": 3.2747058868408203, "learning_rate": 4.84588026081802e-05, "loss": 1.3995, "step": 240 }, { "epoch": 0.6666666666666666, "grad_norm": 2.078355312347412, "learning_rate": 4.816241849436871e-05, "loss": 1.4194, "step": 250 }, { "epoch": 0.6933333333333334, "grad_norm": 2.904365062713623, "learning_rate": 4.7866034380557204e-05, "loss": 1.3786, "step": 260 }, { "epoch": 0.72, "grad_norm": 3.441061496734619, "learning_rate": 4.75696502667457e-05, "loss": 1.4979, "step": 270 }, { "epoch": 0.7466666666666667, "grad_norm": 2.896751642227173, "learning_rate": 4.7273266152934205e-05, "loss": 1.3549, "step": 280 }, { "epoch": 0.7733333333333333, "grad_norm": 3.080012559890747, "learning_rate": 4.69768820391227e-05, "loss": 1.3837, "step": 290 }, { "epoch": 0.8, "grad_norm": 2.885483503341675, "learning_rate": 4.6680497925311206e-05, "loss": 1.398, "step": 300 }, { "epoch": 0.8266666666666667, "grad_norm": 2.561643123626709, "learning_rate": 4.638411381149971e-05, "loss": 1.3099, "step": 310 }, { "epoch": 0.8533333333333334, "grad_norm": 4.565211296081543, "learning_rate": 4.6087729697688206e-05, "loss": 1.3652, "step": 320 }, { "epoch": 0.88, "grad_norm": 4.407384395599365, "learning_rate": 4.57913455838767e-05, "loss": 1.3003, "step": 330 }, { "epoch": 0.9066666666666666, "grad_norm": 2.9103336334228516, "learning_rate": 4.549496147006521e-05, "loss": 1.259, "step": 340 }, { "epoch": 0.9333333333333333, "grad_norm": 3.2259938716888428, "learning_rate": 4.5198577356253704e-05, "loss": 1.3695, "step": 350 }, { "epoch": 0.96, "grad_norm": 2.9244837760925293, "learning_rate": 4.490219324244221e-05, "loss": 1.2673, "step": 360 }, { "epoch": 0.9866666666666667, "grad_norm": 2.446147918701172, "learning_rate": 4.460580912863071e-05, "loss": 1.3577, "step": 370 }, { "epoch": 1.0, "eval_accuracy": 0.5333018422295701, "eval_loss": 1.3559480905532837, "eval_runtime": 658.5673, "eval_samples_per_second": 3.215, "eval_steps_per_second": 0.202, "step": 375 }, { "epoch": 1.0133333333333334, "grad_norm": 2.7559542655944824, "learning_rate": 4.430942501481921e-05, "loss": 1.2899, "step": 380 }, { "epoch": 1.04, "grad_norm": 3.300903081893921, "learning_rate": 4.4013040901007706e-05, "loss": 1.2237, "step": 390 }, { "epoch": 1.0666666666666667, "grad_norm": 4.616238594055176, "learning_rate": 4.371665678719621e-05, "loss": 1.326, "step": 400 }, { "epoch": 1.0933333333333333, "grad_norm": 2.812582015991211, "learning_rate": 4.3420272673384707e-05, "loss": 1.1731, "step": 410 }, { "epoch": 1.12, "grad_norm": 4.087958335876465, "learning_rate": 4.312388855957321e-05, "loss": 1.209, "step": 420 }, { "epoch": 1.1466666666666667, "grad_norm": 3.7459311485290527, "learning_rate": 4.282750444576171e-05, "loss": 1.0927, "step": 430 }, { "epoch": 1.1733333333333333, "grad_norm": 4.246584415435791, "learning_rate": 4.253112033195021e-05, "loss": 1.1599, "step": 440 }, { "epoch": 1.2, "grad_norm": 2.9018867015838623, "learning_rate": 4.223473621813871e-05, "loss": 1.1399, "step": 450 }, { "epoch": 1.2266666666666666, "grad_norm": 4.505856037139893, "learning_rate": 4.193835210432721e-05, "loss": 1.164, "step": 460 }, { "epoch": 1.2533333333333334, "grad_norm": 3.4769976139068604, "learning_rate": 4.164196799051571e-05, "loss": 1.1538, "step": 470 }, { "epoch": 1.28, "grad_norm": 3.2932310104370117, "learning_rate": 4.1345583876704206e-05, "loss": 1.1267, "step": 480 }, { "epoch": 1.3066666666666666, "grad_norm": 4.021146297454834, "learning_rate": 4.104919976289271e-05, "loss": 1.1564, "step": 490 }, { "epoch": 1.3333333333333333, "grad_norm": 2.723477602005005, "learning_rate": 4.0752815649081214e-05, "loss": 1.1096, "step": 500 }, { "epoch": 1.3599999999999999, "grad_norm": 3.1723339557647705, "learning_rate": 4.045643153526971e-05, "loss": 1.0956, "step": 510 }, { "epoch": 1.3866666666666667, "grad_norm": 3.4743380546569824, "learning_rate": 4.0160047421458214e-05, "loss": 1.088, "step": 520 }, { "epoch": 1.4133333333333333, "grad_norm": 3.694190502166748, "learning_rate": 3.986366330764672e-05, "loss": 1.1697, "step": 530 }, { "epoch": 1.44, "grad_norm": 3.573261022567749, "learning_rate": 3.956727919383521e-05, "loss": 1.1109, "step": 540 }, { "epoch": 1.4666666666666668, "grad_norm": 3.1840035915374756, "learning_rate": 3.927089508002371e-05, "loss": 1.1536, "step": 550 }, { "epoch": 1.4933333333333334, "grad_norm": 3.499424934387207, "learning_rate": 3.8974510966212216e-05, "loss": 1.1243, "step": 560 }, { "epoch": 1.52, "grad_norm": 2.6415553092956543, "learning_rate": 3.867812685240071e-05, "loss": 1.0425, "step": 570 }, { "epoch": 1.5466666666666666, "grad_norm": 4.430813312530518, "learning_rate": 3.838174273858922e-05, "loss": 1.0664, "step": 580 }, { "epoch": 1.5733333333333333, "grad_norm": 3.6159422397613525, "learning_rate": 3.8085358624777714e-05, "loss": 1.0854, "step": 590 }, { "epoch": 1.6, "grad_norm": 5.420335292816162, "learning_rate": 3.778897451096621e-05, "loss": 1.0802, "step": 600 }, { "epoch": 1.6266666666666667, "grad_norm": 4.933335781097412, "learning_rate": 3.7492590397154715e-05, "loss": 0.9932, "step": 610 }, { "epoch": 1.6533333333333333, "grad_norm": 4.003518104553223, "learning_rate": 3.719620628334322e-05, "loss": 1.0381, "step": 620 }, { "epoch": 1.6800000000000002, "grad_norm": 4.459993839263916, "learning_rate": 3.6899822169531715e-05, "loss": 1.0821, "step": 630 }, { "epoch": 1.7066666666666666, "grad_norm": 2.9134573936462402, "learning_rate": 3.660343805572021e-05, "loss": 1.0085, "step": 640 }, { "epoch": 1.7333333333333334, "grad_norm": 3.9337029457092285, "learning_rate": 3.6307053941908716e-05, "loss": 0.939, "step": 650 }, { "epoch": 1.76, "grad_norm": 5.1124267578125, "learning_rate": 3.601066982809721e-05, "loss": 1.1017, "step": 660 }, { "epoch": 1.7866666666666666, "grad_norm": 4.735677719116211, "learning_rate": 3.571428571428572e-05, "loss": 1.0827, "step": 670 }, { "epoch": 1.8133333333333335, "grad_norm": 4.110654830932617, "learning_rate": 3.541790160047422e-05, "loss": 1.0502, "step": 680 }, { "epoch": 1.8399999999999999, "grad_norm": 3.166389226913452, "learning_rate": 3.512151748666271e-05, "loss": 0.9252, "step": 690 }, { "epoch": 1.8666666666666667, "grad_norm": 4.30440092086792, "learning_rate": 3.4825133372851215e-05, "loss": 1.0371, "step": 700 }, { "epoch": 1.8933333333333333, "grad_norm": 4.378075122833252, "learning_rate": 3.452874925903972e-05, "loss": 1.0245, "step": 710 }, { "epoch": 1.92, "grad_norm": 3.7274348735809326, "learning_rate": 3.4232365145228216e-05, "loss": 1.0104, "step": 720 }, { "epoch": 1.9466666666666668, "grad_norm": 3.4825377464294434, "learning_rate": 3.393598103141672e-05, "loss": 1.014, "step": 730 }, { "epoch": 1.9733333333333334, "grad_norm": 2.804169178009033, "learning_rate": 3.363959691760522e-05, "loss": 0.854, "step": 740 }, { "epoch": 2.0, "grad_norm": 3.1618704795837402, "learning_rate": 3.3343212803793713e-05, "loss": 1.1359, "step": 750 }, { "epoch": 2.0, "eval_accuracy": 0.6386395843174303, "eval_loss": 1.0537127256393433, "eval_runtime": 645.784, "eval_samples_per_second": 3.278, "eval_steps_per_second": 0.206, "step": 750 }, { "epoch": 2.026666666666667, "grad_norm": 3.364176034927368, "learning_rate": 3.304682868998222e-05, "loss": 0.8866, "step": 760 }, { "epoch": 2.0533333333333332, "grad_norm": 3.697110891342163, "learning_rate": 3.275044457617072e-05, "loss": 0.6956, "step": 770 }, { "epoch": 2.08, "grad_norm": 4.149298191070557, "learning_rate": 3.245406046235922e-05, "loss": 0.7503, "step": 780 }, { "epoch": 2.1066666666666665, "grad_norm": 3.834618330001831, "learning_rate": 3.215767634854772e-05, "loss": 0.6939, "step": 790 }, { "epoch": 2.1333333333333333, "grad_norm": 4.520611763000488, "learning_rate": 3.186129223473622e-05, "loss": 0.8046, "step": 800 }, { "epoch": 2.16, "grad_norm": 4.262031555175781, "learning_rate": 3.1564908120924716e-05, "loss": 0.7914, "step": 810 }, { "epoch": 2.1866666666666665, "grad_norm": 5.730827808380127, "learning_rate": 3.126852400711322e-05, "loss": 0.7635, "step": 820 }, { "epoch": 2.2133333333333334, "grad_norm": 3.5010979175567627, "learning_rate": 3.097213989330172e-05, "loss": 0.747, "step": 830 }, { "epoch": 2.24, "grad_norm": 5.0282368659973145, "learning_rate": 3.067575577949022e-05, "loss": 0.8545, "step": 840 }, { "epoch": 2.2666666666666666, "grad_norm": 4.770990371704102, "learning_rate": 3.0379371665678717e-05, "loss": 0.7253, "step": 850 }, { "epoch": 2.2933333333333334, "grad_norm": 4.087970733642578, "learning_rate": 3.008298755186722e-05, "loss": 0.786, "step": 860 }, { "epoch": 2.32, "grad_norm": 4.9638142585754395, "learning_rate": 2.978660343805572e-05, "loss": 0.6978, "step": 870 }, { "epoch": 2.3466666666666667, "grad_norm": 5.249394416809082, "learning_rate": 2.9490219324244222e-05, "loss": 0.7294, "step": 880 }, { "epoch": 2.3733333333333335, "grad_norm": 4.896904468536377, "learning_rate": 2.9193835210432722e-05, "loss": 0.7447, "step": 890 }, { "epoch": 2.4, "grad_norm": 5.126880645751953, "learning_rate": 2.889745109662122e-05, "loss": 0.7055, "step": 900 }, { "epoch": 2.4266666666666667, "grad_norm": 6.56977653503418, "learning_rate": 2.860106698280972e-05, "loss": 0.7067, "step": 910 }, { "epoch": 2.453333333333333, "grad_norm": 8.742044448852539, "learning_rate": 2.8304682868998224e-05, "loss": 0.7217, "step": 920 }, { "epoch": 2.48, "grad_norm": 4.163307189941406, "learning_rate": 2.8008298755186724e-05, "loss": 0.7262, "step": 930 }, { "epoch": 2.506666666666667, "grad_norm": 5.428426265716553, "learning_rate": 2.7711914641375224e-05, "loss": 0.7332, "step": 940 }, { "epoch": 2.533333333333333, "grad_norm": 6.743965148925781, "learning_rate": 2.7415530527563725e-05, "loss": 0.7506, "step": 950 }, { "epoch": 2.56, "grad_norm": 4.846606254577637, "learning_rate": 2.7119146413752222e-05, "loss": 0.7085, "step": 960 }, { "epoch": 2.586666666666667, "grad_norm": 3.36299467086792, "learning_rate": 2.6822762299940722e-05, "loss": 0.636, "step": 970 }, { "epoch": 2.6133333333333333, "grad_norm": 5.243374347686768, "learning_rate": 2.6526378186129226e-05, "loss": 0.6454, "step": 980 }, { "epoch": 2.64, "grad_norm": 6.117603302001953, "learning_rate": 2.6229994072317726e-05, "loss": 0.7326, "step": 990 }, { "epoch": 2.6666666666666665, "grad_norm": 5.540494441986084, "learning_rate": 2.5933609958506227e-05, "loss": 0.6886, "step": 1000 }, { "epoch": 2.6933333333333334, "grad_norm": 3.596717119216919, "learning_rate": 2.5637225844694724e-05, "loss": 0.6907, "step": 1010 }, { "epoch": 2.7199999999999998, "grad_norm": 5.692007541656494, "learning_rate": 2.5340841730883224e-05, "loss": 0.7286, "step": 1020 }, { "epoch": 2.7466666666666666, "grad_norm": 4.67859411239624, "learning_rate": 2.5044457617071725e-05, "loss": 0.7036, "step": 1030 }, { "epoch": 2.7733333333333334, "grad_norm": 4.825284957885742, "learning_rate": 2.474807350326023e-05, "loss": 0.6913, "step": 1040 }, { "epoch": 2.8, "grad_norm": 5.926855087280273, "learning_rate": 2.4451689389448725e-05, "loss": 0.6194, "step": 1050 }, { "epoch": 2.8266666666666667, "grad_norm": 6.118773460388184, "learning_rate": 2.4155305275637226e-05, "loss": 0.6981, "step": 1060 }, { "epoch": 2.8533333333333335, "grad_norm": 4.66908073425293, "learning_rate": 2.385892116182573e-05, "loss": 0.6671, "step": 1070 }, { "epoch": 2.88, "grad_norm": 3.9723563194274902, "learning_rate": 2.3562537048014227e-05, "loss": 0.695, "step": 1080 }, { "epoch": 2.9066666666666667, "grad_norm": 7.375702381134033, "learning_rate": 2.3266152934202727e-05, "loss": 0.6108, "step": 1090 }, { "epoch": 2.9333333333333336, "grad_norm": 3.1888186931610107, "learning_rate": 2.2969768820391227e-05, "loss": 0.7177, "step": 1100 }, { "epoch": 2.96, "grad_norm": 4.762456893920898, "learning_rate": 2.2673384706579728e-05, "loss": 0.6031, "step": 1110 }, { "epoch": 2.986666666666667, "grad_norm": 4.6542510986328125, "learning_rate": 2.2377000592768228e-05, "loss": 0.727, "step": 1120 }, { "epoch": 3.0, "eval_accuracy": 0.7156353330184223, "eval_loss": 0.8715102672576904, "eval_runtime": 658.3091, "eval_samples_per_second": 3.216, "eval_steps_per_second": 0.202, "step": 1125 }, { "epoch": 3.013333333333333, "grad_norm": 4.630974769592285, "learning_rate": 2.208061647895673e-05, "loss": 0.5323, "step": 1130 }, { "epoch": 3.04, "grad_norm": 3.6432385444641113, "learning_rate": 2.178423236514523e-05, "loss": 0.4556, "step": 1140 }, { "epoch": 3.066666666666667, "grad_norm": 3.2002816200256348, "learning_rate": 2.148784825133373e-05, "loss": 0.5147, "step": 1150 }, { "epoch": 3.0933333333333333, "grad_norm": 5.895540237426758, "learning_rate": 2.119146413752223e-05, "loss": 0.5013, "step": 1160 }, { "epoch": 3.12, "grad_norm": 4.698485851287842, "learning_rate": 2.089508002371073e-05, "loss": 0.4462, "step": 1170 }, { "epoch": 3.1466666666666665, "grad_norm": 3.8657937049865723, "learning_rate": 2.059869590989923e-05, "loss": 0.4403, "step": 1180 }, { "epoch": 3.1733333333333333, "grad_norm": 5.302576065063477, "learning_rate": 2.030231179608773e-05, "loss": 0.4627, "step": 1190 }, { "epoch": 3.2, "grad_norm": 4.651650428771973, "learning_rate": 2.000592768227623e-05, "loss": 0.4716, "step": 1200 }, { "epoch": 3.2266666666666666, "grad_norm": 3.388514995574951, "learning_rate": 1.9709543568464732e-05, "loss": 0.3875, "step": 1210 }, { "epoch": 3.2533333333333334, "grad_norm": 6.690011024475098, "learning_rate": 1.9413159454653232e-05, "loss": 0.4326, "step": 1220 }, { "epoch": 3.2800000000000002, "grad_norm": 7.430169582366943, "learning_rate": 1.911677534084173e-05, "loss": 0.3752, "step": 1230 }, { "epoch": 3.3066666666666666, "grad_norm": 5.084875106811523, "learning_rate": 1.8820391227030233e-05, "loss": 0.4956, "step": 1240 }, { "epoch": 3.3333333333333335, "grad_norm": 6.421942234039307, "learning_rate": 1.8524007113218733e-05, "loss": 0.4189, "step": 1250 }, { "epoch": 3.36, "grad_norm": 4.9948811531066895, "learning_rate": 1.822762299940723e-05, "loss": 0.4981, "step": 1260 }, { "epoch": 3.3866666666666667, "grad_norm": 4.586024761199951, "learning_rate": 1.7931238885595734e-05, "loss": 0.412, "step": 1270 }, { "epoch": 3.413333333333333, "grad_norm": 2.318552255630493, "learning_rate": 1.7634854771784235e-05, "loss": 0.3936, "step": 1280 }, { "epoch": 3.44, "grad_norm": 7.730984687805176, "learning_rate": 1.733847065797273e-05, "loss": 0.4171, "step": 1290 }, { "epoch": 3.466666666666667, "grad_norm": 6.678343772888184, "learning_rate": 1.7042086544161235e-05, "loss": 0.4862, "step": 1300 }, { "epoch": 3.493333333333333, "grad_norm": 6.053210735321045, "learning_rate": 1.6745702430349732e-05, "loss": 0.43, "step": 1310 }, { "epoch": 3.52, "grad_norm": 3.8982760906219482, "learning_rate": 1.6449318316538233e-05, "loss": 0.3464, "step": 1320 }, { "epoch": 3.546666666666667, "grad_norm": 6.558385372161865, "learning_rate": 1.6152934202726737e-05, "loss": 0.4272, "step": 1330 }, { "epoch": 3.5733333333333333, "grad_norm": 5.050813674926758, "learning_rate": 1.5856550088915234e-05, "loss": 0.435, "step": 1340 }, { "epoch": 3.6, "grad_norm": 3.369784355163574, "learning_rate": 1.5560165975103734e-05, "loss": 0.4753, "step": 1350 }, { "epoch": 3.626666666666667, "grad_norm": 5.104302883148193, "learning_rate": 1.5263781861292238e-05, "loss": 0.4042, "step": 1360 }, { "epoch": 3.6533333333333333, "grad_norm": 5.310516357421875, "learning_rate": 1.4967397747480735e-05, "loss": 0.398, "step": 1370 }, { "epoch": 3.68, "grad_norm": 6.837458610534668, "learning_rate": 1.4671013633669237e-05, "loss": 0.4577, "step": 1380 }, { "epoch": 3.7066666666666666, "grad_norm": 5.737543106079102, "learning_rate": 1.4374629519857736e-05, "loss": 0.3426, "step": 1390 }, { "epoch": 3.7333333333333334, "grad_norm": 5.8989458084106445, "learning_rate": 1.4078245406046236e-05, "loss": 0.3941, "step": 1400 }, { "epoch": 3.76, "grad_norm": 4.612483024597168, "learning_rate": 1.3781861292234738e-05, "loss": 0.4077, "step": 1410 }, { "epoch": 3.7866666666666666, "grad_norm": 2.46437668800354, "learning_rate": 1.3485477178423237e-05, "loss": 0.319, "step": 1420 }, { "epoch": 3.8133333333333335, "grad_norm": 7.065310955047607, "learning_rate": 1.3189093064611737e-05, "loss": 0.407, "step": 1430 }, { "epoch": 3.84, "grad_norm": 6.847476005554199, "learning_rate": 1.289270895080024e-05, "loss": 0.4134, "step": 1440 }, { "epoch": 3.8666666666666667, "grad_norm": 3.9757885932922363, "learning_rate": 1.2596324836988738e-05, "loss": 0.413, "step": 1450 }, { "epoch": 3.8933333333333335, "grad_norm": 5.434631824493408, "learning_rate": 1.2299940723177238e-05, "loss": 0.3977, "step": 1460 }, { "epoch": 3.92, "grad_norm": 10.737299919128418, "learning_rate": 1.2003556609365739e-05, "loss": 0.4017, "step": 1470 }, { "epoch": 3.9466666666666668, "grad_norm": 5.762913703918457, "learning_rate": 1.170717249555424e-05, "loss": 0.3982, "step": 1480 }, { "epoch": 3.9733333333333336, "grad_norm": 5.302835464477539, "learning_rate": 1.141078838174274e-05, "loss": 0.3694, "step": 1490 }, { "epoch": 4.0, "grad_norm": 3.610884666442871, "learning_rate": 1.1114404267931238e-05, "loss": 0.3493, "step": 1500 }, { "epoch": 4.0, "eval_accuracy": 0.73547472838923, "eval_loss": 0.8288470506668091, "eval_runtime": 694.4201, "eval_samples_per_second": 3.049, "eval_steps_per_second": 0.192, "step": 1500 }, { "epoch": 4.026666666666666, "grad_norm": 2.7971911430358887, "learning_rate": 1.081802015411974e-05, "loss": 0.312, "step": 1510 }, { "epoch": 4.053333333333334, "grad_norm": 2.6080005168914795, "learning_rate": 1.0521636040308241e-05, "loss": 0.2275, "step": 1520 }, { "epoch": 4.08, "grad_norm": 5.807064056396484, "learning_rate": 1.022525192649674e-05, "loss": 0.2331, "step": 1530 }, { "epoch": 4.1066666666666665, "grad_norm": 4.693509578704834, "learning_rate": 9.92886781268524e-06, "loss": 0.2787, "step": 1540 }, { "epoch": 4.133333333333334, "grad_norm": 3.6709823608398438, "learning_rate": 9.632483698873742e-06, "loss": 0.2347, "step": 1550 }, { "epoch": 4.16, "grad_norm": 2.709949016571045, "learning_rate": 9.33609958506224e-06, "loss": 0.2593, "step": 1560 }, { "epoch": 4.1866666666666665, "grad_norm": 3.3120012283325195, "learning_rate": 9.039715471250741e-06, "loss": 0.2489, "step": 1570 }, { "epoch": 4.213333333333333, "grad_norm": 5.48396635055542, "learning_rate": 8.743331357439242e-06, "loss": 0.2865, "step": 1580 }, { "epoch": 4.24, "grad_norm": 3.457862138748169, "learning_rate": 8.446947243627742e-06, "loss": 0.2159, "step": 1590 }, { "epoch": 4.266666666666667, "grad_norm": 4.819676399230957, "learning_rate": 8.150563129816242e-06, "loss": 0.2501, "step": 1600 }, { "epoch": 4.293333333333333, "grad_norm": 2.528756618499756, "learning_rate": 7.854179016004743e-06, "loss": 0.2711, "step": 1610 }, { "epoch": 4.32, "grad_norm": 2.2832400798797607, "learning_rate": 7.557794902193242e-06, "loss": 0.2775, "step": 1620 }, { "epoch": 4.346666666666667, "grad_norm": 4.858611583709717, "learning_rate": 7.2614107883817436e-06, "loss": 0.2519, "step": 1630 }, { "epoch": 4.373333333333333, "grad_norm": 1.1206910610198975, "learning_rate": 6.965026674570244e-06, "loss": 0.1896, "step": 1640 }, { "epoch": 4.4, "grad_norm": 2.3663809299468994, "learning_rate": 6.6686425607587435e-06, "loss": 0.1966, "step": 1650 }, { "epoch": 4.426666666666667, "grad_norm": 1.7490066289901733, "learning_rate": 6.372258446947243e-06, "loss": 0.3054, "step": 1660 }, { "epoch": 4.453333333333333, "grad_norm": 2.205068588256836, "learning_rate": 6.075874333135744e-06, "loss": 0.1998, "step": 1670 }, { "epoch": 4.48, "grad_norm": 1.9883137941360474, "learning_rate": 5.779490219324245e-06, "loss": 0.2483, "step": 1680 }, { "epoch": 4.506666666666667, "grad_norm": 7.072869300842285, "learning_rate": 5.483106105512745e-06, "loss": 0.2567, "step": 1690 }, { "epoch": 4.533333333333333, "grad_norm": 0.8478787541389465, "learning_rate": 5.1867219917012455e-06, "loss": 0.2652, "step": 1700 }, { "epoch": 4.5600000000000005, "grad_norm": 4.734611511230469, "learning_rate": 4.890337877889745e-06, "loss": 0.2346, "step": 1710 }, { "epoch": 4.586666666666667, "grad_norm": 2.003570318222046, "learning_rate": 4.593953764078246e-06, "loss": 0.2076, "step": 1720 }, { "epoch": 4.613333333333333, "grad_norm": 4.165041446685791, "learning_rate": 4.297569650266746e-06, "loss": 0.2379, "step": 1730 }, { "epoch": 4.64, "grad_norm": 3.085081100463867, "learning_rate": 4.0011855364552454e-06, "loss": 0.2358, "step": 1740 }, { "epoch": 4.666666666666667, "grad_norm": 1.5838762521743774, "learning_rate": 3.7048014226437467e-06, "loss": 0.2322, "step": 1750 }, { "epoch": 4.693333333333333, "grad_norm": 6.194640636444092, "learning_rate": 3.4084173088322462e-06, "loss": 0.1994, "step": 1760 }, { "epoch": 4.72, "grad_norm": 4.458288669586182, "learning_rate": 3.112033195020747e-06, "loss": 0.2062, "step": 1770 }, { "epoch": 4.746666666666667, "grad_norm": 5.372488975524902, "learning_rate": 2.8156490812092475e-06, "loss": 0.2423, "step": 1780 }, { "epoch": 4.773333333333333, "grad_norm": 3.8409035205841064, "learning_rate": 2.519264967397748e-06, "loss": 0.2006, "step": 1790 }, { "epoch": 4.8, "grad_norm": 3.5596394538879395, "learning_rate": 2.222880853586248e-06, "loss": 0.1869, "step": 1800 }, { "epoch": 4.826666666666666, "grad_norm": 6.104115962982178, "learning_rate": 1.9264967397747482e-06, "loss": 0.23, "step": 1810 }, { "epoch": 4.8533333333333335, "grad_norm": 3.120809316635132, "learning_rate": 1.6301126259632486e-06, "loss": 0.2795, "step": 1820 }, { "epoch": 4.88, "grad_norm": 3.7396230697631836, "learning_rate": 1.3337285121517486e-06, "loss": 0.238, "step": 1830 }, { "epoch": 4.906666666666666, "grad_norm": 6.148859977722168, "learning_rate": 1.037344398340249e-06, "loss": 0.1957, "step": 1840 }, { "epoch": 4.933333333333334, "grad_norm": 5.762697219848633, "learning_rate": 7.409602845287493e-07, "loss": 0.2288, "step": 1850 }, { "epoch": 4.96, "grad_norm": 1.1910979747772217, "learning_rate": 4.4457617071724956e-07, "loss": 0.2043, "step": 1860 }, { "epoch": 4.986666666666666, "grad_norm": 0.5321117043495178, "learning_rate": 1.4819205690574985e-07, "loss": 0.1978, "step": 1870 }, { "epoch": 5.0, "eval_accuracy": 0.7439773264052905, "eval_loss": 0.8296018242835999, "eval_runtime": 700.4168, "eval_samples_per_second": 3.022, "eval_steps_per_second": 0.19, "step": 1875 }, { "epoch": 5.0, "step": 1875, "total_flos": 4.647057044415529e+18, "train_loss": 0.8089542488098145, "train_runtime": 60086.8904, "train_samples_per_second": 0.998, "train_steps_per_second": 0.031 } ], "logging_steps": 10, "max_steps": 1875, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 4.647057044415529e+18, "train_batch_size": 8, "trial_name": null, "trial_params": null }