{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9991026024528866,
  "eval_steps": 500,
  "global_step": 334,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 1.8181818181818182e-05,
      "loss": 0.8618,
      "step": 1
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.6363636363636364e-05,
      "loss": 0.8497,
      "step": 2
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.4545454545454546e-05,
      "loss": 0.8351,
      "step": 3
    },
    {
      "epoch": 0.01,
      "learning_rate": 7.272727272727273e-05,
      "loss": 0.7259,
      "step": 4
    },
    {
      "epoch": 0.01,
      "learning_rate": 9.090909090909092e-05,
      "loss": 0.6317,
      "step": 5
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00010909090909090909,
      "loss": 0.5647,
      "step": 6
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00012727272727272728,
      "loss": 0.5115,
      "step": 7
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00014545454545454546,
      "loss": 0.4264,
      "step": 8
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00016363636363636366,
      "loss": 0.3676,
      "step": 9
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00018181818181818183,
      "loss": 0.3121,
      "step": 10
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002,
      "loss": 0.2684,
      "step": 11
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00019999526999846864,
      "loss": 0.2633,
      "step": 12
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00019998108044133283,
      "loss": 0.2386,
      "step": 13
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00019995743267092514,
      "loss": 0.2271,
      "step": 14
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00019992432892432534,
      "loss": 0.2164,
      "step": 15
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00019988177233314888,
      "loss": 0.2066,
      "step": 16
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0001998297669232506,
      "loss": 0.2046,
      "step": 17
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00019976831761434389,
      "loss": 0.2005,
      "step": 18
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0001996974302195352,
      "loss": 0.2006,
      "step": 19
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00019961711144477428,
      "loss": 0.1939,
      "step": 20
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0001995273688882197,
      "loss": 0.1974,
      "step": 21
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00019942821103952004,
      "loss": 0.1836,
      "step": 22
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0001993196472790108,
      "loss": 0.195,
      "step": 23
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0001992016878768271,
      "loss": 0.1895,
      "step": 24
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00019907434399193196,
      "loss": 0.1881,
      "step": 25
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0001989376276710608,
      "loss": 0.1912,
      "step": 26
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00019879155184758177,
      "loss": 0.1826,
      "step": 27
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00019863613034027224,
      "loss": 0.1839,
      "step": 28
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00019847137785201157,
      "loss": 0.1805,
      "step": 29
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0001982973099683902,
      "loss": 0.1783,
      "step": 30
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00019811394315623522,
      "loss": 0.1812,
      "step": 31
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0001979212947620527,
      "loss": 0.1829,
      "step": 32
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00019771938301038663,
      "loss": 0.1801,
      "step": 33
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00019750822700209488,
      "loss": 0.174,
      "step": 34
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00019728784671254235,
      "loss": 0.1716,
      "step": 35
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00019705826298971113,
      "loss": 0.1759,
      "step": 36
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00019681949755222844,
      "loss": 0.1693,
      "step": 37
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00019657157298731202,
      "loss": 0.1781,
      "step": 38
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00019631451274863324,
      "loss": 0.1752,
      "step": 39
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00019604834115409861,
      "loss": 0.1751,
      "step": 40
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00019577308338354906,
      "loss": 0.1705,
      "step": 41
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019548876547637823,
      "loss": 0.1754,
      "step": 42
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019519541432906873,
      "loss": 0.1717,
      "step": 43
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019489305769264812,
      "loss": 0.1686,
      "step": 44
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00019458172417006347,
      "loss": 0.1648,
      "step": 45
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00019426144321347554,
      "loss": 0.1785,
      "step": 46
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00019393224512147267,
      "loss": 0.1721,
      "step": 47
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00019359416103620442,
      "loss": 0.1743,
      "step": 48
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00019324722294043558,
      "loss": 0.1683,
      "step": 49
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0001928914636545207,
      "loss": 0.1642,
      "step": 50
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00019252691683329905,
      "loss": 0.1773,
      "step": 51
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00019215361696291115,
      "loss": 0.1733,
      "step": 52
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00019177159935753613,
      "loss": 0.1702,
      "step": 53
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00019138090015605118,
      "loss": 0.1712,
      "step": 54
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0001909815563186127,
      "loss": 0.1714,
      "step": 55
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00019057360562315997,
      "loss": 0.1673,
      "step": 56
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00019015708666184127,
      "loss": 0.1767,
      "step": 57
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00018973203883736309,
      "loss": 0.17,
      "step": 58
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00018929850235926266,
      "loss": 0.1696,
      "step": 59
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00018885651824010404,
      "loss": 0.177,
      "step": 60
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0001884061282915985,
      "loss": 0.169,
      "step": 61
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0001879473751206489,
      "loss": 0.1626,
      "step": 62
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00018748030212531935,
      "loss": 0.1683,
      "step": 63
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0001870049534907294,
      "loss": 0.1665,
      "step": 64
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00018652137418487453,
      "loss": 0.1637,
      "step": 65
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00018602960995437186,
      "loss": 0.1666,
      "step": 66
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00018552970732013267,
      "loss": 0.1741,
      "step": 67
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00018502171357296144,
      "loss": 0.1668,
      "step": 68
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00018450567676908222,
      "loss": 0.1651,
      "step": 69
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00018398164572559243,
      "loss": 0.1645,
      "step": 70
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0001834496700158449,
      "loss": 0.1614,
      "step": 71
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00018290979996475804,
      "loss": 0.1619,
      "step": 72
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0001823620866440552,
      "loss": 0.1617,
      "step": 73
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00018180658186743332,
      "loss": 0.163,
      "step": 74
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00018124333818566124,
      "loss": 0.1587,
      "step": 75
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00018067240888160855,
      "loss": 0.1658,
      "step": 76
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00018009384796520487,
      "loss": 0.1554,
      "step": 77
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00017950771016833064,
      "loss": 0.1639,
      "step": 78
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00017891405093963938,
      "loss": 0.1647,
      "step": 79
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00017831292643931228,
      "loss": 0.1618,
      "step": 80
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00017770439353374554,
      "loss": 0.1593,
      "step": 81
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00017708850979017063,
      "loss": 0.1589,
      "step": 82
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00017646533347120852,
      "loss": 0.1685,
      "step": 83
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00017583492352935814,
      "loss": 0.168,
      "step": 84
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00017519733960141926,
      "loss": 0.1572,
      "step": 85
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00017455264200285102,
      "loss": 0.1585,
      "step": 86
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00017390089172206592,
      "loss": 0.162,
      "step": 87
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00017324215041466054,
      "loss": 0.1594,
      "step": 88
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00017257648039758274,
      "loss": 0.1635,
      "step": 89
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0001719039446432365,
      "loss": 0.1654,
      "step": 90
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00017122460677352478,
      "loss": 0.1615,
      "step": 91
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00017053853105383087,
      "loss": 0.1564,
      "step": 92
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00016984578238693886,
      "loss": 0.1607,
      "step": 93
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00016914642630689388,
      "loss": 0.1628,
      "step": 94
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00016844052897280247,
      "loss": 0.16,
      "step": 95
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00016772815716257412,
      "loss": 0.1605,
      "step": 96
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00016700937826660383,
      "loss": 0.1575,
      "step": 97
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0001662842602813972,
      "loss": 0.163,
      "step": 98
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0001655528718031379,
      "loss": 0.1586,
      "step": 99
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00016481528202119824,
      "loss": 0.1586,
      "step": 100
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0001640715607115943,
      "loss": 0.1612,
      "step": 101
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0001633217782303847,
      "loss": 0.1555,
      "step": 102
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00016256600550701512,
      "loss": 0.1582,
      "step": 103
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00016180431403760837,
      "loss": 0.1597,
      "step": 104
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00016103677587820075,
      "loss": 0.1635,
      "step": 105
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00016026346363792567,
      "loss": 0.1615,
      "step": 106
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00015948445047214471,
      "loss": 0.1621,
      "step": 107
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00015869981007552727,
      "loss": 0.1588,
      "step": 108
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0001579096166750788,
      "loss": 0.1622,
      "step": 109
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00015711394502311934,
      "loss": 0.1573,
      "step": 110
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0001563128703902114,
      "loss": 0.1566,
      "step": 111
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00015550646855803986,
      "loss": 0.1588,
      "step": 112
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00015469481581224272,
      "loss": 0.1535,
      "step": 113
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00015387798893519455,
      "loss": 0.1564,
      "step": 114
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.000153056065198743,
      "loss": 0.1508,
      "step": 115
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00015222912235689868,
      "loss": 0.1503,
      "step": 116
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00015139723863847977,
      "loss": 0.1539,
      "step": 117
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0001505604927397115,
      "loss": 0.1569,
      "step": 118
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00014971896381678153,
      "loss": 0.1587,
      "step": 119
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0001488727314783517,
      "loss": 0.1537,
      "step": 120
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0001480218757780272,
      "loss": 0.1603,
      "step": 121
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0001471664772067833,
      "loss": 0.1524,
      "step": 122
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00014630661668535105,
      "loss": 0.1517,
      "step": 123
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00014544237555656216,
      "loss": 0.1592,
      "step": 124
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00014457383557765386,
      "loss": 0.1588,
      "step": 125
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00014370107891253467,
      "loss": 0.1569,
      "step": 126
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00014282418812401197,
      "loss": 0.1601,
      "step": 127
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00014194324616598108,
      "loss": 0.1593,
      "step": 128
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00014105833637557836,
      "loss": 0.1532,
      "step": 129
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00014016954246529696,
      "loss": 0.1541,
      "step": 130
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00013927694851506806,
      "loss": 0.1521,
      "step": 131
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0001383806389643067,
      "loss": 0.1581,
      "step": 132
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0001374806986039238,
      "loss": 0.1534,
      "step": 133
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00013657721256830506,
      "loss": 0.1533,
      "step": 134
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0001356702663272571,
      "loss": 0.1515,
      "step": 135
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00013475994567792207,
      "loss": 0.1532,
      "step": 136
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001338463367366613,
      "loss": 0.1512,
      "step": 137
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001329295259309087,
      "loss": 0.1522,
      "step": 138
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001320095999909944,
      "loss": 0.1535,
      "step": 139
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00013108664594194063,
      "loss": 0.158,
      "step": 140
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00013016075109522864,
      "loss": 0.1555,
      "step": 141
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001292320030405393,
      "loss": 0.1528,
      "step": 142
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00012830048963746705,
      "loss": 0.1512,
      "step": 143
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0001273662990072083,
      "loss": 0.1585,
      "step": 144
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00012642951952422532,
      "loss": 0.1507,
      "step": 145
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001254902398078859,
      "loss": 0.1499,
      "step": 146
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00012454854871407994,
      "loss": 0.1511,
      "step": 147
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00012360453532681375,
      "loss": 0.1554,
      "step": 148
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00012265828894978274,
      "loss": 0.1511,
      "step": 149
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00012170989909792312,
      "loss": 0.1571,
      "step": 150
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00012075945548894387,
      "loss": 0.1567,
      "step": 151
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00011980704803483961,
      "loss": 0.1512,
      "step": 152
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001188527668333846,
      "loss": 0.1544,
      "step": 153
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00011789670215960975,
      "loss": 0.154,
      "step": 154
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00011693894445726246,
      "loss": 0.1516,
      "step": 155
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00011597958433025071,
      "loss": 0.151,
      "step": 156
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00011501871253407195,
      "loss": 0.1529,
      "step": 157
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00011405641996722746,
      "loss": 0.1524,
      "step": 158
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00011309279766262356,
      "loss": 0.1571,
      "step": 159
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00011212793677895976,
      "loss": 0.1506,
      "step": 160
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00011116192859210526,
      "loss": 0.1544,
      "step": 161
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00011019486448646406,
      "loss": 0.1542,
      "step": 162
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00010922683594633021,
      "loss": 0.155,
      "step": 163
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00010825793454723325,
      "loss": 0.1499,
      "step": 164
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00010728825194727518,
      "loss": 0.1545,
      "step": 165
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00010631787987845972,
      "loss": 0.1516,
      "step": 166
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001053469101380142,
      "loss": 0.1515,
      "step": 167
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00010437543457970591,
      "loss": 0.1437,
      "step": 168
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00010340354510515235,
      "loss": 0.1536,
      "step": 169
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001024313336551276,
      "loss": 0.1539,
      "step": 170
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00010145889220086464,
      "loss": 0.1573,
      "step": 171
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00010048631273535476,
      "loss": 0.1497,
      "step": 172
    },
    {
      "epoch": 0.52,
      "learning_rate": 9.951368726464525e-05,
      "loss": 0.153,
      "step": 173
    },
    {
      "epoch": 0.52,
      "learning_rate": 9.854110779913537e-05,
      "loss": 0.1542,
      "step": 174
    },
    {
      "epoch": 0.52,
      "learning_rate": 9.756866634487241e-05,
      "loss": 0.1504,
      "step": 175
    },
    {
      "epoch": 0.53,
      "learning_rate": 9.659645489484766e-05,
      "loss": 0.1495,
      "step": 176
    },
    {
      "epoch": 0.53,
      "learning_rate": 9.562456542029409e-05,
      "loss": 0.1432,
      "step": 177
    },
    {
      "epoch": 0.53,
      "learning_rate": 9.465308986198582e-05,
      "loss": 0.1535,
      "step": 178
    },
    {
      "epoch": 0.54,
      "learning_rate": 9.368212012154031e-05,
      "loss": 0.1512,
      "step": 179
    },
    {
      "epoch": 0.54,
      "learning_rate": 9.271174805272483e-05,
      "loss": 0.1504,
      "step": 180
    },
    {
      "epoch": 0.54,
      "learning_rate": 9.174206545276677e-05,
      "loss": 0.1493,
      "step": 181
    },
    {
      "epoch": 0.54,
      "learning_rate": 9.077316405366981e-05,
      "loss": 0.1582,
      "step": 182
    },
    {
      "epoch": 0.55,
      "learning_rate": 8.980513551353594e-05,
      "loss": 0.1535,
      "step": 183
    },
    {
      "epoch": 0.55,
      "learning_rate": 8.883807140789478e-05,
      "loss": 0.1524,
      "step": 184
    },
    {
      "epoch": 0.55,
      "learning_rate": 8.787206322104025e-05,
      "loss": 0.1533,
      "step": 185
    },
    {
      "epoch": 0.56,
      "learning_rate": 8.690720233737645e-05,
      "loss": 0.149,
      "step": 186
    },
    {
      "epoch": 0.56,
      "learning_rate": 8.594358003277257e-05,
      "loss": 0.1539,
      "step": 187
    },
    {
      "epoch": 0.56,
      "learning_rate": 8.498128746592806e-05,
      "loss": 0.1546,
      "step": 188
    },
    {
      "epoch": 0.57,
      "learning_rate": 8.402041566974928e-05,
      "loss": 0.1494,
      "step": 189
    },
    {
      "epoch": 0.57,
      "learning_rate": 8.306105554273757e-05,
      "loss": 0.1543,
      "step": 190
    },
    {
      "epoch": 0.57,
      "learning_rate": 8.210329784039029e-05,
      "loss": 0.1453,
      "step": 191
    },
    {
      "epoch": 0.57,
      "learning_rate": 8.114723316661541e-05,
      "loss": 0.151,
      "step": 192
    },
    {
      "epoch": 0.58,
      "learning_rate": 8.019295196516044e-05,
      "loss": 0.1476,
      "step": 193
    },
    {
      "epoch": 0.58,
      "learning_rate": 7.924054451105614e-05,
      "loss": 0.1518,
      "step": 194
    },
    {
      "epoch": 0.58,
      "learning_rate": 7.82901009020769e-05,
      "loss": 0.1511,
      "step": 195
    },
    {
      "epoch": 0.59,
      "learning_rate": 7.734171105021729e-05,
      "loss": 0.1455,
      "step": 196
    },
    {
      "epoch": 0.59,
      "learning_rate": 7.639546467318628e-05,
      "loss": 0.1526,
      "step": 197
    },
    {
      "epoch": 0.59,
      "learning_rate": 7.54514512859201e-05,
      "loss": 0.1486,
      "step": 198
    },
    {
      "epoch": 0.6,
      "learning_rate": 7.450976019211415e-05,
      "loss": 0.1517,
      "step": 199
    },
    {
      "epoch": 0.6,
      "learning_rate": 7.35704804757747e-05,
      "loss": 0.1466,
      "step": 200
    },
    {
      "epoch": 0.6,
      "learning_rate": 7.263370099279172e-05,
      "loss": 0.1493,
      "step": 201
    },
    {
      "epoch": 0.6,
      "learning_rate": 7.169951036253295e-05,
      "loss": 0.1499,
      "step": 202
    },
    {
      "epoch": 0.61,
      "learning_rate": 7.076799695946071e-05,
      "loss": 0.1487,
      "step": 203
    },
    {
      "epoch": 0.61,
      "learning_rate": 6.983924890477138e-05,
      "loss": 0.1507,
      "step": 204
    },
    {
      "epoch": 0.61,
      "learning_rate": 6.891335405805938e-05,
      "loss": 0.1543,
      "step": 205
    },
    {
      "epoch": 0.62,
      "learning_rate": 6.799040000900563e-05,
      "loss": 0.1519,
      "step": 206
    },
    {
      "epoch": 0.62,
      "learning_rate": 6.707047406909135e-05,
      "loss": 0.1457,
      "step": 207
    },
    {
      "epoch": 0.62,
      "learning_rate": 6.615366326333868e-05,
      "loss": 0.1478,
      "step": 208
    },
    {
      "epoch": 0.63,
      "learning_rate": 6.524005432207794e-05,
      "loss": 0.1504,
      "step": 209
    },
    {
      "epoch": 0.63,
      "learning_rate": 6.432973367274292e-05,
      "loss": 0.1504,
      "step": 210
    },
    {
      "epoch": 0.63,
      "learning_rate": 6.342278743169495e-05,
      "loss": 0.1512,
      "step": 211
    },
    {
      "epoch": 0.63,
      "learning_rate": 6.251930139607622e-05,
      "loss": 0.1437,
      "step": 212
    },
    {
      "epoch": 0.64,
      "learning_rate": 6.161936103569332e-05,
      "loss": 0.1577,
      "step": 213
    },
    {
      "epoch": 0.64,
      "learning_rate": 6.072305148493195e-05,
      "loss": 0.1504,
      "step": 214
    },
    {
      "epoch": 0.64,
      "learning_rate": 5.983045753470308e-05,
      "loss": 0.1515,
      "step": 215
    },
    {
      "epoch": 0.65,
      "learning_rate": 5.8941663624421675e-05,
      "loss": 0.1516,
      "step": 216
    },
    {
      "epoch": 0.65,
      "learning_rate": 5.80567538340189e-05,
      "loss": 0.1532,
      "step": 217
    },
    {
      "epoch": 0.65,
      "learning_rate": 5.71758118759881e-05,
      "loss": 0.1495,
      "step": 218
    },
    {
      "epoch": 0.66,
      "learning_rate": 5.629892108746533e-05,
      "loss": 0.1445,
      "step": 219
    },
    {
      "epoch": 0.66,
      "learning_rate": 5.542616442234618e-05,
      "loss": 0.1485,
      "step": 220
    },
    {
      "epoch": 0.66,
      "learning_rate": 5.455762444343785e-05,
      "loss": 0.1515,
      "step": 221
    },
    {
      "epoch": 0.66,
      "learning_rate": 5.3693383314648945e-05,
      "loss": 0.156,
      "step": 222
    },
    {
      "epoch": 0.67,
      "learning_rate": 5.2833522793216724e-05,
      "loss": 0.1474,
      "step": 223
    },
    {
      "epoch": 0.67,
      "learning_rate": 5.197812422197286e-05,
      "loss": 0.1515,
      "step": 224
    },
    {
      "epoch": 0.67,
      "learning_rate": 5.112726852164835e-05,
      "loss": 0.1529,
      "step": 225
    },
    {
      "epoch": 0.68,
      "learning_rate": 5.028103618321851e-05,
      "loss": 0.1442,
      "step": 226
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.943950726028856e-05,
      "loss": 0.1485,
      "step": 227
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.860276136152026e-05,
      "loss": 0.1514,
      "step": 228
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.777087764310134e-05,
      "loss": 0.1482,
      "step": 229
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.6943934801257026e-05,
      "loss": 0.147,
      "step": 230
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.612201106480548e-05,
      "loss": 0.1457,
      "step": 231
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.530518418775733e-05,
      "loss": 0.1488,
      "step": 232
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.449353144196014e-05,
      "loss": 0.1481,
      "step": 233
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.368712960978864e-05,
      "loss": 0.1533,
      "step": 234
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.2886054976880676e-05,
      "loss": 0.1517,
      "step": 235
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.209038332492118e-05,
      "loss": 0.1507,
      "step": 236
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.130018992447276e-05,
      "loss": 0.1511,
      "step": 237
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.051554952785531e-05,
      "loss": 0.1473,
      "step": 238
    },
    {
      "epoch": 0.71,
      "learning_rate": 3.973653636207437e-05,
      "loss": 0.1495,
      "step": 239
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.896322412179929e-05,
      "loss": 0.1488,
      "step": 240
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.819568596239167e-05,
      "loss": 0.1499,
      "step": 241
    },
    {
      "epoch": 0.72,
      "learning_rate": 3.743399449298488e-05,
      "loss": 0.1492,
      "step": 242
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.667822176961534e-05,
      "loss": 0.1521,
      "step": 243
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.59284392884057e-05,
      "loss": 0.1463,
      "step": 244
    },
    {
      "epoch": 0.73,
      "learning_rate": 3.5184717978801765e-05,
      "loss": 0.1477,
      "step": 245
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.444712819686213e-05,
      "loss": 0.1434,
      "step": 246
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.37157397186028e-05,
      "loss": 0.1505,
      "step": 247
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.2990621733396186e-05,
      "loss": 0.152,
      "step": 248
    },
    {
      "epoch": 0.74,
      "learning_rate": 3.227184283742591e-05,
      "loss": 0.1534,
      "step": 249
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.155947102719754e-05,
      "loss": 0.15,
      "step": 250
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.085357369310612e-05,
      "loss": 0.1475,
      "step": 251
    },
    {
      "epoch": 0.75,
      "learning_rate": 3.0154217613061163e-05,
      "loss": 0.1491,
      "step": 252
    },
    {
      "epoch": 0.76,
      "learning_rate": 2.9461468946169136e-05,
      "loss": 0.1588,
      "step": 253
    },
    {
      "epoch": 0.76,
      "learning_rate": 2.8775393226475224e-05,
      "loss": 0.1515,
      "step": 254
    },
    {
      "epoch": 0.76,
      "learning_rate": 2.809605535676352e-05,
      "loss": 0.1467,
      "step": 255
    },
    {
      "epoch": 0.77,
      "learning_rate": 2.742351960241728e-05,
      "loss": 0.1531,
      "step": 256
    },
    {
      "epoch": 0.77,
      "learning_rate": 2.675784958533948e-05,
      "loss": 0.1512,
      "step": 257
    },
    {
      "epoch": 0.77,
      "learning_rate": 2.6099108277934103e-05,
      "loss": 0.1478,
      "step": 258
    },
    {
      "epoch": 0.77,
      "learning_rate": 2.5447357997149024e-05,
      "loss": 0.1542,
      "step": 259
    },
    {
      "epoch": 0.78,
      "learning_rate": 2.4802660398580735e-05,
      "loss": 0.1513,
      "step": 260
    },
    {
      "epoch": 0.78,
      "learning_rate": 2.4165076470641858e-05,
      "loss": 0.1476,
      "step": 261
    },
    {
      "epoch": 0.78,
      "learning_rate": 2.3534666528791472e-05,
      "loss": 0.1475,
      "step": 262
    },
    {
      "epoch": 0.79,
      "learning_rate": 2.29114902098294e-05,
      "loss": 0.1544,
      "step": 263
    },
    {
      "epoch": 0.79,
      "learning_rate": 2.229560646625448e-05,
      "loss": 0.1516,
      "step": 264
    },
    {
      "epoch": 0.79,
      "learning_rate": 2.168707356068773e-05,
      "loss": 0.1484,
      "step": 265
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.1085949060360654e-05,
      "loss": 0.1522,
      "step": 266
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.0492289831669366e-05,
      "loss": 0.1482,
      "step": 267
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.9906152034795156e-05,
      "loss": 0.1496,
      "step": 268
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.9327591118391465e-05,
      "loss": 0.1522,
      "step": 269
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.8756661814338773e-05,
      "loss": 0.1426,
      "step": 270
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.8193418132566708e-05,
      "loss": 0.1502,
      "step": 271
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.763791335594481e-05,
      "loss": 0.1499,
      "step": 272
    },
    {
      "epoch": 0.82,
      "learning_rate": 1.7090200035241976e-05,
      "loss": 0.1478,
      "step": 273
    },
    {
      "epoch": 0.82,
      "learning_rate": 1.6550329984155112e-05,
      "loss": 0.1501,
      "step": 274
    },
    {
      "epoch": 0.82,
      "learning_rate": 1.601835427440759e-05,
      "loss": 0.1448,
      "step": 275
    },
    {
      "epoch": 0.83,
      "learning_rate": 1.5494323230917805e-05,
      "loss": 0.1528,
      "step": 276
    },
    {
      "epoch": 0.83,
      "learning_rate": 1.4978286427038601e-05,
      "loss": 0.1528,
      "step": 277
    },
    {
      "epoch": 0.83,
      "learning_rate": 1.4470292679867347e-05,
      "loss": 0.1445,
      "step": 278
    },
    {
      "epoch": 0.83,
      "learning_rate": 1.3970390045628134e-05,
      "loss": 0.1501,
      "step": 279
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.3478625815125467e-05,
      "loss": 0.1442,
      "step": 280
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.2995046509270592e-05,
      "loss": 0.1487,
      "step": 281
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.251969787468068e-05,
      "loss": 0.1524,
      "step": 282
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.2052624879351104e-05,
      "loss": 0.1489,
      "step": 283
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.1593871708401526e-05,
      "loss": 0.1533,
      "step": 284
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.1143481759895958e-05,
      "loss": 0.1484,
      "step": 285
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.070149764073738e-05,
      "loss": 0.1459,
      "step": 286
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.0267961162636918e-05,
      "loss": 0.1494,
      "step": 287
    },
    {
      "epoch": 0.86,
      "learning_rate": 9.842913338158732e-06,
      "loss": 0.1471,
      "step": 288
    },
    {
      "epoch": 0.86,
      "learning_rate": 9.426394376840053e-06,
      "loss": 0.1437,
      "step": 289
    },
    {
      "epoch": 0.87,
      "learning_rate": 9.018443681387312e-06,
      "loss": 0.1527,
      "step": 290
    },
    {
      "epoch": 0.87,
      "learning_rate": 8.619099843948842e-06,
      "loss": 0.1474,
      "step": 291
    },
    {
      "epoch": 0.87,
      "learning_rate": 8.228400642463874e-06,
      "loss": 0.1488,
      "step": 292
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.846383037088867e-06,
      "loss": 0.144,
      "step": 293
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.473083166700945e-06,
      "loss": 0.1543,
      "step": 294
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.108536345479322e-06,
      "loss": 0.1509,
      "step": 295
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.75277705956443e-06,
      "loss": 0.1474,
      "step": 296
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.405838963795597e-06,
      "loss": 0.1434,
      "step": 297
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.067754878527332e-06,
      "loss": 0.1524,
      "step": 298
    },
    {
      "epoch": 0.89,
      "learning_rate": 5.738556786524452e-06,
      "loss": 0.1517,
      "step": 299
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.418275829936537e-06,
      "loss": 0.1505,
      "step": 300
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.106942307351881e-06,
      "loss": 0.1518,
      "step": 301
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.8045856709312945e-06,
      "loss": 0.1478,
      "step": 302
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.511234523621799e-06,
      "loss": 0.1524,
      "step": 303
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.226916616450916e-06,
      "loss": 0.1472,
      "step": 304
    },
    {
      "epoch": 0.91,
      "learning_rate": 3.951658845901418e-06,
      "loss": 0.1524,
      "step": 305
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.6854872513667705e-06,
      "loss": 0.1468,
      "step": 306
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.428427012688007e-06,
      "loss": 0.1501,
      "step": 307
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.1805024477715716e-06,
      "loss": 0.1529,
      "step": 308
    },
    {
      "epoch": 0.92,
      "learning_rate": 2.941737010288903e-06,
      "loss": 0.1471,
      "step": 309
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.712153287457686e-06,
      "loss": 0.1472,
      "step": 310
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.4917729979051396e-06,
      "loss": 0.1522,
      "step": 311
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.2806169896134042e-06,
      "loss": 0.1464,
      "step": 312
    },
    {
      "epoch": 0.94,
      "learning_rate": 2.0787052379473203e-06,
      "loss": 0.1501,
      "step": 313
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.8860568437648052e-06,
      "loss": 0.1489,
      "step": 314
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.7026900316098215e-06,
      "loss": 0.1522,
      "step": 315
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.5286221479884343e-06,
      "loss": 0.1465,
      "step": 316
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.3638696597277679e-06,
      "loss": 0.1513,
      "step": 317
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.20844815241824e-06,
      "loss": 0.1462,
      "step": 318
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.0623723289392096e-06,
      "loss": 0.1489,
      "step": 319
    },
    {
      "epoch": 0.96,
      "learning_rate": 9.256560080680543e-07,
      "loss": 0.1484,
      "step": 320
    },
    {
      "epoch": 0.96,
      "learning_rate": 7.983121231729174e-07,
      "loss": 0.1521,
      "step": 321
    },
    {
      "epoch": 0.96,
      "learning_rate": 6.80352720989208e-07,
      "loss": 0.1446,
      "step": 322
    },
    {
      "epoch": 0.97,
      "learning_rate": 5.717889604799797e-07,
      "loss": 0.149,
      "step": 323
    },
    {
      "epoch": 0.97,
      "learning_rate": 4.726311117803084e-07,
      "loss": 0.1512,
      "step": 324
    },
    {
      "epoch": 0.97,
      "learning_rate": 3.8288855522572444e-07,
      "loss": 0.1463,
      "step": 325
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.02569780464812e-07,
      "loss": 0.1494,
      "step": 326
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.31682385656129e-07,
      "loss": 0.1555,
      "step": 327
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.7023307674940424e-07,
      "loss": 0.1514,
      "step": 328
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.1822766685112286e-07,
      "loss": 0.147,
      "step": 329
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.567107567467701e-08,
      "loss": 0.1508,
      "step": 330
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.256732907487182e-08,
      "loss": 0.1476,
      "step": 331
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.8919558667174208e-08,
      "loss": 0.1472,
      "step": 332
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.730001531361161e-09,
      "loss": 0.1521,
      "step": 333
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0,
      "loss": 0.1519,
      "step": 334
    },
    {
      "epoch": 1.0,
      "step": 334,
      "total_flos": 2154078016634880.0,
      "train_loss": 0.17154597660560095,
      "train_runtime": 33508.3377,
      "train_samples_per_second": 1.197,
      "train_steps_per_second": 0.01
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 334,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50000,
  "total_flos": 2154078016634880.0,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}